Sesame.ai_Voice Chat

Sesame is the first voice assistant I’ve ever wanted to talk to more than once, theverge.com von Sean Hollister, 27. Februar 2025

·theverge.com·Mar 3, 2025

Sesame is the first voice assistant I’ve ever wanted to talk to more than once, theverge.com von Sean Hollister, 27. Februar 2025

Sesame.com - Crossing the uncanny valley of conversational voice - März 2025

Zur Zeit nur Demo-Version!

Um KI-Gefährten zu schaffen, die sich wirklich interaktiv fühlen, muss die Sprachgenerierung über die Erzeugung hochwertiger Audio hinausgehen-sie muss in Echtzeit den Kontext verstehen und sich an den Kontext anpassen. Traditionelle Modelle von Text-to-Speech-Modellen (TTS) erzeugen die gesprochene Ausgabe direkt aus dem Text, aber es fehlt das kontextbezogene Bewusstsein, das für natürliche Gespräche erforderlich ist. Obwohl jüngste Modelle eine sehr menschliche Sprache hervorbringen, kämpfen sie mit dem Eins-zu-viele-Problem: Es gibt unzählige gültige Möglichkeiten, einen Satz zu sprechen, aber nur einige passen zu einer bestimmten Einstellung. Ohne zusätzlichen Kontext - einschließlich Ton, Rhythmus und Geschichte des Gesprächs - fehlen den Modellen die Informationen, um die beste Option zu wählen. Die Erfassung dieser Nuancen erfordert das Denken über mehrere Aspekte von Sprache und Prosodie hinweg.

·sesame.com·Mar 3, 2025

Sesame.com - Crossing the uncanny valley of conversational voice - März 2025