Sesame.ai_Voice Chat
Zur Zeit nur Demo-Version!
Um KI-Gefährten zu schaffen, die sich wirklich interaktiv fühlen, muss die Sprachgenerierung über die Erzeugung hochwertiger Audio hinausgehen-sie muss in Echtzeit den Kontext verstehen und sich an den Kontext anpassen. Traditionelle Modelle von Text-to-Speech-Modellen (TTS) erzeugen die gesprochene Ausgabe direkt aus dem Text, aber es fehlt das kontextbezogene Bewusstsein, das für natürliche Gespräche erforderlich ist. Obwohl jüngste Modelle eine sehr menschliche Sprache hervorbringen, kämpfen sie mit dem Eins-zu-viele-Problem: Es gibt unzählige gültige Möglichkeiten, einen Satz zu sprechen, aber nur einige passen zu einer bestimmten Einstellung. Ohne zusätzlichen Kontext - einschließlich Ton, Rhythmus und Geschichte des Gesprächs - fehlen den Modellen die Informationen, um die beste Option zu wählen. Die Erfassung dieser Nuancen erfordert das Denken über mehrere Aspekte von Sprache und Prosodie hinweg.