OpenAI stellt neues Modell GPT-4o vor: ChatGPT kann jetzt singen

14 Mai 2024
OpenAI

OpenAIs bislang mächtigstes Sprachmodell GPT-4 hat einen Nachfolger. Das KI-Unternehmen aus San Francisco stellte am Montag GPT-4o  vor. Das »o« steht dabei für »omni«: Das Modell soll in der Lage sein, Text, Audio und hochgeladene Bilder gleichermaßen zu verarbeiten, Echtzeitkommunikation zu führen – und in der Sprachausgabe zwischen Tonalität, Stimmen und bis zu 50 Sprachen hin- und herzuwechseln.

Grundsätzlich konnte ChatGPT schon bisher sowohl Bilder interpretieren, als auch Antworten in gesprochener Sprache ausgeben. Doch mit GPT-4o soll all das flüssiger, natürlicher, schneller möglich sein. Kurz: Das neue Modell soll ChatGPT zu einem Chatbot machen, mit dem sich Nutzerinnen und Nutzer problemlos unterhalten können.

Die Ankündigung kam nur einen Tag vor dem Auftakt zu Googles jährlicher Entwicklerkonferenz I/O und wenige Wochen vor der von Apple. Von Google werden Neuigkeiten zum Sprachmodell Gemini und dessen Integration in Googles Produkte erwartet, von Apple eine neue Version von Siri, gerüchteweise mit Technologie von OpenAI und Google im Hintergrund.

Angesichts der Marktmacht der beiden Unternehmen dürfte OpenAI daran gelegen sein, selbst mehr Menschen zu seinen Produkten zu locken. ChatGPT galt zwar als am schnellsten wachsende App der Welt, doch die Zahl der aktiven Nutzerinnen und Nutzern liegt weiterhin bei rund 100 Millionen, dem Wert, den OpenAI bereits vor einem Jahr bekannt gab.

In mehreren Live-Vorführungen  zeigte OpenAIs Technikchefin Mira Murati zusammen mit zwei Entwicklern, wie vergleichsweise natürlich Gespräche mit der neuen Version von ChatGPT ablaufen können. Der Bot erzählte auf Wunsch eine Gutenacht-Geschichte mal in dramatisch überhöhtem Tonfall, mal mit einer klischeehaft roboterartigen Stimme und mal mit Gesang, allerdings alles in englischer Sprache. Was nach Spielerei klingt, sollte offenbar verdeutlichen, dass OpenAI explizit eine neue Phase der Mensch-Maschine-Kommunikation einläuten möchte.

Dazu passte, dass ChatGPT in der Präsentation handgeschriebene lineare Gleichungen erkannte und half, diese zu lösen. Und der Bot erklärte Funktionen in einem Stück Computercode. In einem weiteren Gespräch übersetzte er dann auf Wunsch zwischen Englisch und Italienisch. All das passierte ohne hörbare Pause, der Bot legte also immer sofort los. Nur einmal patzte der Bot: Er behauptete, die erste mathematische Gleichung zu sehen, noch bevor der Entwickler sie aufgeschrieben hatte. »Ups, da war ich zu aufgeregt«, korrigierte er sich.

Die neuen Fähigkeiten werden nicht sofort für alle nutzbar sein

OpenAI will diese Version von ChatGPT mit dem neuen Modell im Hintergrund allen Nutzerinnen und Nutzern kostenlos zur Verfügung stellen. Möglich sein wird das wie gehabt auf der Website des Unternehmens, in der App, die es jetzt auch für den Mac-Desktop gibt (eine Windows-Version soll später folgen), sowie über die Programmierschnittstelle (API). Zahlende Anwenderinnen und Anwender sollen allerdings mehr Kapazitäten bekommen. Und sie werden auch vor den Nichtzahlenden die neue Sprachausgabe nutzen können. Noch bevor sie an der Reihe sind, soll die Sprachfunktion allerdings von »vertrauensvollen Partnern« getestet werden, wie das Unternehmen mitteilte.

Mehr lesen
Ähnliche Nachrichten