OpenAI veröffentlicht Updates für Echtzeit-Inferenz in den Bereichen Audio, Vision und Text
Laut Cointelegraph hat OpenAI im Oktober vier Updates an seinen Modellen vorgenommen, um die Gesprächsführung seiner KI-Modelle zu verbessern und die Bilderkennung zu optimieren. Das erste große Update ist eine Echtzeit-API, die es Entwicklern ermöglicht, KI-generierte Sprach-Apps mit einem einzigen Prompt zu erstellen, was natürliche Gespräche ähnlich den fortgeschrittenen Sprachmustern von ChatGPT ermöglicht. Zuvor mussten Entwickler mehrere Modelle „zusammenfügen“, um diese Erfahrungen zu schaffen. Audioeingaben müssen in der Regel vollständig hochgeladen und verarbeitet werden, bevor eine Antwort empfangen wird, was bedeutet, dass Echtzeitanwendungen wie Sprach-zu-Sprach-Gespräche eine hohe Latenz aufweisen. Mit den Streaming-Funktionen der Realtime-API können Entwickler nun sofortige, natürliche Interaktionen realisieren, ähnlich wie bei einem Sprachassistenten. Die API, die auf GPT-4 läuft und im Mai 2024 veröffentlicht wird, ermöglicht Echtzeit-Inferenz über Audio, Vision und Text. Ein weiteres Update umfasst Feinabstimmungswerkzeuge für Entwickler, die es ihnen ermöglichen, KI-Antworten zu verbessern, die aus Bild- und Texteingaben generiert werden. Der bildbasierte Feinabstimmer ermöglicht es der KI, Bilder besser zu verstehen, was zu einer verbesserten visuellen Suche und Objekterkennung führt. Der Prozess beinhaltet Feedback von Menschen, die Beispiele für gute und schlechte Antworten zur Schulung bereitstellen. Zusätzlich zu den Sprach- und Vision-Updates hat OpenAI „Modelldestillation“ und „Cue-Caching“ eingeführt, die es kleineren Modellen ermöglichen, von größeren zu lernen und die Entwicklungszeit und -kosten durch die Wiederverwendung verarbeiteter Texte zu reduzieren. Laut Reuters erwartet OpenAI, dass die Einnahmen im nächsten Jahr auf 11,6 Milliarden Dollar steigen werden, verglichen mit den prognostizierten 3,7 Milliarden Dollar im Jahr 2024.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
Das könnte Ihnen auch gefallen
Ripple-Technologiechef: Regierung "besessen von indirekter Regulierung"
THETA durchbricht 3 Dollar