OpenAI publie trois modèles vocaux dans l’API en temps réel ; GPT-Realtime-2 affiche une fenêtre de contexte de 128K

D’après Beating, OpenAI a publié trois modèles vocaux dans son API Realtime : GPT-Realtime-2 pour la conversation vocale avec raisonnement, GPT-Realtime-Translate pour la traduction en temps réel, et GPT-Realtime-Whisper pour la transcription en flux. GPT-Realtime-2 est le premier modèle vocal d’OpenAI avec une capacité de raisonnement de niveau GPT-5, étendant la fenêtre de contexte de 32K à 128K jetons, et prenant en charge jusqu’à 1-2 heures de conversation dense.

GPT-Realtime-2 a amélioré de 15,2% le benchmark Big Bench Audio et de 13,8% Audio MultiChallenge par rapport à GPT-Realtime-1.5. GPT-Realtime-Translate prend en charge 70+ langues d’entrée pour produire des traductions dans 13 langues de sortie. Tarification : GPT-Realtime-2 à 32 dollars par million de jetons d’entrée et 64 dollars par million de jetons de sortie ; Translate à 0,034 dollar par minute ; Whisper à 0,017 dollar par minute.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

RLWRLD publie le modèle d’IA RLDX-1 pour des mains robotiques industrielles

RLWRLD, une startup d’IA en robotique soutenue par LG Electronics, a dévoilé RLDX-1, un modèle fondateur conçu pour des mains robotiques à cinq doigts dans des applications industrielles, selon RLWRLD. La société a publié les poids, le code et la documentation technique du modèle sur GitHub et Hugging Face. Modèle

CryptoFrontierIl y a 6m

DeepMind AlphaEvolve bilan interdisciplinaire : la multiplication de matrices 4×4 bat le record de Strassen de 1969, la formation de Gemini est accélérée de 1%

Google DeepMind le 7 mai (heure américaine) a publié un rapport de résultats interdomaines d’AlphaEvolve. Le blog officiel de DeepMind résume les progrès concrets d’AlphaEvolve depuis son lancement : avoir trouvé une méthode de multiplication de matrices complexes 4×4 meilleure que l’algorithme de Strassen de 1969 (48 multiplications scalaires pures), avoir collaboré avec des mathématiciens tels que Terence Tao pour résoudre plusieurs problèmes mathématiques difficiles d’Erdős, avoir économisé 0,7% des ressources mondiales de calcul pour les centres de données de Google, avoir augmenté de 23% la vitesse des kernels clés entraînés avec Gemini, et avoir réduit de 1% le temps total d’entraînement de Gemini. Architecture : exploration en largeur pour Gemini Flash + Gemini

ChainNewsAbmediaIl y a 18m

OpenAI Codex lance une extension pour Chrome : permet de tester une Web App dans le navigateur, de récupérer le contexte entre pages, et de fonctionner en parallèle

Le 7 mai (heure américaine), OpenAI a dévoilé la fonctionnalité d’extension Chrome de Codex, permettant aux agents Codex d’opérer directement dans le navigateur Chrome sur macOS et Windows. La documentation officielle de Codex explique que l’extension permet à Codex de tester une application web sans prendre le contrôle du navigateur de l’utilisateur, de récupérer du contexte sur plusieurs onglets, d’utiliser Chrome DevTools, et de mener d’autres tâches en parallèle. OpenAI a également annoncé que les utilisateurs actifs hebdomadaires de Codex dépassent 4 millions, en hausse de 8 fois par rapport au début de l’année. Ce qui peut être fait dans le navigateur : tester une application web, récupérer du contexte entre les pages, utiliser DevTools Extension Chrome de Codex

ChainNewsAbmediaIl y a 21m

OpenAI lance GPT-Realtime-2 : intègre l’inférence de GPT-5 dans les agents vocaux et fait passer le contexte à 128K

OpenAI a annoncé le 7 mai (heure des États-Unis) à une conférence pour développeurs trois nouveaux modèles vocaux Realtime : GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper, tous accessibles aux développeurs via l’API Realtime. L’annonce officielle d’OpenAI indique que GPT-Realtime-2 est le premier modèle d’OpenAI doté de GPT-5

ChainNewsAbmediaIl y a 23m

Visite sur le terrain de laboratoires d’IA en Chine : un chercheur révèle que « l’écart entre les puces et les données » est la clé du différend entre les États-Unis et la Chine

L’explorateur approfondi de plusieurs laboratoires d’IA en Chine, Nathan Lambert, souligne que l’avantage central de la Chine réside dans sa culture, ses talents et son état d’esprit pragmatique : la recherche vise d’abord à améliorer la qualité des modèles, les étudiants deviennent des contributeurs clés et les collaborations en organisation sont moins sujettes aux luttes internes ; toutefois, il existe des lacunes en matière de puces, de données et de créativité, et la puissance de calcul externe est contrainte par des restrictions américaines, tandis qu’une qualité de données insuffisante pousse à construire des environnements d’entraînement en interne. Les entreprises publient du code source tout en conservant leurs technologies essentielles pour procéder à des ajustements sur mesure ; si les États-Unis resserrent l’ouverture de l’écosystème, cela pourrait affecter la position de leader mondial.

ChainNewsAbmediaIl y a 32m

A16z mène un tour de financement $16M pour la startup suédoise d’IA Pit

D’après Bloomberg, la start-up suédoise d’IA Pit a levé 16 millions de dollars lors d’un tour de table mené par Andreessen Horowitz, avec la participation de Lakestar et d’exécutifs de grandes entreprises d’IA et de technologie. Les familles Stena et Lundin en Suède ont également rejoint le tour. Pit a déjà obtenu des projets pilotes avec Voi,

GateNewsIl y a 36m
Commentaire
0/400
Aucun commentaire