Сотрудники OpenAI публично обвинили тесты Бенчмарк Grok3 в искажении результатов

GoldenOctober2024
GROK11,37%
XAI3,9%

Golden Ten Data, 23 февраля, недавно сотрудник OpenAI публично обвинил компанию xAI Илона Маска, заявив, что результаты тестирования Бенчмарка последней модели искусственного интеллекта Grok3, выпущенные ею, вводят в заблуждение. В ответ сооснователь xAI Игорь Бабушкин настаивал на том, что компания не ошиблась. Графики xAI показывают, что две версии Grok3 — Grok3 Reasoning Beta и Grok3 mini Reasoning — превзошли самую сильную в настоящее время доступную модель OpenAI, o3-mini-high, на AIME 2025. Тем не менее, сотрудники OpenAI поспешили указать на платформе X, что график xAI не включает оценку AIME 2025 в размере o3-mini-high в условиях «cons@64». Бабушкин утверждает на платформе X, что OpenAI в прошлом публиковала подобные вводящие в заблуждение тестовые таблицы Бенчмарка. Хотя эти графики используются для сравнения производительности собственных моделей.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Birakenewekovip
· 2025-02-23 03:48
Бычий рынок 🐂
Посмотреть ОригиналОтветить0
Renatinho25vip
· 2025-02-23 02:47
Инвестируйте 🚀
Посмотреть ОригиналОтветить0