Інженер OpenAI Клайв Чан Оскаржує Рекомендації щодо Апаратного Забезпечення V4, Посилаючись на Помилки та Невизначеність Порівняно з V3

Повідомлення Gate News, 24 квітня — інженер OpenAI Клайв Чан висунув детальні заперечення до розділу з рекомендаціями щодо апаратного забезпечення у технічному звіті V4, назвавши його “дивовижно посереднім і таким, що схильний до помилок” порівняно з відомою версією V3. Апаратні рекомендації V3, які включали сесії Q&A, що стали найпопулярнішою темою для обговорення на академічній конференції ISCA, пропонували конкретні рекомендації, узгоджені з галузевими стандартами інтерконекту. Натомість V4 є значно більш невизначеним.

Чан системно оскаржив три ключові рекомендації. Щодо споживання електроенергії, у звіті стверджується, що оптимізація програмного забезпечення дозволяє чипам одночасно працювати на повну потужність для обчислень, зберігання та зв’язку, і рекомендується виробникам чипів залишати додатковий запас потужності. Чан вважає це контрпродуктивним: загальна потужність чипа обмежена фізичними обмеженнями процесу, тож резервування більшого запасу потужності лише знижує робочу частоту, зрештою зменшуючи обчислювальну продуктивність. Щодо передавання даних між GPU, у звіті пропонується модель pull — коли GPU активно отримують дані — замість моделі push, посилаючись на високу накладну вартість сповіщень у операціях push. Чан заперечує це, стверджуючи, що pull насправді повільніший і що були б кращими покращені можливості мережевих адаптерів. Однак вони можуть обговорювати різні рівні проблеми: звіт говорить про накладні витрати механізму сповіщень, тоді як Чан має на увазі саму затримку передавання.

Щодо функцій активації, у звіті рекомендується замінити SwiGLU на простіші функції, щоб зменшити обчислювальне навантаження. Чан не бачить у цьому жодної користі, зазначаючи, що Sonic MoE вже продемонстрував оптимальну продуктивність із використанням SwiGLU. Чан припускає, що DeepSeek може мати “навмисно ослабив цей розділ.”

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Anthropic відкотила зміни в Claude Code після падіння якості; усі виправлення завершено

Повідомлення Gate News, 24 квітня — Anthropic визнав нещодавнє погіршення якості Claude Code та підтвердив, що всі пов’язані проблеми вирішено за допомогою відкатів і виправлень. Проблеми виникли через три зміни продукту й підказок, внесені в період між початком і серединою квітня. 4 березня

GateNews1год тому

Співзасновник NeoSoul Каелан: Індустрія ШІ має дозволяти існування «іграшок», інновації часто стартують як експериментальні продукти

Повідомлення Gate News, 24 квітня — На нещодавньому форумі в Гонконзі з інтелектуальних зашифрованих фінансів співзасновник NeoSoul Каелан поділився міркуваннями щодо оцінювання проєктів ШІ на ранній стадії, в галузі ШІ, що швидко розвивається. Окрім оцінки наявних продуктів, команди мають продемонструвати здатність не відставати від можливостей базової моделі, сказав він.

GateNews1год тому

Meta розгорне десятки мільйонів чипів AWS Graviton5 у багаторічній угоді на мільярди доларів

Повідомлення Gate News, 24 квітня — Meta підписала багаторічну угоду з Amazon Web Services, щоб розгорнути десятки мільйонів процесорів Graviton5 для своєї інфраструктури ШІ, зробивши Meta одним із найбільших клієнтів AWS Graviton у всьому світі. Угода, розрахована на три–п’ять років, оцінюється в мільярди доларів, за даними

GateNews1год тому

DeepSeek V4-Flash піднявся на Ollama Cloud, сервери США: Claude Code, OpenClaw — однокнопкове підключення

Ollama Cloud щойно додав у каталог DeepSeek V4-Flash; виведення виконується на хостингах у США, пропонує три набори команд в один клік для підключення Claude Code, OpenClaw і Hermes. V4-Flash/V4-Pro використовують архітектуру MoE, нативно підтримують 1M контекст і знижують витрати завдяки стисненню Token-wise + розрідженій увазі DSA; за сценарію 1M FLOPs на один token зменшується на 27%, а KV кеш — на 10%. API сумісний з OpenAI ChatCompletions та Anthropic, що робить зручним перемикання між різними робочими процесами та знижує витрати й ризики щодо даних і суверенітету.

ChainNewsAbmedia3год тому

Web3 AI Infrastructure AIW3 Залучає $2M у seed-фінансуванні на чолі з Buffalo Capital

Повідомлення Gate News, 24 квітня — платформа інфраструктури Web3 AI AIW3 оголосила про завершення $2 мільйонного seed-раунду. Раунд очолювала Buffalo Capital, а GalaXin Capital і Three-stones Ventures брали участь як співінвестори. AIW3 переходить до Agent-as-a-Service

GateNews3год тому

Cohere придбає німецьку компанію в галузі ШІ Aleph Alpha та забезпечує $600M інвестицій для європейської експансії

Повідомлення Gate News, 24 квітня — канадська компанія в галузі ШІ Cohere оголосила про плани придбати німецьку компанію в галузі ШІ Aleph Alpha, щоб посилити свою присутність у Європі. Schwarz Group, інвестор Aleph Alpha, планує інвестувати $600 мільйонів у раунд фінансування Series E Cohere. Очікується, що раунд фінансування буде завершено в 202

GateNews4год тому
Прокоментувати
0/400
Немає коментарів