Колишній інженер Seed у ByteDance: ітерації AI у ByteDance тривають шість місяців проти трьох у Google

Повідомлення Gate News, 24 квітня — Чжан Чі, колишній інженер команди Seed у ByteDance та нинішній доцент Пекінського університету, розповів у подкасті “Into Asia”, що ByteDance потрібно приблизно шість місяців, щоб завершити один повний цикл тренування великих мовних моделей (pretraining плюс післятренуванн), тоді як, як повідомляється, Google вистачає лише трьох місяців. Чжан пов’язав різницю в швидкості з ключовою причиною, чому китайські компанії не можуть наздогнати в розробці ШІ.

Чжан описав у Seed “культуру бенчмаркінгу”, де керівників команд оцінюють за бенчмарковими показниками, які вони контролюють, і всі учасники зосереджуються на тому, щоб збільшувати ці цифри. Однак він зазначив, що на практиці це не перетворюється на кращий користувацький досвід. Хоча моделі великих китайських компаній на папері виглядають конкурентними з провідними моделями США, у реальному використанні вони не дотягують. Мета Seed — досягти глобального рівня топових показників, але Чжан заявив, що він не вірить, ніби команді це вдалося, і вона також не досягла цільового показника лідерства всередині країни.

Наприкінці 2024 року Seed вважала себе на рівні GPT-4o, але після виходу DeepSeek команда усвідомила, що розрив залишився. Коли Чжан приєднався, вся група терміново переорієнтовувалася на навчання з підкріпленням, щоб усунути нестачу.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

DeepSeek V4-Flash піднявся на Ollama Cloud, сервери США: Claude Code, OpenClaw — однокнопкове підключення

Ollama Cloud щойно додав у каталог DeepSeek V4-Flash; виведення виконується на хостингах у США, пропонує три набори команд в один клік для підключення Claude Code, OpenClaw і Hermes. V4-Flash/V4-Pro використовують архітектуру MoE, нативно підтримують 1M контекст і знижують витрати завдяки стисненню Token-wise + розрідженій увазі DSA; за сценарію 1M FLOPs на один token зменшується на 27%, а KV кеш — на 10%. API сумісний з OpenAI ChatCompletions та Anthropic, що робить зручним перемикання між різними робочими процесами та знижує витрати й ризики щодо даних і суверенітету.

ChainNewsAbmedia1год тому

Web3 AI Infrastructure AIW3 Залучає $2M у seed-фінансуванні на чолі з Buffalo Capital

Повідомлення Gate News, 24 квітня — платформа інфраструктури Web3 AI AIW3 оголосила про завершення $2 мільйонного seed-раунду. Раунд очолювала Buffalo Capital, а GalaXin Capital і Three-stones Ventures брали участь як співінвестори. AIW3 переходить до Agent-as-a-Service

GateNews1год тому

Cohere придбає німецьку компанію в галузі ШІ Aleph Alpha та забезпечує $600M інвестицій для європейської експансії

Повідомлення Gate News, 24 квітня — канадська компанія в галузі ШІ Cohere оголосила про плани придбати німецьку компанію в галузі ШІ Aleph Alpha, щоб посилити свою присутність у Європі. Schwarz Group, інвестор Aleph Alpha, планує інвестувати $600 мільйонів у раунд фінансування Series E Cohere. Очікується, що раунд фінансування буде завершено в 202

GateNews2год тому

Xpeng і Xiaomi очолюють поштовх у бортовий ШІ на Пекінському автосалоні

Повідомлення Gate News, 24 квітня — Китайські автовиробники показали передові вбудовані в авто системи ШІ на Пекінському автосалоні 24 квітня, оскільки країна прискорює свою стратегію AI Plus та прагне більшої незалежності від іноземних напівпровідників. Xpeng продемонструвала голосокероване паркування, яке дозволяє водіям «

GateNews2год тому

Інженер OpenAI Клайв Чан Оскаржує Рекомендації щодо Апаратного Забезпечення V4, Посилаючись на Помилки та Невизначеність Порівняно з V3

Повідомлення Gate News, 24 квітня — інженер OpenAI Клайв Чан висунув детальні заперечення до розділу з рекомендаціями щодо апаратного забезпечення у технічному звіті V4, назвавши його "дивовижно посереднім і таким, що схильний до помилок" порівняно з відомою версією V3. Апаратні рекомендації V3, які включали сесії Q&A

GateNews3год тому

Naver запускає бета-версію AI Tab, коли Google Gemini виходить на ринок пошуку Південної Кореї

Повідомлення Gate News, 24 квітня — Naver оголосила про старт закритої бета-версії AI Tab, її нової функції розмовного пошуку, після запуску Google Gemini у Chrome в Південній Кореї. AI Tab з’явиться поруч із наявними вкладками пошуку Naver, надаючи користувачам окремий простір для розмовних

GateNews3год тому
Прокоментувати
0/400
Немає коментарів