GPT-5.5 повертається на передній край у кодуванні, але OpenAI змінює бенчмарки після поразки від Opus 4.7

Повідомлення Gate News, 27 квітня — SemiAnalysis, компанія з аналізу напівпровідників та ШІ, опублікувала порівняльний бенчмарк асистентів для кодування, зокрема GPT-5.5, Claude Opus 4.7 і DeepSeek V4. Ключовий висновок: GPT-5.5 означає перше повернення OpenAI на передній край у моделях для кодування за шість місяців, причому інженери SemiAnalysis тепер чергують між Codex і Claude Code після того, як раніше майже виключно покладалися на Claude. GPT-5.5 створено на основі нового підходу до попереднього навчання з кодовою назвою “Spud” і є першим розширенням масштабу попереднього навчання OpenAI з моменту GPT-4.5.

У практичному тестуванні чітко проявився розподіл ролей. Claude береться за планування нових проєктів та початкове налаштування, тоді як Codex найкраще справляється з виправленнями багів, що потребують інтенсивного осмислення. Codex демонструє сильніше розуміння структур даних і логічного міркування, але має труднощі з тим, щоб вгадувати неоднозначні наміри користувача. В одній задачі на єдиній панелі керування Claude автоматично відтворив макет сторінки-зразка, але сфабрикував великі обсяги даних, тоді як Codex пропустив макет, зате видав значно точніші дані.

Аналіз виявляє деталь маніпуляції бенчмарком: у лютневому блозі OpenAI закликав індустрію перейти на SWE-bench Pro як новий стандарт для бенчмарків кодування. Однак у повідомленні про GPT-5.5 перехід здійснили на новий бенчмарк під назвою “Expert-SWE.” Причина, захована в дрібному шрифті, полягає в тому, що GPT-5.5 було випереджено Opus 4.7 на SWE-bench Pro і він суттєво відстав від неопублікованого Mythos (77.8%) від Anthropic.

Щодо Opus 4.7: Anthropic опублікувала постмортем-аналіз через тиждень після релізу, визнавши три баги в Claude Code, які зберігалися протягом кількох тижнів з березня по квітень, впливаючи майже на всіх користувачів. Раніше кілька інженерів повідомляли про погіршення продуктивності в версії 4.6, але їх відхилили, назвавши суб’єктивними спостереженнями. Крім того, новий токенізатор у Opus 4.7 збільшує використання токенів до 35%, що Anthropic прямо визнав — по суті, це приховане підвищення ціни.

DeepSeek V4 оцінили як “дотримання темпу з переднім краєм, але без лідерства,” позиціонуючи його як найдешевшу альтернативу серед моделей із закритим кодом. Аналіз також зазначив, що “Claude продовжує випереджати DeepSeek V4 Pro у завданнях із високою складністю китайського письма,” коментуючи, що “Claude переміг китайську модель у її власній мові.”

У статті вводиться ключова ідея: ціноутворення моделей слід оцінювати за “вартістю за задачу” замість “вартості за токен.” Ціна GPT-5.5 удвічі вища за ціну GPT-5.4 (input $5, output $30 per million tokens), але він виконує ті самі завдання, використовуючи менше токенів, тож фактична вартість не обов’язково вища. Початкові дані SemiAnalysis показують, що співвідношення вхідних і вихідних даних у Codex становить 80:1, що нижче, ніж у Claude Code — 100:1.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

DeepSeek V4 Pro на Ollama Cloud: Claude Code одним кліком

Згідно з твітом Ollama, DeepSeek V4 Pro було випущено 4/24, уже додано в каталог Ollama в режимі хмари, і лише однією командою можна викликати такі інструменти, як Claude Code, Hermes, OpenClaw, OpenCode, Codex тощо. В4 Pro1.6T params, 1M context, Mixture-of-Experts; хмарний висновок не завантажує локальні ваги. Щоб запускати локально, потрібно самостійно отримати ваги й виконувати їх з INT4/GGUF та кількома GPU. Ранні тести швидкості були впливом хмарного навантаження: у звичайному режимі приблизно 30 tok/s, у піку 1.1tok/s; рекомендується спочатку використовувати хмарний прототип, а для офіційного серійного виробництва — виконувати власний висновок або використовувати комерційне API.

ChainNewsAbmedia11хв. тому

DeepSeek знижує ціни на V4-Pro на 75% і скорочує витрати на кеш API до однієї десятої

Повідомлення Gate News, 27 квітня — DeepSeek оголосила знижку 75% на свою нову модель V4-Pro для розробників і знизила ціни на кеш вхідних даних у всій лінійці API до однієї десятої від попередніх рівнів. Модель V4, випущена 25 квітня у версіях Pro і Flash, була оптимізована під процесори Ascend від Huawei

GateNews13хв. тому

Coachella звертається до ШІ DeepMind від Google, щоб переосмислити концерти поза сценою

Coachella співпрацює з Google DeepMind, щоб протестувати нові інструменти ШІ, які змінюють спосіб створення та сприйняття live-музичних виступів. Резюме Coachella тестувала інструменти ШІ разом із Google DeepMind, щоб перетворювати live-виступи на інтерактивні цифрові середовища. Було створено три прототипи,

Cryptonews20хв. тому

Го Мінцзун: OpenAI хоче створити мобільний телефон з AI-агентом, MediaTek, Qualcomm і Luxshare Precision стають ключовими ланками ланцюга постачання

Го Міньцунь стверджує, що OpenAI співпрацює з MediaTek, Qualcomm і Luxshare Precision у розробці AI-агентного телефону, і що його планують перейти в серійне виробництво у 2028 році. Новий телефон буде орієнтований на виконання завдань: AI-агент розумітиме та виконуватиме запити, поєднуючи хмарні й пристроєві обчислення; ключовий акцент — на сенсорах і розумінні контексту. Перелік специфікацій і ланцюг постачання, як очікується, буде остаточно визначено у 2026–2027 роках. Якщо проєкт буде реалізовано, це може спричинити новий цикл оновлення для ринку в сегменті високого класу; Luxshare може стати основним бенефіціаром.

ChainNewsAbmedia29хв. тому

IEA: Видатки на інфраструктуру для ШІ вже перевищили інвестиції у видобуток нафти та газу; у 2026 році, за прогнозами, вони ще зростуть на 75%

Згідно з аналізом і ринковими даними, оприлюдненими Міжнародним енергетичним агентством (IEA) 26 квітня, сукупні капітальні витрати п’яти найбільших технологічних компаній у 2025 році перевищили 400 млрд доларів США. Головним чином вони спрямовані на будівництво інфраструктури для ШІ; їхній масштаб уже перевищує річний обсяг інвестицій у глобальне виробництво нафти та природного газу. IEA оцінює, що в 2026 році відповідні капітальні витрати можуть зрости ще на 75%.

MarketWhisper1год тому

Сенатор Берні Сандерс робить попередження про екзистенційну загрозу від ШІ

Сандерс наголосив, що навіть попри те, що більшість учених з ШІ визнають можливість того, що ШІ може вирватися з-під контролю й стати небезпекою для нашого існування, жодних серйозних заходів не було вжито, щоб цьому запобігти. «Ми повинні бути впевнені, що ШІ приносить користь людству, а не шкодить нам», — заявив він. Ключові висновки: Берні Сандерс

Coinpedia1год тому
Прокоментувати
0/400
Немає коментарів