Результати пошуку для "OPUS"
2026-05-05
08:11

TrendAI об’єднується з Anthropic, щоб виявляти вразливості платформи ШІ, знаходить критичну проблему з оцінкою CVSS 9,8 у Nvidia Isaac GR00T

Згідно з Trend Micro, TrendAI співпрацює з Anthropic, щоб використовувати Claude Opus 4.7 для досліджень безпеки, спрямованих на виявлення вразливостей у програмному забезпеченні та ранжування їх за рівнем ризику. TrendAI приєднався до Cyber Verification Program від Anthropic, який надає схваленим групам доступ до frontier AI
Більше
03:21

Індія попереджає про кіберризики через те, що ШІ Anthropic Mythos ізламує захисти у 83 із 100 тестових кейсів

Згідно з The Economic Times, індійське агентство з кібербезпеки нещодавно видало попередження високої критичності після того, як ШІ Anthropic Mythos продемонстрував здатність знаходити десятки тисяч вразливостей і перетворювати баги програмного забезпечення на експлуатовані атаки за кілька хвилин. Підрозділ Unit 42 компанії Palo Alto Networks і
Більше
11:02

Kimi K2.6 очолює рейтинги LLM OpenRouter у перший тиждень, використання зростає на 7 683%

Повідомлення Gate News, 28 квітня — Kimi K2.6, флагманська модель від Moonshot AI, досягла першого місця в щотижневих рейтингах LLM OpenRouter, споживши 1,88 трильйона токенів, та виросла на 7 683% у порівнянні з попереднім тижнем. Модель, запущена на OpenRouter 20 квітня, випередила Claude Sonnet 4.6 (1.35T, -3%) та DeepSeek
Більше
00:45

Copilot від GitHub переходить на облік за токенами з 1 червня, щомісячні внески без змін

Повідомлення Gate News, 28 квітня — GitHub оголосив, що всі плани Copilot перейдуть на облік за токенами з 1 червня 2026 року. Наявну цінову модель "premium request" буде замінено на GitHub AI Credits, а використання розраховуватиметься на основі фактичного споживання токенів (включно з вхідними, вихідними та кешованими токенами за ставками, що відповідають публічним цінам публічного API кожної моделі.
Більше
23:49

Серія Xiaomi MiMo-V2.5 виходить у відкритий доступ: 1T параметрів із вищою ефективністю токенів порівняно з GPT-5.4

Повідомлення Gate News, 27 квітня — команда Xiaomi MiMo оприлюднила з відкритим кодом серію MiMo-V2.5 великих мовних моделей під ліцензією MIT, що підтримує комерційне розгортання, подальше навчання та доопрацювання. Обидві моделі мають контекстне вікно розміром 1 мільйон токенів. MiMo-V2.5-Pro — це модель суміші експертів із чистим текстом MoE
Більше
05:17

GPT-5.5 повертається на передній край у кодуванні, але OpenAI змінює бенчмарки після поразки від Opus 4.7

Повідомлення Gate News, 27 квітня — SemiAnalysis, компанія з аналізу напівпровідників та ШІ, опублікувала порівняльний бенчмарк асистентів для кодування, зокрема GPT-5.5, Claude Opus 4.7 і DeepSeek V4. Ключовий висновок: GPT-5.5 означає перше повернення OpenAI на передній край у моделях для кодування за шість місяців, причому інженери SemiAnalysis тепер чергують між Codex і Claude Code після того, як раніше майже виключно покладалися на Claude. GPT-5.5 створено на основі нового підходу до попереднього навчання з кодовою назвою "Spud" і є першим розширенням масштабу попереднього навчання OpenAI з моменту GPT-4.5. У практичному тестуванні чітко проявився розподіл ролей. Claude береться за планування нових проєктів та початкове налаштування, тоді як Codex найкраще справляється з виправленнями багів, що потребують інтенсивного осмислення. Codex демонструє сильніше розуміння структур даних і логічного міркування, але має труднощі з тим, щоб вгадувати неоднозначні наміри користувача. В одній задачі на єдиній панелі керування Claude автоматично відтворив макет сторінки-зразка, але сфабрикував великі обсяги даних, тоді як Codex пропустив макет, зате видав значно точніші дані. Аналіз виявляє деталь маніпуляції бенчмарком: у лютневому блозі OpenAI закликав індустрію перейти на SWE-bench Pro як новий стандарт для бенчмарків кодування. Однак у повідомленні про GPT-5.5 перехід здійснили на новий бенчмарк під назвою "Expert-SWE." Причина, захована в дрібному шрифті, полягає в тому, що GPT-5.5 було випереджено Opus 4.7 на SWE-bench Pro і він суттєво відстав від неопублікованого Mythos 77.8% від Anthropic. Щодо Opus 4.7: Anthropic опублікувала постмортем-аналіз через тиждень після релізу, визнавши три баги в Claude Code, які зберігалися протягом кількох тижнів з березня по квітень, впливаючи майже на всіх користувачів. Раніше кілька інженерів повідомляли про погіршення продуктивності в версії 4.6, але їх відхилили, назвавши суб’єктивними спостереженнями. Крім того, новий токенізатор у Opus 4.7 збільшує використання токенів до 35%, що Anthropic прямо визнав — по суті, це приховане підвищення ціни. DeepSeek V4 оцінили як "дотримання темпу з переднім краєм, але без лідерства," позиціонуючи його як найдешевшу альтернативу серед моделей із закритим кодом. Аналіз також зазначив, що "Claude продовжує випереджати DeepSeek V4 Pro у завданнях із високою складністю китайського письма," коментуючи, що "Claude переміг китайську модель у її власній мові." У статті вводиться ключова ідея: ціноутворення моделей слід оцінювати за "вартістю за задачу" замість "вартості за токен." Ціна GPT-5.5 удвічі вища за ціну GPT-5.4 input $5, output per million tokens, але він виконує ті самі завдання, використовуючи менше токенів, тож фактична вартість не обов’язково вища. Початкові дані SemiAnalysis показують, що співвідношення вхідних і вихідних даних у Codex становить 80:1, що нижче, ніж у Claude Code — 100:1.
Більше
04:29

V4-Pro досягає 67% частки успішних проходжень коду в внутрішньому dogfooding-тесті, наближаючись до продуктивності Opus 4.5

Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема
Більше
23:53

Anthropic Виявляє Три Зміни На Рівні Продукту, Що Стоять За Падінням Якості Claude Code, А Не Проблему Моделі

Повідомлення Gate News, 23 квітня — інженерна команда Anthropic підтвердила, що погіршення якості Claude Code, про яке повідомляли користувачі протягом минулого місяця, було спричинене трьома незалежними змінами на рівні продукту, а не проблемами API чи базової моделі. Три проблеми були виправлені відповідно 7 квітня, 10 квітня та A
Більше