DeepSeek V4 получает идеальный результат на Putnam-2025, делит первое место с Axiom в формальном математическом рассуждении

Gate News сообщение, 24 апреля — DeepSeek V4 опубликовала результаты оценок формального математического рассуждения, набрав идеальные 120/120 на Putnam-2025, разделив первое место с Axiom.

В практическом режиме с использованием LeanExplore и ограниченной выборки V4-Flash-Max набрала 81.00 по бенчмарку Putnam-200 Pass@8, значительно обойдя Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) и Seed-1.5-Prover (26.50). Результаты в режиме frontier показали, что V4 опережает Seed-1.5-Prover (110/120) и Aristotle (100/120).

V4 использует гибридный подход к формально-неформальным рассуждениям: неформальные рассуждения генерируют кандидаты решений на естественном языке, самопроверка отфильтровывает результаты, а формальный агент завершает строгие доказательства в Lean. Результаты в режиме frontier использовали масштабирование вычислений в больших объемах, тогда как оценки в практическом режиме лучше отражают возможности стандартного развертывания.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Найм инженеров по ИИ в Индии растет на 59,5%, расширяется за пределы техногородов

Отчет LinkedIn о рынке труда в сфере ИИ 2026 года, опубликованный 24 апреля, показал, что найм инженеров по ИИ в Индии вырос на 59,5% в годовом исчислении, что стало самым быстрым темпом среди рынков, изученных платформой. Рост был обусловлен расширением спроса за пределы уже сформировавшихся технологических центров. Города, включая

CryptoFrontier10м назад

Commonwealth Bank сокращает 120 рабочих мест на фоне расширения ИИ

Австралийский банк Содружества (Commonwealth Bank of Australia) объявил, что сократит примерно 120 рабочих мест, поскольку крупнейший в стране банк пересматривает должности и расширяет использование искусственного интеллекта, сообщает Bloomberg. Сокращения включают 43 должности в Bankwest в Западной Австралии, при этом шесть позиций затронуты автоматизацией. Это a

CryptoFrontier19м назад

Cursor раскрывает причину обучения XAI: вычислительные мощности были заблокированы, SpaceX также держит 60 млрд долларов в виде опционов на приобретение

Анонс Anysphere сообщает, что Cursor будет использовать инфраструктуру Colossus компании xAI для обучения новой модели, чтобы преодолеть узкое место по вычислительным мощностям; SpaceX предложила опцион на приобретение на 60 млрд долларов (в течение 2026 года можно приобрести целиком), а если нет — выплатить около 10 млрд долларов в качестве компенсации за сотрудничество. Обе сделки идут одновременно, меняя то, кто сможет обучать Cursor, и то, кто сможет купить Cursor; при этом Cursor по-прежнему позволяет множество моделей использовать в качестве бэкенда, но в долгосрочной перспективе это зависит от того, воспользуется ли SpaceX правом на приобретение.

ChainNewsAbmedia37м назад

Оценка вторичного рынка Anthropic превысила 1 трлн долларов: Forge Global обошла OpenAI на 880 млрд

Согласно сообщению Decrypt, вторичная оценка Forge Global для Anthropic составляет около 1 трлн долларов, для OpenAI — около 8 800 млрд долларов; на вторичном рынке впервые наблюдается лидирующий разворот. ARR Anthropic вырос с примерно 9 млрд на конец 2025 года до примерно 30 млрд в марте 2026 года: рост за три месяца составил 233%, что подтолкнуло оценку в частном секторе. Вторичная оценка отличается от первичного раунда финансирования и отражает уверенность в выходе; в дальнейшем по-прежнему смотрят на четыре направления — технологии, политику, бизнес и нарратив.

ChainNewsAbmedia38м назад

Meta Platforms Планирует Сокращение Штата На 10% 20 Мая, Затронув Примерно 8 000 Должностей

Сообщение Gate News, 24 апреля — Meta Platforms планирует сократить штат примерно на 10%, затронув около 8 000 должностей, 20 мая. Увольнения предназначены для повышения операционной эффективности при одновременном увеличении инвестиций в искусственный интеллект. Запланированная реорганизация отражает то, что

GateNews1ч назад

Правительство Трампа объявило план по борьбе с AI-экстракцией и переработкой, обвиняя китайские компании в систематическом похищении возможностей моделей

Официальный помощник президента Управления по научно-технической политике Белого дома (OSTP) Майкл Дж. Крацйос (Michael J. Kratsios) 23 апреля сделал официальное заявление, в котором указал, что администрация Трампа располагает информацией, свидетельствующей о том, что иностранные структуры (в основном расположенные в Китае) намеренно нацелены на крупные американские компании в сфере искусственного интеллекта, систематически извлекают возможности американских AI-моделей с помощью «десятков тысяч прокси-аккаунтов» и систем взлома (jailbreak), а также одновременно объявили о четырех мерах реагирования.

MarketWhisper1ч назад
комментарий
0/400
Нет комментариев