Сообщение Gate News, 22 апреля — студент Принстонского PhD Ифань Чжан раскрыл полные технические спецификации DeepSeek V4 в X, после превью от 19 апреля. V4 имеет 1,6 трлн общих параметров и облегчённую версию V4-Lite с 285 млрд параметров.

Модель использует механизм внимания DSA2, который сочетает прежний DSA (DeepSeek Sparse Attention) из V3.2 и NSA (Native Sparse Attention) с векторами представления голов 512 измерений, в паре с Sparse Multi-Query Attention (MQA) и Sliding Window Attention (SWA). Слой MoE (Mixture of Experts) содержит 384 эксперта, из которых активируются 6 за один прямой проход, с использованием Fused MoE Mega-Kernel. Остаточные соединения используют архитектуру Hyper-Connections.

Детали обучения, раскрытые впервые, включают использование оптимизатора Muon (applying Newton-Schulz orthogonalization to momentum updates) для обновлений по импульсу, контекстное окно предобучения на 32K токенов и GRPO (Group Relative Policy Optimization) с коррекцией по расхождению KL во время обучения с подкреплением. Итоговое контекстное окно расширено до 1 млн токенов. Модель — только текстовая.

Чжан не работает в DeepSeek, и компания официально не прокомментировала раскрытую информацию.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

OpenClaw, Hermes и SillyTavern подтверждены как поддерживаемые в рамках GLM Coding Plan

Новости индустрии ИИ

Менеджер по продукту Zhipu AI Ли объявляет OpenClaw, Hermes и SillyTavern поддерживаемыми проектами по плану GLM Coding Plan; другие инструменты будут оцениваться в каждом конкретном случае. Не делитесь учетными данными и не используйте подписки в качестве доступа к API; обратитесь в поддержку по вопросу с ошибкой 1313. Менеджер по продукту Zhipu AI Ли объявил, что OpenClaw, Hermes и SillyTavern официально поддерживаются в рамках GLM Coding Plan, а другие инструменты будут оцениваться в каждом конкретном случае. В заметке говорится, что не следует делиться учетными данными или использовать подписки как доступ к API, и предлагается пользователям с ошибкой 1313 обратиться в поддержку.

GateNews19м назад

Генеральный директор Google Cloud: Gemini будет обеспечивать запуск персонализированной Siri от Apple в 2026 году

Новости индустрии ИИ

Резюме: Gemini будет поддерживать персонализированную Apple Siri в 2026 году, созданную на основе моделей Apple Foundation Models и сотрудничества с Gemini; Apple тестирует чатоподобную Siri в iOS 27/macOS 27, которая запланирована к показу на WWDC 2026. Аннотация: Google Cloud's Gemini должен обеспечивать персонализированную Apple Siri к 2026 году, сочетая Gemini с Apple's Foundation Models в рамках сотрудничества примерно на $1 миллиардов. Apple тестирует переработанную, чатоподобную Siri в iOS 27/macOS 27, с интерфейсом Dynamic Island и новыми функциями, до запланированного на WWDC 2026 анонса 8 июня.

GateNews50м назад

Сделка SpaceX $60B Cursor подливает масла в аргументы СБФ в пользу помилования, поскольку доля $200K FTX теперь стоит $3B

Меры по обеспечению соблюдения Новости индустрии ИИ Инструменты и приложения ИИ

Сообщение Gate News, 22 апреля — сегодня SpaceX объявила о крупном партнерстве с AI-стартапом по программированию Cursor; предусмотрен вариант приобрести компанию за $60 billion. Сделка дала Сэму Бэнкмену-Фриду (SBF), который в настоящее время находится в заключении и добивается президентского помилования, новые аргументы, поскольку она демонстрирует потенциальную восстановительную стоимость, которую, как он давно утверждал, FTX могла бы получить. В апреле 2022 года Alameda Research, торговая фирма, основанная SBF, инвестировала $200,000 в материнскую компанию Cursor Anysphere, приобретя примерно 5% доли. Когда в ноябре 2022 года FTX рухнула, контроль над компанией взял на себя суд по делам о банкротстве. В апреле 2023 года имущество по банкротству FTX продало ту же самую 5%-ю долю за $200,000 — ровно ту же сумму, в которую Alameda инвестировала. Исходя из оценки в billion, объявленной сегодня SpaceX, эта 5%-я доля теперь стоила бы примерно billion, что означает доходность в 15,000x. SBF давно утверждал, что FTX на самом деле не была неплатежеспособной, и что юристы по банкротству уничтожили ценность, продав активы слишком рано. В феврале 2026 года он поделился прогнозами, согласно которым FTX могла бы достичь чистой стоимости активов billion после восстановления активов. Его родители также активно добиваются помилования: в марте они появились на CNN, чтобы утверждать, что клиенты FTX получили полное возмещение. Однако кредиторы отметили, что выплаты были основаны на оценках за 2022 год, а не на текущих рыночных ценах. Президент Трамп заявил, что не помилует SBF, а рынки прогнозов в настоящее время оценивают вероятность помилования в 2026 году лишь в 5%.

GateNews58м назад

Акции Chegg обрушились на 99%, поскольку ИИ нарушает рынок Edtech

Акции Новости индустрии ИИ

Кратко: Chegg взлетела на фоне спроса на онлайн-образование, затем инструменты на базе ИИ нарушили ее модель, что привело к массовым увольнениям и падению ниже $2, при этом более широкие изменения, обусловленные ИИ, ударили по майнерам криптовалют и финтех-компаниям. Аннотация: В этой статье рассматривается рост Chegg как любимца edtech в эпоху пандемии и ее последующее падение на фоне быстрого внедрения генеративного ИИ, который дает быстрые ответы и подрывает ценностное предложение Chegg. В ней описываются увольнения в 2025 году и обвал акций до уровня, близкого к исключению из листинга, а также опыт Chegg вписывается в более широкий контекст сбоя, вызванного ИИ и меняющего технологический сектор и криптоиндустрию: майнеры Bitcoin переходят к операциям на базе ИИ, а AI-ориентированные стратегии заново определяют конкурентоспособность в финтехе и за его пределами.

CryptoFrontier1ч назад

OpenAI выпустила модель с открытым исходным кодом для обнаружения и редактирования ПДн

Новости индустрии ИИ

Аннотация: Фильтр конфиденциальности OpenAI — это модель с открытым исходным кодом, выполняемая локально, которая обнаруживает и редактирует ПДн (персональные данные) в тексте. Она поддерживает большие контексты, выявляет множество категорий ПДн и предназначена для рабочих процессов с сохранением конфиденциальности, таких как подготовка данных, индексация, логирование и модерация. Фильтр конфиденциальности OpenAI — это локально запускаемая модель с открытым исходным кодом (128k-token context), которая обнаруживает и редактирует ПДн (персональные данные) в тексте, охватывая контактные, финансовые и учетные данные для рабочих процессов по защите конфиденциальности.

GateNews1ч назад

OpenAI планирует развернуть 30 ГВт вычислительных мощностей к 2030 году

Новости индустрии ИИ

OpenAI планирует обеспечить 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, при этом уже завершено 8 ГВт из целевых 10 ГВт на 2025 год. Расширение сигнализирует о стратегии наращивания инфраструктуры для разработки и развертывания ИИ следующего поколения. OpenAI намерена достичь 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, уже завершив 8 ГВт из целевого показателя 10 ГВт на 2025 год. Действие отражает стратегическое расширение инфраструктуры для поддержки разработки и развертывания ИИ следующего поколения.

GateNews1ч назад

комментарий

0/400

Нет комментариев