Arquitetura DeepSeek V4 Verificada: 3 de 4 Previsões Acertadas, Módulo Engram Ausente

Mensagem de notícias do Gate, 24 de abril — A DeepSeek lançou hoje o cartão do modelo V4, validando as previsões arquiteturais anteriores feitas por meio da análise da biblioteca de kernels TileKernels lançada ontem (23 de abril). De acordo com o monitoramento da Beating, três componentes principais foram confirmados: mHC (Manifold-Constrained Hyper-Connections) substituindo o HyperConnection original da ByteDance, arquitetura MoE com roteamento de especialistas Top-k, e armazenamento de pesos de precisão mista FP4+FP8. O módulo de memória condicional Engram previsto não apareceu no cartão do modelo.

O cartão do modelo revelou novos componentes não cobertos pelo TileKernels: mecanismos híbridos de atenção (CSA + HCA) impulsionam os ganhos de eficiência de longo contexto do V4, reduzindo as FLOPs de inferência para apenas 27% do nível do V3.2 em janelas de contexto de 1M e cache KV para 10%. O treinamento agora usa o otimizador Muon.

A verificação demonstra como implementações de kernels em nível de produção podem revelar a arquitetura subjacente do modelo antes de especificações oficiais serem publicadas.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Xiaomi Revela Detalhes do Treinamento do MiMo-V2-Pro: Parâmetros do Modelo 1T, Milhares de GPUs Empregadas

Mensagem do Gate News, 24 de abril — A líder da equipe de modelos de linguagem da Xiaomi, Luo Fuli, revelou em uma entrevista aprofundada que o modelo MiMo-V2-Pro tem 1 trilhão de parâmetros no total e exigiu milhares de GPUs para o treinamento. Ela observou que a escala de 1T representa o limite mínimo para alcançar

GateNews1m atrás

DeepSeek V4 Consegue Pontuação Perfeita no Putnam-2025, Empata com Axiom em Raciocínio Matemático Formal

Mensagem do Gate News, 24 de abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, alcançando uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar. No regime prático usando LeanExplore e amostragem restrita, o V4-Flash-Max obteve 81.00 no

GateNews9m atrás

Qual IA mostra mais claramente seu status e posição? Pesquisa revela que a renda dos usuários do Claude é muito maior do que a de seus pares, e a Meta AI fica na parte de baixo

A pesquisa da Epoch AI mostra que os usuários do Claude são predominantemente de faixas de alta renda, com 80% tendo uma renda anual acima de US$ 100.000; a distribuição de renda do Meta AI é a mais ampla, com 36,5% acima de US$ 100.000, e a maior proporção é entre os de baixa renda; com o aumento do preço do Claude e a cobrança por níveis, os custos podem aumentar, enquanto o Meta é mais fácil para começar. Qual IA pode se tornar uma etiqueta de identidade implícita no futuro.

ChainNewsAbmedia14m atrás

V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo

GateNews28m atrás

O Reino Unido observa a Anthropic AI para fortalecer a cibersegurança bancária

O Reino Unido está explorando um grande passo em cibersegurança financeira ao trabalhar com a empresa de IA Anthropic. As primeiras discussões sugerem que o governo pode implantar o avançado modelo Claude Mythos da Anthropic em bancos e instituições financeiras. Essa medida visa aprimorar as defesas contra ameaças cibernéticas

CryptometerIo33m atrás

O Escritório de PI da China Adiciona IA, Semicondutores e Interfaces Cérebro-Computador ao Programa de Proteção com Tramitação Acelerada

Mensagem do Gate News, 24 de abril — A Administração Nacional de Propriedade Intelectual da China anunciou em 24 de abril que estabelecerá proteção abrangente de propriedade intelectual para tecnologias emergentes por meio de reformas institucionais, serviços aprimorados e aplicações ampliadas. A administração wi

GateNews40m atrás
Comentário
0/400
Sem comentários