A DeepSeek Lança a Série de Modelos Open-Source V4 com 1,6T Parâmetros e Licença MIT

Mensagem do Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis na Hugging Face e na ModelScope. A série inclui dois modelos (MoE) de mixture-of-experts: V4-Pro com 1,6 biliões de parâmetros totais e 49 mil milhões ativados por token, e V4-Flash com 284 mil milhões de parâmetros totais e 13 mil milhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.

A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), que reduz significativamente a sobrecarga do contexto longo — as FLOPs de inferência do V4-Pro para 1M de contexto são apenas 27% das do V3.2, e a cache KV (VRAM para armazenar informação histórica durante a inferência) é apenas 10% da do V3.2; ligações hipernasifold-constrained (mHC) que substituem as ligações residuais tradicionais para melhorar a estabilidade da propagação do sinal entre camadas; e o otimizador Muon para uma convergência de treino mais rápida. O pré-treino usou mais de 32 biliões de tokens de dados.

O pós-treino emprega uma abordagem em duas etapas: primeiro treinar especialistas específicos de domínio via supervised fine-tuning (SFT) e aprendizagem por reforço GRPO, depois fundi-los num único modelo através de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo open-source mais forte, com benchmarks de codificação topo de gama e lacunas significativamente reduzidas face a modelos frontier com código fechado em tarefas de raciocínio e agentes. O V4-Flash-Max atinge desempenho de raciocínio ao nível do Pro com um orçamento computacional suficiente, mas é limitado pela escala de parâmetros em tarefas puras de conhecimento e tarefas complexas de agentes. Os pesos são armazenados em precisão mista FP4+FP8.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Que IA é a mais marcante para afirmar estatuto e posição? Um estudo revela que os utilizadores do Claude ganham muito mais do que os seus pares, e a Meta AI fica no fundo

A investigação da Epoch AI indica que os utilizadores da Claude são maioritariamente de estratos de rendimentos elevados: 80% auferem mais de 100.000 dólares por ano; a distribuição de rendimentos da Meta AI é a mais ampla, com 36,5% acima dos 100.000 dólares, e a fatia de rendimentos mais baixos é a mais elevada; com a Claude, o preço subiu e existe faturação por níveis, pelo que os custos poderão aumentar; a Meta é mais fácil de começar. Qual das próximas IAs poderá tornar-se numa etiqueta de identidade implícita.

ChainNewsAbmedia2m atrás

V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Aproximando o Desempenho do Opus 4.5

Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo

GateNews16m atrás

O Reino Unido avalia a Anthropic de IA para reforçar a cibersegurança bancária

O Reino Unido está a explorar um grande passo na cibersegurança financeira, trabalhando com a empresa de IA Anthropic. As primeiras conversas sugerem que o governo poderá implementar o avançado modelo Claude Mythos da Anthropic em bancos e instituições financeiras. Esta medida tem como objetivo melhorar as defesas à medida que as ameaças cibernéticas

CryptometerIo21m atrás

O Gabinete de Propriedade Intelectual da China inclui IA, semicondutores e interfaces cérebro-computador no programa de protecção acelerada

Mensagem de Gate News, 24 de Abril — A Administração Estatal Chinesa de Propriedade Intelectual anunciou a 24 de Abril que irá estabelecer uma protecção abrangente da propriedade intelectual para tecnologias emergentes através de reformas institucionais, serviços reforçados e aplicações alargadas. A administração wi

GateNews28m atrás

Admiral Indica que o Governo dos EUA Opera um Nó de Bitcoin sem Mineração

Um almirante sénior indicou que o Governo dos EUA está a operar activamente um nó na rede Bitcoin, enquanto evita deliberadamente participar em actividades de mineração. A divulgação sugere que as autoridades estão a assumir um papel mais envolvido na infra-estrutura de blockchain para supervisão e

CryptoFrontier44m atrás

Receita do 1.º trimestre da Tesla aumenta 16% para 22,4 mil milhões de dólares; robô humanoide com estreia prevista para meados de 2026

Mensagem das Gate News, 24 de Abril — A Tesla reportou uma receita do primeiro trimestre de 22,4 mil milhões de US$ em 23 de Abril, representando um aumento de 16% em termos homólogos. As entregas globais de veículos da empresa ultrapassaram as 358.000 unidades, enquanto a produção superou as 408.000 unidades. A Gigafábrica de Xangai da Tesla entregou 213.000 veícu

GateNews44m atrás
Comentar
0/400
Nenhum comentário