Mensagem do Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis na Hugging Face e na ModelScope. A série inclui dois modelos (MoE) de mixture-of-experts: V4-Pro com 1,6 biliões de parâmetros totais e 49 mil milhões ativados por token, e V4-Flash com 284 mil milhões de parâmetros totais e 13 mil milhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.
A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), que reduz significativamente a sobrecarga do contexto longo — as FLOPs de inferência do V4-Pro para 1M de contexto são apenas 27% das do V3.2, e a cache KV (VRAM para armazenar informação histórica durante a inferência) é apenas 10% da do V3.2; ligações hipernasifold-constrained (mHC) que substituem as ligações residuais tradicionais para melhorar a estabilidade da propagação do sinal entre camadas; e o otimizador Muon para uma convergência de treino mais rápida. O pré-treino usou mais de 32 biliões de tokens de dados.
O pós-treino emprega uma abordagem em duas etapas: primeiro treinar especialistas específicos de domínio via supervised fine-tuning (SFT) e aprendizagem por reforço GRPO, depois fundi-los num único modelo através de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo open-source mais forte, com benchmarks de codificação topo de gama e lacunas significativamente reduzidas face a modelos frontier com código fechado em tarefas de raciocínio e agentes. O V4-Flash-Max atinge desempenho de raciocínio ao nível do Pro com um orçamento computacional suficiente, mas é limitado pela escala de parâmetros em tarefas puras de conhecimento e tarefas complexas de agentes. Os pesos são armazenados em precisão mista FP4+FP8.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
O Governo Trump anunciou um plano de combate à extração de IA, acusando as empresas chinesas de roubo sistemático das capacidades dos modelos
O Gabinete de Política Tecnológica da Casa Branca (OSTP), o assessor presidencial Michael J. Kratsios, emitiu, a 23 de abril, um comunicado oficial, afirmando que a administração Trump tem informação, indicando que entidades estrangeiras (principalmente na China) estão a visar deliberadamente grandes empresas de IA dos EUA, através da extração sistemática de capacidades dos modelos de IA dos EUA por meio de “dezenas de milhares de contas de agentes” e sistemas de tecnologia de jailbreaking, e divulgando em simultâneo quatro medidas de resposta.
MarketWhisper7m atrás
A DeepSeek lançou uma pré-visualização de código aberto da V4, com uma pontuação técnica de 3206, superando o GPT-5.4
A DeepSeek lançou oficialmente a série de pré-visualização V4 em 24 de abril, com código aberto sob a licença MIT, e os pesos do modelo foram disponibilizados na Hugging Face e na ModelScope. De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max (modo de máxima força de inferência) obteve 3206 pontos no benchmark do Codeforces, ultrapassando o GPT-5.4.
MarketWhisper23m atrás
Cambricon Conclui a Adaptação Day 0 do DeepSeek-V4, Marco para o Ecossistema de Chips de IA da China
Mensagem do Gate News, 24 de Abril — A Cambricon anunciou hoje que concluiu a adaptação Day 0 do DeepSeek-V4, o mais recente modelo de linguagem grande da DeepSeek, utilizando o seu ecossistema proprietário de software NeuWare e o framework vLLM. O código de adaptação foi simultaneamente disponibilizado como open-source, assinalando o
GateNews39m atrás
A Tencent disponibiliza como open source o Hy3 (versão de pré-visualização), com testes de referência do código melhorados em 40% face à geração anterior
A Tencent abriu oficialmente em código aberto o modelo linguístico de grande dimensão Hy3 em versão de pré-visualização a 23 de abril nas plataformas GitHub, Hugging Face e ModelScope, e disponibilizou em simultâneo um serviço de APIs pagas no seu serviço de nuvem (Tencent Cloud). Segundo a Decrypt, a 24 de abril, a versão de pré-visualização Hy3 iniciou o treino em finais de janeiro e, aquando do calendário de publicação, tinha menos de três meses.
MarketWhisper46m atrás
Investimentos da Carteira da FTX no Valor de 158 biliões Won se não tivesse falido
FTX, a bolsa centralizada de criptomoedas que pediu proteção contra falência ao abrigo do Capítulo 11 em novembro de 2022 devido a escassez de liquidez e saídas de capital, teria mantido investimentos avaliados em aproximadamente 158.796 biliões de won se não tivesse entrado em colapso, de acordo com uma análise citada por Park
CryptoFrontier49m atrás
A Xiaomi revela detalhes do treino do MiMo-V2-Pro: parâmetros do modelo 1T, milhares de GPUs implementadas
Mensagem do Gate News, 24 de Abril — A responsável da equipa de modelos de linguagem da Xiaomi, Luo Fuli, revelou numa entrevista aprofundada que o modelo MiMo-V2-Pro tem, no total, 1 bilião de parâmetros e que foram necessários milhares de GPUs para o treino. Ela referiu que a escala de 1T representa o limiar mínimo para obter
GateNews1h atrás