NVIDIA e MIT lançam framework Lightning OPD, aumentando 4x a eficiência da distilação de modelos enquanto eliminam problemas de memória da GPU

Segundo as informações, investigadores da NVIDIA e do MIT lançaram o Lightning OPD (Offline On-Policy Distillation), um novo quadro de pós-treino para modelos de linguagem de grande dimensão que elimina a necessidade de manter um modelo “teacher” em funcionamento durante o treino. Ao pré-computar, offline, as log-probabilidades do modelo “teacher”, o quadro melhora a eficiência do treino em 4x, libertando todos os recursos da GPU para o treino do modelo “student”.

Em testes com 8 GPUs NVIDIA H100, o Lightning OPD conseguiu destilar com sucesso o Qwen3-30B-A3B-Base (um modelo MoE com 30 mil milhões de parâmetros) e atingiu 71,0 no benchmark AIME 2024, enquanto o OPD standard ficou sem memória no mesmo hardware. Para o modelo Qwen3-8B mais pequeno, o quadro exigiu apenas 30 horas de GPU para alcançar 69,9 pontos.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Cortes a alta velocidade no fundo para a Índia, reduzindo a meta para 300 milhões–350 milhões de dólares, com mudança de foco para a IA

A firma de capital de risco sediada nos EUA Lightspeed reduziu a meta do seu quinto fundo focado na Índia para entre 300 milhões de dólares e 350 milhões de dólares, em vez dos até 500 milhões de dólares, segundo o The Economic Times. A empresa está a mudar o foco para investimentos em IA e deeptech numa fase inicial. Mudança Estratégica e Dimensionamento do Fundo A redução do fundo representa um regresso aos tamanhos dos primeiros fundos da Lightspeed para a Índia. A nova meta fica mais próxima

CryptoFrontier3m atrás

No último minuto, Jensen Huang foi convidado para acompanhar Trump numa visita à China e subiu a bordo do Força Aérea Um

A Casa Branca confirmou que o CEO da Nvidia, Jensen Huang, foi convidado para a agenda do encontro entre Donald Trump e Xi Jinping, por forma a integrar o grupo apenas no último instante. Apesar de várias notícias anteriores apontarem que não constava na lista, com base em publicações de testemunhas, o Jensen Huang já se encontrava a bordo do Air Force One no Alasca, juntamente com vários líderes empresariais, incluindo o CEO da Tesla, Elon Musk, numa visita à China. Porque é que a lista do grup

ChainNewsAbmedia20m atrás

Michael Burry alerta: a euforia das ações de IA é como a bolha dos últimos meses de 1999-2000

De acordo com a Investopedia, a 12 de maio, o investidor Michael Burry, conhecido por ter feito previsões sobre um colapso do mercado imobiliário em 2008, publicou no fim de semana vários artigos no Substack, afirmando que o recente movimento de subida das ações ligadas à IA “parece os últimos meses da bolha de 1999-2000”, e recomendando “reduzir posições em ações que estão a subir de forma parabólica”. Avisos específicos e recomendações de ação de Burry De acordo com a Investopedia, num artigo

MarketWhisper30m atrás

Os três maiores bancos do Japão vão obter acesso ao “Claude Mythos” da Anthropic até ao final de maio

De acordo com a Nikkei, os três principais bancos do Japão estão preparados para ter acesso ao Claude Mythos, um poderoso modelo de inteligência artificial desenvolvido pela startup norte-americana Anthropic, já no final de maio.

GateNews31m atrás

Ataques de dupla via à cadeia de abastecimento de pacotes de IA: Mistral e falsos modelos OpenAI também comprometidos

A ecossistema de ferramentas de desenvolvimento de IA teve, no mesmo dia 12 de maio, notícia de dois grandes ataques à cadeia de fornecimento: (1) a Microsoft Threat Intelligence revelou que um pacote PyPI da Mistral AI foi adulterado com código malicioso; (2) um projeto de modelo na Hugging Face que se faz passar por OpenAI subiu ao 1.º lugar do ranking de tendências e, em 18 horas, atraiu 244 mil transferências, roubando ainda várias credenciais de contas. De acordo com a reportagem da Decrypt

ChainNewsAbmedia56m atrás

Altman Depõe: Musk Interrompeu Conversas de Fusão entre OpenAI e Tesla para Mostrar Memes, Repórter Judicial Ficou Perplexo

De acordo com o relatório da sala de audiências do Intelligencer, Sam Altman testemunhou durante o recente processo judicial da OpenAI que Elon Musk interrompeu uma discussão crucial sobre uma fusão entre a OpenAI e a Tesla ao tirar o telemóvel para mostrar memes. Altman recordou que Musk insistiu para que todos vissem as imagens durante um período prolongado enquanto as duas partes estavam em negociações acesas sobre uma possível aquisição. A cena no tribunal arrancou suspiros quando o repórter

GateNews1h atrás
Comentar
0/400
Nenhum comentário