O primeiro AI a criar outro AI na história! GPT-5.3 participa no seu próprio desenvolvimento, a ficção científica torna-se realidade

MarketWhisper

A OpenAI lançou o GPT-5.3-Codex, o primeiro modelo que “participa na sua própria criação” para depurar o seu próprio código, gerir a implementação e diagnosticar testes. Karpathy classificou a revisão como “a mais próxima da cena de descolagem da IA.”

A IA começou a criar singularidades tecnológicas e avanços na IA

Conta oficial da OpenAI lançada: GPT-5.3-Codex é oficialmente lançada, sendo “a primeira a participar na criação do seu próprio modelo”. O que significa? Por outras palavras, durante o processo de desenvolvimento, esta IA ajudou a depurar o seu próprio código de treino, gerir o seu próprio processo de implementação e diagnosticar os seus próprios resultados de teste. Em termos humanos, a IA começou a criar IA.

Andrej Karpathy, antigo investigador da OpenAI e diretor da Tesla AI, tuitou logo após a ler: “Isto é a coisa mais próxima que alguma vez vi de uma cena de descolagem de IA na ficção científica.” Esta avaliação dos principais investigadores em IA é relevante porque Karpathy experienciou pessoalmente várias fases-chave do desenvolvimento da IA, e o seu julgamento baseia-se num profundo conhecimento técnico.

A IA itera sobre si própria, isto não é retórica de marketing. De acordo com a divulgação interna da OpenAI, o GPT-5.3-Codex fez estas coisas durante o processo de desenvolvimento: analisar testes que não assinalaram registos de treino, sugerir correções para scripts e perfis de treino, gerar receitas de implementação e resumir e avaliar anomalias para revisão humana. O que é que isto significa? A IA já não é apenas uma ferramenta, está a começar a fazer parte da equipa de desenvolvimento, e é do tipo que pode melhorar-se.

Esta capacidade de participar no desenvolvimento ultrapassa o posicionamento tradicional da IA. No passado, os modelos de IA eram concebidos, treinados e implementados inteiramente por humanos, e a IA era um produto passivo. Agora, o GPT-5.3 desempenhou um papel ativo no seu próprio nascimento e, embora ainda sob supervisão humana, esta mudança de papel tem implicações de grande alcance. Isto sugere uma possibilidade: os modelos futuros de IA poderão ser largamente desenhados e otimizados pela própria IA, com os humanos a fornecer apenas orientação e revisão final.

Auto-participação no desenvolvimento do GPT-5.3

Analisar registos de treino: Sinaliza automaticamente os testes falhados para identificar anomalias durante o treino

Plano de reparação recomendado: Sugerir melhorias nos scripts e perfis de treino

Gerar a receita de implementação: Automatizar o processo de implementação e reduzir operações manuais

Anomalia da avaliação sumária: Organizar resultados complexos de avaliações em relatórios compreensíveis para humanos

Um artigo recente da SEAL publicado pelo MIT (arXiv:2506.10943) descreve uma arquitetura de IA que aprende continuamente após a implementação, evoluindo sem re-treino. Notavelmente, alguns investigadores SEAL juntaram-se agora à OpenAI. Isto significa que a IA passou de uma “ferramenta estática” para um “sistema dinâmico”, a aprendizagem já não é interrompida na implementação, e as fronteiras entre inferência e treino estão a derreter-se. O GPT-5.3 pode ser a primeira aplicação comercial desta nova arquitetura.

77,3% esmagaram o massacre de referência de Claude

A 5 de fevereiro, a OpenAI e a Anthropic lançaram ambas uma nova geração de modelos com apenas 20 minutos de intervalo. Primeiro, a Anthropic lançou o Claude Opus 4.6, e depois a OpenAI lançou o GPT-5.3-Codex. Como a OpenAI quer usar o GPT-5.3-Codex para eliminar os novos modelos de outras pessoas, deve ter alguma capacidade. Os dados não mentem, o GPT-5.3-Codex estabeleceu novos recordes em vários benchmarks da indústria assim que foi lançado.

O Terminal-Bench 2.0 testa as capacidades operacionais da IA num ambiente real de terminal, compilando código, treinando modelos e configurando servidores. O GPT-5.3-Codex obteve 77,3%, enquanto o GPT-5.2-Codex teve apenas 64,0% e o Claude Opus 4.6 reportou 65,4%. Isto representa um aumento de 13 pontos percentuais entre gerações, o que já representa um enorme avanço no campo da IA. A comparação entre 77,3% e 65,4% mostra que o GPT-5.3 estabelece uma vantagem significativa em tarefas de engenharia do mundo real.

O SWE-Bench Pro é um benchmark especificamente concebido para testar capacidades reais de engenharia de software, abrangendo quatro linguagens de programação: Python, JavaScript, Go e Ruby. O GPT-5.3-Codex obteve 56,8%, superando os 56,4% do seu antecessor, o GPT-5.2-Codex, e continuou a manter o seu primeiro lugar na indústria. Mais importante ainda, a OpenAI revelou que o GPT-5.3-Codex utiliza o menor número de tokens de saída de qualquer modelo quando atinge esta pontuação, o que significa que não só é preciso, mas também eficiente.

O OSWorld-Verified testa a capacidade da IA para realizar tarefas de produtividade num ambiente de ambiente visual desktop, editando folhas de cálculo, criando apresentações, trabalhando em documentos e muito mais. O GPT-5.3-Codex obteve 64,7%, comparado com a média humana de 72%. Isto significa que atingiu o desempenho das pessoas comuns em tarefas de operação informática, quase duplicando o desempenho do seu antecessor. Este desempenho quase humano torna a IA verdadeiramente capaz de trabalhar em escritório pela primeira vez, em vez de ser apenas uma ferramenta auxiliar.

O Claude contraria equipas de 100K de Tokens e Agentes

O que é ainda mais notável é que o Claude Opus 4.6 suporta, pela primeira vez, uma janela de contexto de token (beta) de 100K no modelo ao nível Opus, que pode processar toda a base de código ou centenas de páginas de documentos de uma só vez, e lançou a função Agent Teams, onde vários agentes de IA podem colaborar na programação, teste e escrita de documentos ao mesmo tempo.

Quando a OpenAI e a Anthropic lançam os seus modelos emblemáticos no mesmo dia e no mesmo momento, esta competição deixa de ser apenas uma competição técnica, mas uma batalha sobre a futura configuração da IA: a rota da “auto-evolução” da OpenAI ou a rota da “colaboração multi-agente” da Anthropic? A estratégia da OpenAI é tornar uma única IA mais poderosa e até melhorar-se a si própria. A estratégia da Anthropic é permitir que múltiplas IAs colaborem em tarefas complexas através da divisão de tarefas e colaboração.

O contexto dos tokens de 100K é um avanço tecnológico. Isto equivale a cerca de 75 milhões de palavras em inglês ou 300 caracteres chineses, o que é suficiente para caber todo o código de um projeto de software de média dimensão ou uma documentação técnica espessa. Esta capacidade permite a Claude “ver” o projeto completo em vez de uma compreensão fragmentária. Para a análise de arquitetura e refatoração de projetos de grande escala, esta visão global é crucial.

A Agent Teams traz o conceito de colaboração para a IA. Um Agente escreve código, outro testa e um terceiro escreve documentação, podendo comunicar e coordenar-se entre si. Este padrão imita o funcionamento das equipas humanas de software e pode ser mais adequado para certos cenários do que uma única superIA. No entanto, a colaboração entre múltiplos agentes também introduz novas complexidades: como coordenar, como evitar conflitos e como garantir consistência.

Ambas as rotas têm as suas vantagens e desvantagens. A rota de auto-evolução da OpenAI é mais agressiva e, se for bem-sucedida, pode levar a melhorias exponenciais nas capacidades, mas também pode sair do controlo. A via multi-agente da Anthropic é mais conservadora, reduzindo um ponto único de risco ao espalhar capacidades, mas os custos de coordenação podem limitar a eficiência. À medida que a IA começa a evoluir na natureza, as questões de governação vão passar de “quão inteligente é” para “como gerimos um sistema que está em constante mudança?” E quando duas das principais empresas de IA lançam modelos inovadores consecutivos em 20 minutos, a janela de tempo restante para o pensamento e preparação humana está a diminuir a uma velocidade visível a olho nu.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Ontem, o ETF de Ethereum à vista dos EUA registou um fluxo líquido de 3,82 milhões de dólares, com a Fidelity FETH a contribuir principalmente para o fluxo de entrada.

Gate News notícia, 11 de março, de acordo com o analista de criptomoedas Trader T, ontem (10 de março) o ETF de Ethereum à vista dos EUA teve um fluxo líquido de entrada de 3,82 milhões de dólares. Dentre eles, o FETH da Fidelity teve um fluxo líquido de entrada de 16,22 milhões de dólares, apresentando o melhor desempenho; o TETH da 21Shares teve um fluxo líquido de entrada de 1,01 milhões de dólares; o Grayscale de

GateNews24m atrás

Ontem, o fluxo líquido de ETF de Bitcoin à vista nos EUA foi de 218,66 milhões de dólares, com a participação da BlackRock IBIT a superar os setenta por cento

10 de março, o fluxo líquido de ETF de Bitcoin à vista nos EUA atingiu 2,1866 milhões de dólares, com a BlackRock IBIT representando 70,2%, e outros como Fidelity FBTC, Bitwise BITB, também apresentando diferentes níveis de entrada líquida.

GateNews24m atrás

Micron Technology sobe 3,5%, endereço associado à Continue Capital com posição longa MU com lucro flutuante de 40 mil dólares

11 de março, as ações da Nvidia e da Micron Technology subiram, a Micron subiu 3,54% para 403 dólares, o contrato perpétuo MU também subiu 4,3% para 410,2 dólares. Um endereço detém 14,6 milhões de dólares em posições longas de semicondutores, sendo 6,2 milhões de dólares em posições MU com alavancagem de 7 vezes, com um lucro flutuante de 400 mil dólares.

GateNews31m atrás

TACO a transação falhou? O Irão implanta minas marítimas, o JPMorgan alerta para riscos imprevisíveis

O artigo discute a estratégia 「TACO交易」, ou seja, os investidores apostam que o presidente Trump fará concessões durante a crise, no entanto, com o Irã colocando minas no Estreito de Ormuz, essa hipótese enfrenta desafios. Os estrategistas do JPMorgan alertam que a incerteza da situação aumentou, recomendando aos investidores que se voltem para ativos de infraestrutura para reduzir riscos, pois esses ativos oferecem rendimentos mais estáveis e podem proporcionar proteção em mercados voláteis.

MarketWhisper42m atrás

73% dos americanos em dificuldades financeiras recorrem às criptomoedas, o nihilismo financeiro domina a Geração Z

Estudos mostram que 73% dos americanos que usam criptomoedas investem por motivos de dificuldades económicas, sendo que entre a Geração Z essa proporção atinge os 80%. Com o aumento do custo de vida e a falência dos métodos tradicionais de poupança, investir em ativos de alto risco é visto como uma opção para alcançar objetivos financeiros. A atratividade das criptomoedas decorre da esperança de melhorar a situação atual, e não apenas da ganância.

MarketWhisper1h atrás

Gate Diário (11 de março): SEC e CFTC assinam memorando de cooperação; EUA solicitam revisão do cofundador do Tornado Cash

O Bitcoin (BTC) mantém atualmente um preço de cerca de 70.000 dólares. O presidente da Comissão de Valores Mobiliários dos Estados Unidos (SEC) anunciou que irá coordenar com a Comissão de Negociação de Futuros de Commodities (CFTC) para realizar reuniões conjuntas sobre pedidos de produtos. Além disso, o caso do cofundador do Tornado Cash, Roman Storm, será reexaminado. O mercado está a oscilar devido a influências geopolíticas, com o sentimento dos investidores a ser relativamente negativo, mas a possibilidade de uma queda acentuada a curto prazo é baixa.

MarketWhisper1h atrás
Comentário
0/400
Sem comentários