
A OpenAI lançou o GPT-5.3-Codex, o primeiro modelo que “participa na sua própria criação” para depurar o seu próprio código, gerir a implementação e diagnosticar testes. Karpathy classificou a revisão como “a mais próxima da cena de descolagem da IA.”
Conta oficial da OpenAI lançada: GPT-5.3-Codex é oficialmente lançada, sendo “a primeira a participar na criação do seu próprio modelo”. O que significa? Por outras palavras, durante o processo de desenvolvimento, esta IA ajudou a depurar o seu próprio código de treino, gerir o seu próprio processo de implementação e diagnosticar os seus próprios resultados de teste. Em termos humanos, a IA começou a criar IA.
Andrej Karpathy, antigo investigador da OpenAI e diretor da Tesla AI, tuitou logo após a ler: “Isto é a coisa mais próxima que alguma vez vi de uma cena de descolagem de IA na ficção científica.” Esta avaliação dos principais investigadores em IA é relevante porque Karpathy experienciou pessoalmente várias fases-chave do desenvolvimento da IA, e o seu julgamento baseia-se num profundo conhecimento técnico.
A IA itera sobre si própria, isto não é retórica de marketing. De acordo com a divulgação interna da OpenAI, o GPT-5.3-Codex fez estas coisas durante o processo de desenvolvimento: analisar testes que não assinalaram registos de treino, sugerir correções para scripts e perfis de treino, gerar receitas de implementação e resumir e avaliar anomalias para revisão humana. O que é que isto significa? A IA já não é apenas uma ferramenta, está a começar a fazer parte da equipa de desenvolvimento, e é do tipo que pode melhorar-se.
Esta capacidade de participar no desenvolvimento ultrapassa o posicionamento tradicional da IA. No passado, os modelos de IA eram concebidos, treinados e implementados inteiramente por humanos, e a IA era um produto passivo. Agora, o GPT-5.3 desempenhou um papel ativo no seu próprio nascimento e, embora ainda sob supervisão humana, esta mudança de papel tem implicações de grande alcance. Isto sugere uma possibilidade: os modelos futuros de IA poderão ser largamente desenhados e otimizados pela própria IA, com os humanos a fornecer apenas orientação e revisão final.
Analisar registos de treino: Sinaliza automaticamente os testes falhados para identificar anomalias durante o treino
Plano de reparação recomendado: Sugerir melhorias nos scripts e perfis de treino
Gerar a receita de implementação: Automatizar o processo de implementação e reduzir operações manuais
Anomalia da avaliação sumária: Organizar resultados complexos de avaliações em relatórios compreensíveis para humanos
Um artigo recente da SEAL publicado pelo MIT (arXiv:2506.10943) descreve uma arquitetura de IA que aprende continuamente após a implementação, evoluindo sem re-treino. Notavelmente, alguns investigadores SEAL juntaram-se agora à OpenAI. Isto significa que a IA passou de uma “ferramenta estática” para um “sistema dinâmico”, a aprendizagem já não é interrompida na implementação, e as fronteiras entre inferência e treino estão a derreter-se. O GPT-5.3 pode ser a primeira aplicação comercial desta nova arquitetura.
A 5 de fevereiro, a OpenAI e a Anthropic lançaram ambas uma nova geração de modelos com apenas 20 minutos de intervalo. Primeiro, a Anthropic lançou o Claude Opus 4.6, e depois a OpenAI lançou o GPT-5.3-Codex. Como a OpenAI quer usar o GPT-5.3-Codex para eliminar os novos modelos de outras pessoas, deve ter alguma capacidade. Os dados não mentem, o GPT-5.3-Codex estabeleceu novos recordes em vários benchmarks da indústria assim que foi lançado.
O Terminal-Bench 2.0 testa as capacidades operacionais da IA num ambiente real de terminal, compilando código, treinando modelos e configurando servidores. O GPT-5.3-Codex obteve 77,3%, enquanto o GPT-5.2-Codex teve apenas 64,0% e o Claude Opus 4.6 reportou 65,4%. Isto representa um aumento de 13 pontos percentuais entre gerações, o que já representa um enorme avanço no campo da IA. A comparação entre 77,3% e 65,4% mostra que o GPT-5.3 estabelece uma vantagem significativa em tarefas de engenharia do mundo real.
O SWE-Bench Pro é um benchmark especificamente concebido para testar capacidades reais de engenharia de software, abrangendo quatro linguagens de programação: Python, JavaScript, Go e Ruby. O GPT-5.3-Codex obteve 56,8%, superando os 56,4% do seu antecessor, o GPT-5.2-Codex, e continuou a manter o seu primeiro lugar na indústria. Mais importante ainda, a OpenAI revelou que o GPT-5.3-Codex utiliza o menor número de tokens de saída de qualquer modelo quando atinge esta pontuação, o que significa que não só é preciso, mas também eficiente.
O OSWorld-Verified testa a capacidade da IA para realizar tarefas de produtividade num ambiente de ambiente visual desktop, editando folhas de cálculo, criando apresentações, trabalhando em documentos e muito mais. O GPT-5.3-Codex obteve 64,7%, comparado com a média humana de 72%. Isto significa que atingiu o desempenho das pessoas comuns em tarefas de operação informática, quase duplicando o desempenho do seu antecessor. Este desempenho quase humano torna a IA verdadeiramente capaz de trabalhar em escritório pela primeira vez, em vez de ser apenas uma ferramenta auxiliar.
O que é ainda mais notável é que o Claude Opus 4.6 suporta, pela primeira vez, uma janela de contexto de token (beta) de 100K no modelo ao nível Opus, que pode processar toda a base de código ou centenas de páginas de documentos de uma só vez, e lançou a função Agent Teams, onde vários agentes de IA podem colaborar na programação, teste e escrita de documentos ao mesmo tempo.
Quando a OpenAI e a Anthropic lançam os seus modelos emblemáticos no mesmo dia e no mesmo momento, esta competição deixa de ser apenas uma competição técnica, mas uma batalha sobre a futura configuração da IA: a rota da “auto-evolução” da OpenAI ou a rota da “colaboração multi-agente” da Anthropic? A estratégia da OpenAI é tornar uma única IA mais poderosa e até melhorar-se a si própria. A estratégia da Anthropic é permitir que múltiplas IAs colaborem em tarefas complexas através da divisão de tarefas e colaboração.
O contexto dos tokens de 100K é um avanço tecnológico. Isto equivale a cerca de 75 milhões de palavras em inglês ou 300 caracteres chineses, o que é suficiente para caber todo o código de um projeto de software de média dimensão ou uma documentação técnica espessa. Esta capacidade permite a Claude “ver” o projeto completo em vez de uma compreensão fragmentária. Para a análise de arquitetura e refatoração de projetos de grande escala, esta visão global é crucial.
A Agent Teams traz o conceito de colaboração para a IA. Um Agente escreve código, outro testa e um terceiro escreve documentação, podendo comunicar e coordenar-se entre si. Este padrão imita o funcionamento das equipas humanas de software e pode ser mais adequado para certos cenários do que uma única superIA. No entanto, a colaboração entre múltiplos agentes também introduz novas complexidades: como coordenar, como evitar conflitos e como garantir consistência.
Ambas as rotas têm as suas vantagens e desvantagens. A rota de auto-evolução da OpenAI é mais agressiva e, se for bem-sucedida, pode levar a melhorias exponenciais nas capacidades, mas também pode sair do controlo. A via multi-agente da Anthropic é mais conservadora, reduzindo um ponto único de risco ao espalhar capacidades, mas os custos de coordenação podem limitar a eficiência. À medida que a IA começa a evoluir na natureza, as questões de governação vão passar de “quão inteligente é” para “como gerimos um sistema que está em constante mudança?” E quando duas das principais empresas de IA lançam modelos inovadores consecutivos em 20 minutos, a janela de tempo restante para o pensamento e preparação humana está a diminuir a uma velocidade visível a olho nu.
Related Articles
Prata à vista sobe mais de 3% no dia, cotada a 84,76 dólares por onça
Ouro e prata em alta geral, o índice de volatilidade BTC BVIX caiu 1,27% no dia
WTI petróleo bruto diário subiu 13,00%, atualmente cotado a 89,21 dólares por barril
O índice de pânico VIX atingiu o nível mais alto em mais de quatro meses, fechando recentemente em 28,57 pontos
Os três principais índices da bolsa americana abrem em forte baixa, as ações de criptomoedas caem de forma generalizada
70% dos ativos apostados em Bitcoin! O bilionário mexicano diz "aproveite os descontos e compre rapidamente", e o pai rico também aumenta a aposta