Fonte: Xin Zhi Yuan
Claude 3.5 recebe uma atualização importante durante a madrugada!
Como esperado, Anthropic AI finalmente teve grandes movimentos esta semana - o lançamento do Claude 3.5 Haiku e a chegada da nova versão atualizada Claude 3.5 Sonnet.
No entanto, o ‘super size’ Opus ainda não fez a sua aparição.
Impressionante é o fato de que o Claude 3.5 Sonnet evoluído derrotou facilmente o OpenAI o1, sendo considerado o modelo de raciocínio mais poderoso.
Ele teve melhorias significativas em todos os aspectos, especialmente em termos de capacidade de codificação líder da indústria.
O Claude 3.5 Haiku é equivalente ao desempenho do anterior Claude 3 Opus, com custo, velocidade semelhante ao Haiku anterior.
Até mesmo, Claude agora pode operar o computador como um ser humano, não só pode ver a tela, mover o cursor, mas também clicar nos botões e digitar texto!
O diretor de relações com desenvolvedores da Anthropic afirma que ‘computação assistida’ é o primeiro passo para um novo paradigma de interação humano-máquina. Também é uma nova capacidade básica que os modelos de IA devem ter.
Muitas startups que fazem agentes de navegação inteligentes ficaram obsoletas da noite para o dia.
Os internautas suspiram: Agent e fluxo de trabalho estão prestes a mudar…
Durante o teste público, a Anthropic introduziu uma nova e revolucionária funcionalidade: capacidade de uso do computador. A partir de hoje, os desenvolvedores podem orientar o Claude a usar o computador como um ser humano, através da API.
Claude 3.5 Sonnet é o primeiro modelo a oferecer esta funcionalidade em beta público.
É claro que essa função ainda está em fase experimental e pode ser um pouco complicada e propensa a erros. A escolha da Anthropic em lançar essa função antecipadamente é para obter feedback dos desenvolvedores e fazer melhorias rapidamente.
Por que treinar a IA para operar computadores?
Anthropic indica que nos últimos anos, o desenvolvimento avançado da IA alcançou muitos marcos, como a capacidade de realizar raciocínio lógico complexo e de reconhecer e compreender imagens.
E o próximo ponto de viragem é a IA a operar computadores! Se o modelo não precisar de interagir através de ferramentas personalizadas, mas sim de usar todo o software conforme indicado, isso certamente representa a direção do futuro.
Neste demo, pesquisadores da Anthropic apresentaram a Claude um desafio extremamente difícil:
O meu fren vai para São Francisco e quero ver o nascer do sol na Ponte Golden Gate amanhã de manhã com ele. Vamos partir de Pacific Heights. Podes ajudar-nos a encontrar um local ideal para observar, verificar os tempos de condução e nascer do sol, e depois agendar um evento no calendário para termos tempo suficiente para lá chegar?
Claude abriu o Google por conta própria e começou a pesquisar.
Quão longe está a Ponte Golden Gate da casa do usuário? Claude irá abrir o mapa e procurar a distância por si só.
Depois de obter as informações necessárias, ele abre o calendário e organiza a agenda para o dono.
O desenvolvedor demonstrou como Claude manipulou seu laptop e concluiu suavemente uma tarefa de programação de um site.
Primeiro, Claude navegou até Claude.ai no navegador Chrome do Xiao Ge e criou uma página inicial pessoal com tema dos anos 90 para si mesmo.
Apenas digita o endereço, insere a sugestão e envia um pedido para outro Claude.
Claude.ai devolveu algum código que renderizou uma imagem muito boa, mas o rapaz quer fazer algumas modificações no site em seu próprio computador local.
Então ele pediu a Claude para baixar o arquivo e abri-lo no VS Code. Claude conseguiu seguir essas instruções com sucesso.
Em seguida, o irmão mais novo pediu a Claude para iniciar um servidor e, em seguida, o arquivo pode ser visualizado no navegador.
Claude abriu o terminal do VS Code e tentou iniciar um servidor, mas encontrou um erro: o Python não estava instalado na máquina.
Como resultado, ao verificar a saída do terminal, Claude descobriu o problema por si próprio! Ele tentou novamente com Python 3 e conseguiu iniciar o servidor com sucesso.
No entanto, há um erro na saída do terminal, e está em falta um ícone de ficheiro no topo. O desenvolvedor, Claude, é solicitado a identificar e corrigir este erro no ficheiro.
Para sua surpresa, Claude encontrou a linha que estava causando o erro no VS Code, excluiu a linha inteira, salvou o arquivo e reexecutou o site.
Desta vez, o site está completamente correto!
Supondo que precisamos preencher um formulário de solicitação de fornecedor da ‘Ant Device Company’, mas os dados para preenchimento estão espalhados pelos cantos do computador, o Claude pode nos ajudar?
Ele começou a capturar a tela do irmãozinho e logo percebeu que a empresa Ant Device não estava na tabela.
Neste momento, ele muda imediatamente para o sistema CRM para procurar esta empresa. Depois de encontrá-la, ele rola a página para procurar todas as informações necessárias para preencher o formulário e, em seguida, envia o formulário.
Isso significa que muitas das tarefas tediosas que temos que fazer no trabalho podem ser realizadas por Claude!
Agora, esta funcionalidade está disponível na API.
Agora, várias empresas conhecidas, como Asana, Canva, Cognition, DoorDash, Replit e The Browser Company, já estão explorando o novo potencial de Claude, permitindo-lhe executar tarefas complexas de dezenas ou até centenas de etapas.
Por exemplo, a Replit está a utilizar a capacidade de computação e navegação da interface do utilizador do Claude 3.5 Sonnet para desenvolver funcionalidades para o Agente Replit, avaliando-o em tempo real durante o processo de construção da aplicação.
Como é a capacidade de uso do computador do recém-atualizado Claude 3.5 Sonnet?
No teste OSWorld, marcou 14.9% na categoria de tarefas baseadas apenas em capturas de tela, superando claramente o sistema de IA em segundo lugar (7.8%).
Quando permitido mais etapas para concluir a tarefa, a pontuação de Claude aumentou para 22,0%.
Isso indica que a interação entre o modelo e o ambiente várias vezes pode otimizar o desempenho da tarefa.
Embora este resultado tenha melhorado significativamente em relação ao anterior, ainda está muito abaixo do desempenho humano de 72,36%.
Isso também sugere que o Claude 3.5 Sonnet tem muito espaço para melhorias no futuro.
Afinal, algumas operações que os humanos realizam sem esforço (rolagem, arrastar, zoom) são extremamente desafiadoras para Claude no momento.
No teste de referência em várias indústrias, o desempenho aprimorado do Claude 3.5 Sonnet foi aprimorado em todos os aspectos.
Especialmente, houve avanços significativos na codificação de agentes inteligentes e no uso de ferramentas.
Endereço do artigo:
Em termos de capacidade de codificação, no teste SWE-bench Verified, o desempenho aumentou significativamente de 33,4% para 49,0%.
Isso vai além de todos os modelos disponíveis publicamente - incluindo modelos de inferência como OpenAI o1-preview e sistemas especializados projetados para codificar agentes inteligentes.
Além disso, no teste de referência TAU-bench (um teste de referência para avaliar a capacidade de uso de ferramentas de agentes inteligentes), o Claude 3.5 Sonnet também teve um desempenho excelente:
No setor de varejo, a pontuação subiu de 62.6% para 69.2%, enquanto no setor aéreo mais desafiador, subiu de 36.0% para 46.0%.
A partir da tabela abaixo, pode-se ver que na prova de raciocínio Referência GPQA (Diamond), a nova versão do Sonnet Claude 3.5 supera significativamente o GPT-4o.
Nos testes de QA visual, raciocínio matemático, perguntas visuais de documentos, perguntas de gráficos, testes de tabelas científicas Referência, o desempenho do Claude 3.5 Sonnet se tornou o novo padrão da indústria.
Vale ressaltar que o novo modelo Claude 3.5 Sonnet superou o desempenho ao mesmo tempo em que manteve o mesmo preço e velocidade de operação do modelo anterior.
Alguns feedbacks de usuários de teste iniciais confirmaram ainda mais o salto de qualidade do Claude 3.5 Sonnet após a atualização, no campo de codificação impulsionada por IA.
Além disso, antes de ir para o Departamento de Segurança, Claude 3.5 Sonnet já passou por testes conjuntos no US AISI (Instituto de Pesquisa em Segurança da IA dos EUA) e no UK AISI (Instituto de Pesquisa em Segurança do Reino Unido).
Além disso, após sua própria avaliação, o padrão ASL-2 estabelecido pela Anthorpic em sua ‘Política de Dimensionamento Responsável’ ainda se aplica aos novos modelos.
Como mencionado anteriormente, a versão aprimorada do Sonnet Claude 3.5 agora está disponível para uso em páginas da web e aplicativos de terminal.
O preço inicial da API é de 3 dólares por milhão de Token de entrada e 15 dólares por milhão de Token de saída.
Ao usar a tecnologia de cache inteligente, é possível economizar até 90% dos custos, enquanto o uso da API de lote pode economizar 50% dos custos.
O Claude 3.5 Sonnet é capaz de entender instruções e contexto sutis, identificar e corrigir erros por si só, e gerar análises e insights profundos a partir de dados complexos. Combinando habilidades avançadas de codificação, reconhecimento visual e redação, o Claude 3.5 Sonnet pode ser aplicado em diversas situações.
- Simulação de operação humana em computador
Ao integrar o Claude através da API, os desenvolvedores podem guiar o Claude a usar o computador como um humano - observando a tela, movendo o mouse, clicando em botões e digitando texto. O Claude 3.5 Sonnet é o primeiro modelo de IA de ponta que pode usar o computador de forma confiável dessa maneira, embora atualmente ainda esteja em fase de teste público experimental, suas habilidades continuarão a melhorar com o tempo.
- Código gerado automaticamente
O Claude 3.5 Sonnet pode ajudar em todo o ciclo de vida do desenvolvimento de software - desde o design inicial até a correção de erros, da manutenção do sistema à otimização de desempenho. Pode ser integrado diretamente ao produto ou usado como assistente de codificação inteligente por meio da plataforma Claude.ai.
- Sistema de Conversação Inteligente
Com habilidades avançadas de raciocínio e uma maneira amigável e natural de se expressar, o Claude 3.5 Sonnet é perfeito para o desenvolvimento de sistemas de diálogo inteligentes que exigem a conexão de dados entre diferentes sistemas e a execução de ações.
- Perguntas e respostas inteligentes de conhecimento
Claude 3.5 Sonnet has the ability to handle large-scale context and a very low illusion rate, making it an ideal choice for handling large knowledge bases, document and code library question-answering tasks.
- Extração de Informação Visual
Claude 3.5 Sonnet pode facilmente extrair informações de materiais visuais como gráficos, figuras e diagramas complexos, tornando-o um modelo de inteligência artificial ideal para tarefas de análise e ciência de dados.
- Automatização de Processos
O Claude 3.5 Sonnet pode automatizar tarefas ou processos repetitivos. Possui capacidade de execução de instruções líder na indústria e pode lidar com fluxos e operações complexas.
Comparado com a geração anterior, o Claude 3.5 Haiku pode ser considerado como o ‘copo mais pequeno’.
Este é o modelo mais rápido da Anthropic.
Não só mantém os mesmos custos operacionais e velocidade de processamento semelhantes ao Claude 3 Haiku, mas também melhora completamente todas as habilidades.
Até mesmo nos testes de referência de várias inteligências, o Claude 3.5 Haiku superou o modelo mais poderoso da geração anterior, o Claude 3 Opus.
Da mesma forma, o Claude 3.5 Haiku apresenta um desempenho especialmente notável em tarefas de codificação.
Por exemplo, no teste SWE-bench Verified, ele obteve uma pontuação alta de 40.6%, superando muitos agentes de inteligência artificial que usam modelos de última geração disponíveis publicamente - incluindo as versões originais do Claude 3.5 Sonnet e GPT-4o.
O Haiku Claude 3.5 possui três vantagens destacadas:
1. Resposta de baixa latência
2. Capacidade de execução de instruções mais precisa
3. Uso mais preciso das ferramentas
Essas características tornam o modelo especialmente adequado para o desenvolvimento de produtos voltados para o usuário, processamento de tarefas especializadas de subagentes e geração de experiências personalizadas com base em dados em massa, como registros de compra, informações de preços ou dados de estoque.
No final deste mês, o Claude 3.5 Haiku será lançado em várias plataformas, incluindo Anthropic API, Amazon Bedrock e Vertex AI da Google Cloud. (Inicialmente será lançado como um modelo de texto puro e depois será adicionada a funcionalidade de entrada de imagem)
O preço inicial do Claude 3.5 Haiku é de $0.25 por milhão de tokens de entrada e $1.25 por milhão de tokens de saída.
Ao utilizar a técnica de cache de palavras-chave, pode-se economizar até 90% dos custos, enquanto o uso da API de processamento de mensagens pode economizar 50% dos custos.
Com sua velocidade de processamento rápido, capacidade de execução de instruções melhorada e uso mais preciso de ferramentas, o Claude 3.5 Haiku é muito adequado para produtos orientados ao usuário, tarefas de assistência especializadas e para gerar experiências personalizadas a partir de grandes quantidades de dados.
- Preenchimento automático de código
Claude 3.5 Haiku pode fornecer sugestões e completar código rápidos e precisos, acelerando efetivamente o fluxo de trabalho de desenvolvimento. É especialmente adequado para equipes de desenvolvimento de software que desejam simplificar o processo de codificação e aumentar a produtividade.
- Chatbot inteligente
Com habilidades de conversação aprimoradas e tempos de resposta rápidos, o Claude 3.5 Haiku se destaca no gerenciamento de chatbots responsivos que podem lidar com uma grande quantidade de interações de usuários. É especialmente valioso para serviços de atendimento ao cliente, comércio eletrônico e plataformas educacionais que precisam de capacidades interativas escaláveis.
- Extração de Dados e Rotulagem Automática
O Claude 3.5 Haiku é capaz de lidar e classificar eficientemente informações, com excelente desempenho em tarefas de extração rápida de dados e marcação automática. Essa habilidade é especialmente útil para organizações que lidam com grandes volumes de dados não estruturados em áreas como finanças, saúde e pesquisa.
- Auditoria de conteúdo em tempo real automática
O Claude 3.5 Haiku oferece serviços de verificação de conteúdo confiáveis e instantâneos por meio de sua capacidade aprimorada de inferência e compreensão de conteúdo. Isso é extremamente valioso para plataformas de mídia social, comunidades online e organizações de mídia que precisam manter um grande volume de conteúdo seguro e apropriado.
Anthropic says that actions that are easy for humans - scrolling, dragging, zooming - are still challenging for Claude.
Quanto ao lixo eletrônico, informações falsas, fraudes e outros riscos semelhantes, a empresa está buscando estratégias do departamento de segurança, como o desenvolvimento de sistemas de identificação para detectar possíveis danos.
Anthropic estabeleceu as bases para o reconhecimento e interpretação de imagens por IA em ferramentas de uso e trabalho multimodal.
Com base nisso, Claude também precisa deduzir como e quando executar ações com base no conteúdo da tela.
Para isso, os pesquisadores treinaram o Claude para calcular com precisão os pixels, a fim de executar comandos, pois ele precisa calcular quantos pixels são necessários para mover o ponteiro do mouse vertical ou horizontalmente para clicar na posição correta.
Durante este período, Claude rapidamente mudou com sucesso de treinar em software simples como calculadoras e editores de texto para outras aplicações (note que não foi permitida conexão com a internet durante este período).
Esse tipo de treinamento permite que ele converta os comandos do usuário em uma série de etapas lógicas e execute operações. Quando encontra obstáculos, pode até se corrigir e tentar a tarefa novamente.
Alex Albert, diretor de relações com desenvolvedores da Anthropic, também compartilhou uma história interessante sobre como a equipe desenvolveu uma funcionalidade de uso de computador.
Na época, eles realizaram uma festa de bugs de engenheiro para garantir que todos os possíveis problemas de API fossem encontrados.
Isto significa trancar um grupo de engenheiros numa sala durante várias horas.
Naquela época, todos estavam com fome. Um dos engenheiros teve uma ideia brilhante: “Por que não deixar o Claude fazer um exercício prático e pedir comida pelo DoorDash?”.
Não demorou muito, cerca de um minuto depois, Claude trouxe pizzas para os engenheiros.
A capacidade de operação de inteligência artificial no computador representa um novo método de desenvolvimento de inteligência artificial.
Até agora, os desenvolvedores da LLM têm trabalhado arduamente para tornar a ferramenta compatível com o modelo, criando um ambiente especial para permitir que a IA realize várias tarefas usando ferramentas especialmente projetadas.
Agora, a Anthropic adota uma abordagem contrária - eles optam por fazer o modelo se adaptar à ferramenta. Ou seja, Claude pode se integrar ao ambiente de computador que usamos diariamente como um humano e usar diretamente o software existente.
Embora Claude tenha alcançado o nível mais alto atual, suas operações ainda são relativamente lentas e propensas a erros. Muitas operações que fazemos diariamente em computadores, como arrastar e redimensionar, Claude ainda não consegue realizar.
Além disso, a forma como Claude atualmente observa a tela é semelhante a folhear rapidamente um ‘livro de imagens’ - capturando continuamente a tela e juntando-as, em vez de observar um fluxo contínuo de vídeo. Isso significa que pode perder alguns movimentos ou notificações breves.
Curiosamente, durante a gravação do Demo, a Anthropic encontrou alguns incidentes interessantes.
Por exemplo, durante uma demonstração, Claude acidentalmente clicou em parar durante uma gravação de tela em execução há muito tempo, o que resultou em todos os vídeos sendo perdidos.
Em outra demonstração de codificação, Claude de repente se distraiu e começou a procurar fotos do Parque Nacional de Yellowstone com interesse.
Em resumo, a performance atual de Claude é promissora para o futuro: a capacidade de operar computadores por AI avançará rapidamente, e um dia até mesmo novatos em desenvolvimento de software poderão usá-la com facilidade.