Porque é que os robôs estão sempre a "capotarem" no mundo real? Dois artigos da Qunhe na CVPR oferecem uma nova solução

robot
Geração do resumo em andamento

Recentemente, o top evento de visão computacional, CVPR 2026, anunciou os resultados. A Qunhe Technology, em parceria com a Zhejiang University e a Yushu Technology, teve duas papers selecionadas, abordando o quadro de aprendizagem ao longo da vida para inteligência incorporada e o benchmark de raciocínio espacial em modelos de visão e linguagem. O CVPR é considerado o “Oscar da visão computacional”, reunindo anualmente os avanços mais recentes em IA. Este ano, foram submetidos 16.092 trabalhos, dos quais 4.090 foram aceitos, com uma taxa de aceitação de 25,42%.

Como os robôs “ficam mais inteligentes com o uso”? O quadro Arcadia realiza o ciclo completo de aprendizagem de inteligência incorporada

Dentre eles, a paper “Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning” propõe o quadro de ciclo de vida completo para aprendizagem ao longo da vida de inteligência incorporada, chamado Arcadia, que cobre desde coleta de dados, treinamento de modelos, até autoevolução e atualização de conhecimento após implantação. O foco é fazer com que robôs, assim como humanos, possam aprender continuamente em ambientes em constante mudança.

Nesse quadro, a Qunhe Technology utiliza suas vantagens centrais em reconstrução e geração espacial. Com seu grande modelo SpatialLM, o sistema consegue analisar de forma eficiente os dados sensoriais multimodais coletados pelo robô em informações semânticas estruturadas; combinando com a capacidade de geração espacial do SpatialGen, o sistema gera automaticamente cenários 3D simulados ricos. Depois, usando a plataforma de treinamento de inteligência espacial SpatialVerse, realiza simulações de propriedades físicas e aumento de dados, criando um “campo de treinamento” massivo e fisicamente consistente para o robô.

Dados de testes mostram que, no teste de zero-shot no mundo real com o robô humanoide G1 da Yushu, o quadro Arcadia apresentou desempenho excelente: taxa de sucesso na navegação de 46% e na operação de 27%. Em comparação com soluções open source como NaVILA e OpenVLA, o desempenho geral melhorou cerca de 3 vezes, especialmente em cenários complexos de navegação multi-objetos e operações colaborativas.

A IA realmente entende o espaço? SpatiaLQA constrói uma “prova” de raciocínio lógico espacial

A paper “SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models” aborda uma questão mais fundamental: a IA realmente compreende o espaço?

Hoje, os modelos de visão e linguagem já são bastante avançados. Eles são bons em “entender o que é” (reconhecimento e descrição de objetos) e “responder por que” (questionamento abstrato / raciocínio de senso comum). Mas, em tarefas do mundo físico real, ao lidar com relações de oclusão, restrições de posições relativas e sequências de operações, suas limitações ficam evidentes.

Por exemplo, ao executar tarefas de organização de estantes, o robô precisa identificar pontos de suporte para livros e objetos decorativos que podem ser movidos independentemente — uma compreensão incorreta da lógica espacial pode fazer com que, ao retirar um livro, toda a fila de objetos caia. A benchmark SpatiaLQA não só fornece um conjunto de dados para avaliar várias relações de lógica espacial, como também define de forma sistemática os indicadores de avaliação.

Vale destacar que a capacidade de compreensão espacial do SpatialLM da Qunhe Technology foi fundamental na construção do benchmark SpatiaLQA.

Nos últimos anos, os grandes modelos mudaram principalmente o mundo digital. A geração e compreensão de textos, imagens e vídeos foram profundamente transformadas pela IA. Mas, para a IA entrar no mundo físico, ela precisa de uma habilidade central: entender e interagir com o espaço físico, algo que os modelos de linguagem atuais ainda não dominam.

Sob essa perspectiva, as duas papers selecionadas abordam questões-chave: o quadro Arcadia resolve o problema de “como os robôs podem aprender continuamente para se adaptar ao mundo real”, enquanto o SpatiaLQA responde a “como medir o grau de compreensão da IA sobre lógica espacial”. Juntos, indicam que a inteligência espacial está se tornando uma ponte crucial para que a IA avance do mundo digital para o físico. Nesse processo, a Qunhe Technology continua sendo uma ponte importante entre esses dois mundos.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar