O progresso da IA agora depende de ‘Modelos Mundiais’ que compreendem a realidade física

Decrypt

2025-11-10 23:24:00

Em resumo

A professora de Ciência da Computação da Stanford, Fei-Fei Li, disse que o progresso da IA agora é limitado por sistemas que não conseguem entender o espaço físico.
Modelos de mundo são projetados para simular ambientes e prever como as cenas mudam ao longo do tempo.
Protótipos iniciais como o Marble sugerem como estes modelos poderiam remodelar o trabalho criativo, a robótica e a ciência.

O Hub de Arte, Moda e Entretenimento da Decrypt.

Descubra SCENE

Os robôs e a inteligência artificial multimodal ainda não conseguem compreender o mundo físico, uma limitação que um pesquisador proeminente afirma ser agora o maior obstáculo do campo.

Fei-Fei Li, a cientista da computação de Stanford amplamente considerada uma pioneira da visão computacional moderna, disse que a lacuna entre a IA e a realidade física se tornou o problema mais urgente da tecnologia e argumenta que fechá-la exigiria sistemas construídos em torno do raciocínio espacial em vez de apenas da linguagem.

A IA está rapidamente a aproximar-se dos limites da aprendizagem baseada em texto, e o progresso dependerá, em última análise, dos “modelos de mundo,” disse Li em um relatório publicado na segunda-feira.

“No cerne do desbloqueio da inteligência espacial está o desenvolvimento de modelos do mundo—um novo tipo de IA generativa que deve enfrentar um conjunto fundamentalmente diferente de desafios em relação aos LLMs,” escreveu Li no X. “Estes modelos devem gerar mundos espacialmente consistentes que obedecem às leis físicas, processar entradas multimodais desde imagens até ações, e prever como esses mundos evoluem ou são interagidos ao longo do tempo.”

Que diabos são esses modelos?

O conceito de “modelos de mundo” remonta ao início da década de 1940, quando o filósofo e psicólogo escocês Kenneth Craik realizou pesquisas em ciência cognitiva.

A ideia ressurgiu na IA moderna após o artigo de 2018 de David Ha e Jürgen Schmidhuber mostrar que uma rede neural poderia aprender um modelo interno compacto de um ambiente e usá-lo como um simulador para planejamento e controle.

Li argumentou que os modelos do mundo importam porque os robôs e os sistemas multimodais ainda têm dificuldades com o raciocínio espacial fundamentado, o que os impede de avaliar distâncias e mudanças de cena, ou de prever resultados físicos básicos.

“Os robôs como colaboradores humanos, quer ajudando cientistas no laboratório, quer assistindo idosos que vivem sozinhos, podem expandir parte da força de trabalho que precisa urgentemente de mais mão-de-obra e produtividade”, escreveu Li. Os ambientes reais seguem regras que as máquinas atuais não conseguem captar, argumenta Li.

Desde a gravidade a moldar o movimento até materiais a influenciar a luz, resolver isto requer sistemas capazes de armazenar memória espacial e modelar cenas em mais de duas dimensões.

Em setembro, a empresa de Li, World Labs, lançou a beta do Marble, um modelo de mundo inicial que produzia ambientes tridimensionais exploráveis a partir de prompts de texto ou imagem.

Os utilizadores podiam percorrer estes mundos sem limites de tempo ou desvios de cena, e os ambientes mantinham-se consistentes em vez de se transformarem ou se desintegrarem, afirma a empresa.

“O Marble é apenas o nosso primeiro passo na criação de um modelo de mundo verdadeiramente inteligente espacialmente,” escreveu Li. “À medida que o progresso acelera, pesquisadores, engenheiros, usuários e líderes empresariais estão começando a reconhecer seu potencial extraordinário. A próxima geração de modelos de mundo permitirá que as máquinas alcancem inteligência espacial em um nível totalmente novo—uma conquista que desbloqueará capacidades essenciais ainda largamente ausentes nos sistemas de IA de hoje.”

Li disse que os casos de uso de modelos do mundo incluem o suporte a uma variedade de aplicações, pois eles dão à IA uma compreensão interna de como os ambientes se comportam.

Os criadores poderiam usá-los para explorar cenas em tempo real, os robôs poderiam confiar neles para navegar e manusear objetos de forma mais segura, e os pesquisadores em ciência e saúde poderiam realizar simulações espaciais ou melhorar a automação de imagem e laboratório.

Li ligou a pesquisa em inteligência espacial a estudos biológicos precoces, observando que os humanos aprenderam a perceber e agir muito antes de desenvolverem a linguagem.

“Muito antes da linguagem escrita, os humanos contaram histórias—pintaram-nas nas paredes das cavernas, passaram-nas através das gerações, construíram culturas inteiras em narrativas partilhadas,” escreveu ela. “As histórias são como fazemos sentido do mundo, conectamos através da distância e do tempo, exploramos o que significa ser humano e, mais importante, encontramos significado na vida e no amor dentro de nós mesmos.”

Li disse que a IA precisava do mesmo fundamento para funcionar no mundo físico e argumentou que o seu papel deveria ser o de apoiar as pessoas, e não substituí-las. O progresso, no entanto, dependeria de modelos que compreendessem como o mundo funcionava, em vez de apenas o descrever.

“A próxima fronteira da IA é a Inteligência Espacial, uma tecnologia que transformará ver em raciocínio, percepção em ação e imaginação em criação,” disse Li.

Ver original

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Comentário

0/400

Sem comentários