IA Geral Não é Multimodal: Embodimento e Ambiente no Núcleo da Inteligência
Sources: https://thegradient.pub/agi-is-not-multimodal, thegradient.pub
TL;DR
- A verdadeira AGI requer compreensão física do mundo, não apenas previsão simbólica ou centrada em linguagem.
- Arquiteturas multimodais em patchwork são improvavelmente capazes de entregar uma AGI em nível humano com capacidade de raciocínio sensorimotor, planejamento de movimentos e coordenação social.
- O embasamento e a interação com o mundo real devem ser fundamentais; a processing centrada em modalidade tende a emergir como fenômeno, não como ponto de partida.
- Grandes modelos de linguagem podem exibir habilidades linguísticas impressionantes sem um modelo de mundo enraizado, frequentemente refletindo regras memorizadas em vez de compreensão profunda.
Contexto e antecedentes
As recentes conquistas de modelos de IA generativos fizeram alguns crer que a AGI está próxima. Embora esses modelos pareçam capturar aspectos da inteligência humana, eles desafiam nossas intuições sobre o que é inteligência de verdade. Críticos argumentam que esses sistemas avançaram principalmente porque escalaram de forma eficaz com hardware e dados que já possuímos, não por resolverem o problema central da inteligência. O fascínio pelo escalar levou alguns a verem arquiteturas multimodais, patchwork, — vastas redes modulares treinadas em várias modalidades — como um caminho plausível e geral para a AGI. O artigo sustenta, ao contrário, que essa estratégia é improvável de produzir uma AGI em nível humano no curto prazo, enfatizando a primazia da embodição e da interação com o ambiente. Uma AGI verdadeira deve ser generalista em todos os domínios, incluindo problemas que surgem na realidade física, como consertar um carro, desamarrar um nó ou preparar comida. Para abordar isso, deve-se conceber a inteligência como fundamentalmente situada em um modelo de mundo físico, em vez de operar apenas com símbolos. O texto observa que várias vozes no campo defendem que LLMs aprendam um modelo do mundo via predição do próximo token, mas alerta que isso pode refletir um conjunto de heurísticas, e não um modelo de mundo robusto. Duas linhas de evidência frequentemente citadas sobre modelos do mundo — desempenho de SOTA em LLMs na previsão de sequência e representações internas convergentes — devem ser interpretadas com cuidado. A alegação de que a linguagem espelha a estrutura da realidade é atraente, mas pode induzir a erro se conflar manipulação de símbolos com a compreensão do mundo físico. Embora alguns pesquisadores discutam evidências de tarefas como o jogo Othello (em que estados ocultos podem ser inferidos a partir de sequências de jogadas), esses resultados não se generalizam necessariamente para a física do mundo real, que não pode ser reduzida a um jogo simbólico jogado no papel. Em resumo, a noção de “modelo do mundo” para LLMs é debatida e há o risco de que sucesso preditivo na linguagem não signifique compreensão real do mundo. Uma linha associada discute se um sentido semântico totalmente enraizado é necessário para uma boa linguagem. Alguns propõem incorporar informações semânticas ao nível da sintaxe ou criar categorias sintáticas que impeçam usos semânticos indevidos. Mas o texto argumenta que a compreensão semântica — entender como o mundo funciona — requer mais do que truques sintáticos e sentenças bem formadas. A forma sintática pode ser manipulada sem fundamentação semântica, como na famosa frase “Colorless green ideas sleep furiously.” Ilustra que proficiência linguística pode ser apenas um proxy, não uma medida direta de inteligência geral. O texto também ressalta que a noção de “modelo do mundo” surge da interação com o ambiente, não apenas de dados textuais. Essa visão está alinhada com preocupações de Melanie Mitchell e outros que apontam evidências de que modelos generativos podem se sair bem em tarefas de previsão de sequência enquanto falham em aprender modelos abrangentes dos mundos que geraram os dados. Um exemplo citado é uma variante de OthelloGPT que parece aprender regras aplicáveis aos dados de treino, mas que não se generaliza para todos os jogos possíveis. O ponto mais amplo é que a previsão de sequência sozinha é insuficiente como certificado de compreensão do mundo. Um ponto adicional é o risco de equiparar competência linguística com inteligência geral. Os humanos dependem de várias faculdades cognitivas — sintaxe, semântica, pragmática — produzidas por sistemas distintos que se fundem para gerar compreensão. O autor alerta contra supor que avanços na linguagem se traduzem necessariamente em inteligência geral, observando que as vitórias rápidas de sistemas baseados em linguagem podem ocultar a necessidade de conhecimento embutido, interativo do mundo. O autor invoca a Bitter Lesson de Sutton para argumentar que considerar cuidadosamente a estrutura da inteligência é produtivo. Embora a escala tenha poder, descartar a importância da estrutura pode atrapalhar o progresso. O texto sustenta que os avanços mais significativos virão ao abraçar uma estrutura que prioriza embodição e ambiente, em vez de tratar a integração de modalities como a solução universal.
What’s new
A alegação central é que a estratégia multimodal, apresentada como patchwork para alcançar generalidade, é improvavelmente capaz de produzir uma AGI em nível humano no curto prazo. Em vez disso, a inteligência deve ser buscada como uma forma de embodição — uma capacidade de perceber, agir e raciocinar dentro de um modelo de mundo físico. O processamento centrado em modalidade tende a emergir como uma propriedade secundária de um sistema engajado com o mundo, em vez de uma propriedade a ser concebida desde o início. Em outras palavras, as interações com o ambiente devem ser primárias, e as várias modalidades devem ser entendidas como capacidades emergentes, não blocos de construção predefinidos para inteligência geral.
Why it matters (impact for developers/enterprises)
Para desenvolvedores e empresas, essa perspectiva tem várias implicações. Sugere que buscar modelos multimodais cada vez maiores e mais monolíticos pode não entregar a AGI de longo prazo, especialmente para tarefas que exigem compreensão enraizada e ação no mundo real. O investimento deve considerar abordagens que integrem interação com o ambiente, capacidades sensorimotoras e planejamento com aprendizado a partir da experiência real. Tarefas como manipulação robótica, planejamento de movimento e coordenação social podem exigir modelos embotados além de previsão de texto e imagem. Se a coordenação de modalidades for a meta, ela deve emergir de um sistema que opere no mundo físico, não apenas de um conjunto de modalidades costurado.
Technical details or Implementation
Uma distinção chave é entre modelos do mundo e predição do próximo token. O autor argumenta que o que os LLMs parecem aprender ao prever tokens pode ser um conjunto de heurísticas sobre a estrutura linguística, e não um modelo de mundo robusto e de alta fidelidade. Modelos do mundo verdadeiros — implementados como agentes de aprendizado por reforço baseados em modelos, modelos causais do mundo ou planejadores com física — visam prever observações de alta fidelidade do mundo físico, permitindo tarefas como planejamento de ações e movimento em robótica. Em contraste, LLMs não estão “executando simulações físicas” em seu cálculo latente de tokens, mesmo quando respondem a perguntas sobre tamanhos ou magnitudes. A discussão reconhece evidências de que alguns modelos generativos vão bem em benchmarks de previsão de sequência, mas falham em aprender modelos abrangentes dos mundos que geraram os dados. Um exemplo citado é uma variante de OthelloGPT que parece aprender regras apenas para o conjunto de treino, sem generalizar para todos os jogos possíveis. O ponto é que a simples previsão de sequência é insuficiente como certificado de compreensão do mundo. Um ponto adicional é o risco de equiparar competência linguística com inteligência geral. Os humanos dependem de várias faculdades — sintaxe, semântica, pragmática — que se fundem para criar compreensão. O autor adverte contra supor que avanços na linguagem se traduzem automaticamente em inteligência geral e observa que conquistas rápidas baseadas em linguagem podem obscurecer a necessidade de conhecimento embutido e interativo do mundo.
Key takeaways
- Embodimento e interação com o ambiente são centrais para alcançar uma inteligência robusta e geral além das habilidades linguísticas.
- Sistemas multimodais em patchwork têm baixa probabilidade de atingir AGI em nível humano no curto prazo para tarefas que envolvem percepção, planejamento e coordenação social.
- Modelos do mundo ainda não estão comprovados como aprendidos pela predição do próximo token e podem depender de regras simbólicas memorizadas, não de física fundamentada.
- O caminho para a AGI provavelmente envolve integrar percepção, ação e raciocínio em um modelo do mundo fisicamente situado.
FAQ
-
O que significa embodiment no contexto de AGI?
Refere-se a uma inteligência enraizada em um modelo do mundo físico e capaz de interagir com o ambiente, além do processamento puramente simbólico da linguagem.
-
LLMs realmente aprendem modelos do mundo?
O artigo sustenta que é mais provável que aprendam conjuntos de heurísticas sobre linguagem e símbolos, sem desenvolvimento robusto de modelos do mundo de alta fidelidade.
-
Por que não basta colar múltiplas modalidades para AGI?
Porque combinar modalidades sem uma compreensão enraizada e embutida do mundo provavelmente não produzirá raciocínio sensorimotor, planejamento de movimentos e coordenação social.
-
ual é a direção recomendada para a pesquisa de IA?
bordagens que tratam a embodição e a interação com o ambiente como primárias, com as capacidades multimodais emergindo de um sistema que opera no mundo real.
References
More news
Forma, Simetrias e Estrutura: O Papel Mutável da Matemática na Pesquisa de Aprendizado de Máquina
O artigo defende que a matemática continua essencial no ML, mas seu papel está se expandindo com a escala, a interdisciplinaridade e novas ferramentas para entender modelos complexos.
O que Falta aos Chatbots LLM: Um Senso de Propósito
Exame sobre por que os chatbots LLM normalmente carecem de propósito e como diálogos orientados a objetivos, memória e troca de turnos podem remodelar a colaboração humano–IA, fluxos de codificação e assistência pessoal.
Precisamos de Visões Positivas de IA Fundamentadas no Bem-Estar
Uma análise aprofundada defendendo visões pragmáticas de IA centradas no bem-estar humano e na saúde da sociedade, com caminhos práticos para desenvolvimento e implantação responsáveis.
Aplicações de Mercado Financeiro de LLMs: Da Teoria à Visão Multimodal de Trading
Explora como Grandes Modelos de Linguagem (LLMs) se cruzam com finanças, incluindo desafios de dados em escala, abordagens multimodais, residualização e dados sintéticos, com base na análise da The Gradient sobre implicações de IA para o mercado.
Uma Visão Geral do Viés de Gênero na IA: de Embeddings de Palavras a LLMs
Uma visão sintética de como o viés de gênero surge em sistemas de IA — desde embeddings de palavras tendenciosos até reconhecimento facial e modelos de linguagem grande — e como pesquisadores medem, mitigam e discutem essas questões.
Mamba Explicado: Modelos de Espaço de Estado como Alternativa a Transformers para Contexto Longo
Análise aprofundada da Mamba, uma arquitetura baseada em Modelos de Espaço de Estado (SSM) que substitui o gargalo de atenção para processar sequências muito longas com escalonamento linear e inferência rápida, mantendo desempenho competitivos ou superiores aos Transformers em várias tarefas.