ICR2: Recuperação e Raciocínio em Contexto para Modelos de Linguagem de Longo Contexto
Sources: https://machinelearning.apple.com/research/eliciting-in-context, machinelearning.apple.com
TL;DR
- ICR2 significa Recuperação e Raciocínio em Contexto (In-Context Retrieval and Reasoning), um benchmark criado para avaliação realista e treino de modelos de linguagem de longo contexto (LCLMs). [https://machinelearning.apple.com/research/eliciting-in-context]
- Modelos com janelas de contexto ampliadas podem processar bases de conhecimento inteiras e lidar diretamente com recuperação e raciocínio, potencialmente simplificando o RAG. [https://machinelearning.apple.com/research/eliciting-in-context]
- O conjunto de dados ICR2 aborda limitações de benchmarks anteriores, incluindo documentos confusos recuperados por ferramentas fortes para criar cenários mais próximos da prática. [https://machinelearning.apple.com/research/eliciting-in-context]
- Para o Mistral-7B, a melhor abordagem produz ganhos significativos sobre RAG zero-shot e modelos finos treinados in-domain, chegando a, em muitos casos, superar o GPT-4, apesar de ter tamanho menor. [https://machinelearning.apple.com/research/eliciting-in-context]
Contexto e antecedentes
Modelos de linguagem de longo contexto (LCLMs) prometem transformar o RAG expandindo o que eles podem considerar em uma única passagem. Essa capacidade pode reduzir a necessidade de pipelines multi-etapas que envolvem recuperadores, leitores e reclassificadores. No entanto, benchmarks existentes apresentaram limitações: alguns, como o LOFT, tendem a superestimar o desempenho de LCLMs por não apresentarem contextos suficientemente desafiadores. Em resposta, o ICR2 foi projetado para avaliar e treinar LCLMs sob condições mais realistas, incluindo documentos confusos recuperados por ferramentas fortes. O trabalho também comenta as limitações gerais de grandes modelos de linguagem ao lidar com longos contextos, como custos de inferência que crescem quadraticamente com o tamanho da sequência e fenômenos de distração quando contexto irrelevante pode atrapalhar o desempenho. [https://machinelearning.apple.com/research/eliciting-in-context]
O que há de novo
O estudo apresenta o ICR2 como um benchmark voltado para avaliação realista e treino de LCLMs, enfatizando cenários de recuperação e raciocínio em contextos longos. O conjunto de dados é desenhado para incluir documentos confusos recuperados por ferramentas fortes, simulando desafios práticos de recuperação. Além disso, são propostas três técnicas para melhorar o desempenho das LCLMs nesse contexto: (1) fine-tuning retrieve-then-generate, (2) modelagem explícita de uma cabeça de recuperação treinada conjuntamente com a cabeça de geração, e (3) decoding com recuperação-atencional, que usa cabeças de atenção para filtrar e refinar longos contextos durante a decodificação. Os autores comparam quatro LCLMs conhecidos em LOFT e ICR2, mostrando ganhos expressivos para a configuração mais eficaz, especialmente quando aplicada ao Mistral-7B. [https://machinelearning.apple.com/research/eliciting-in-context]
Por que isso importa (impacto para desenvolvedores/empresas)
Para desenvolvedores e empresas, o estudo aponta para uma possível redução na complexidade de pipelines de linguagem com contexto longo, oferecendo um caminho para implantar sistemas que recuperam e raciocinam dentro do próprio modelo. Ao permitir recuperação e raciocínio em uma única passagem, ICR2 pode reduzir a dependência de componentes externos em fluxos RAG e facilitar implementações de bases de conhecimento extensas. Os resultados indicam que estratégias de recuperação em-contexto bem desenhadas podem alcançar desempenhos competitivos, até mesmo diante de modelos maiores, como o GPT-4, em cenários relevantes. Essas percepções são relevantes para equipes que exploram alternativas a RAG, bases de conhecimento escaláveis e implantações de LCLMs. [https://machinelearning.apple.com/research/eliciting-in-context]
Detalhes técnicos ou Implementação
O estudo amarra o conceito de modelos de linguagem de longo contexto com a habilidade de realizar recuperação e raciocínio dentro da janela de contexto, conceito que eles chamam de In-Context Retrieval and Reasoning (ICR2). Para avaliação, o conjunto de dados é desenhado com documentos confusos recuperados por ferramentas fortes, desafiando o modelo a discernir sinais relevantes do ruído. São apresentadas três propostas para melhorar o desempenho:
- fine-tuning retrieve-then-generate, que alinha o comportamento de recuperação com objetivos de geração durante o treinamento;
- modelagem explícita de uma cabeça de recuperação treinada em conjunto com a cabeça de geração, criando uma arquitetura unificada que otimiza recuperação e geração;
- decoding com recuperação-atencional, que utiliza cabeças de atenção para filtrar contextos longos durante a geração. Resultados: aplicar a melhor abordagem ao Mistral-7B produz ganhos significativos: +17 e +15 no LOFT, e +13 e +2 no ICR2, comparado a RAG zero-shot e a modelos finos treinados in-domain, respectivamente. Em alguns cenários, essa abordagem chega a superar o GPT-4, mesmo com tamanho de modelo menor. O estudo avalia quatro LCLMs amplamente utilizados em LOFT e ICR2 para ilustrar esses ganhos. [https://machinelearning.apple.com/research/eliciting-in-context]
Principais conclusões
- O IC R2 oferece um framework de avaliação mais realista para modelos de longo contexto do que benchmarks anteriores.
- Integrar recuperação e raciocínio dentro do modelo pode simplificar pipelines de RAG.
- Treinar com objetivos retrieve-then-generate e cabeças de recuperação conjuntas gera ganhos pragmáticos em cenários do mundo real.
- Decoding com recuperação-atencional fornece um mecanismo para filtrar contextos longos barulhentos e melhorar a qualidade da geração.
- No Mistral-7B, a melhor configuração ICR2 atinge ganhos substanciais frente a RAG zero-shot e bases finas in-domain, e pode superar o GPT-4 em várias tarefas nesse setting.
FAQ
-
O que significa ICR2, e por que é importante?
ICR2 significa In-Context Retrieval and Reasoning, um benchmark e metodologia para avaliar e treinar modelos de linguagem de longo contexto a recuperar e raciocinar dentro de seu contexto, preenchendo lacunas em benchmarks anteriores. [https://machinelearning.apple.com/research/eliciting-in-context]
-
Como o ICR2 difere do LOFT?
O ICR2 introduz cenários mais realistas, incluindo documentos confusos recuperados por ferramentas fortes, buscando evitar superestimativas observadas em benchmarks anteriores. [https://machinelearning.apple.com/research/eliciting-in-context]
-
uais métodos o artigo propõe para melhorar o desempenho das LCLMs?
Retrieve-then-generate, uma cabeça de recuperação treinada conjuntamente com a geração e decoding com atenção de recuperação (retrieval-attention-probing). [https://machinelearning.apple.com/research/eliciting-in-context]
-
Como o melhor método se saiu no Mistral-7B em relação ao GPT-4?
O método alcançou ganhos expressivos frente a RAG zero-shot e baselines in-domain, e em muitos casos superou o GPT-4, ainda que com um modelo menor. [https://machinelearning.apple.com/research/eliciting-in-context]
References
More news
Shadow Leak mostra como agentes do ChatGPT podem exfiltrar dados do Gmail via injeção de prompt
Pesquisadores de segurança demonstraram uma injeção de prompt chamada Shadow Leak que usou o Deep Research do ChatGPT para extrair dados de uma caixa de entrada do Gmail. OpenAI corrigiu a falha; o caso destaca riscos de IA com atuação autônoma.
Deteção e redução de scheming em modelos de IA: avanços, métodos e implicações
OpenAI e Apollo Research avaliaram desalineação oculta em modelos de fronteira, observaram comportamentos de scheming e testaram um método de alinhamento deliberativo que reduziu ações encobertas em cerca de 30x, com limitações e trabalhos em andamento.
Reduzindo a Latência de Cold Start para Inferência de LLM com NVIDIA Run:ai Model Streamer
Análise detalhada de como o NVIDIA Run:ai Model Streamer reduz o tempo de cold-start na inferência de LLMs ao transmitir pesos para a memória da GPU, com benchmarks em GP3, IO2 e S3.
Autodesk Research Revoluciona CFD com Warp no NVIDIA GH200
Autodesk Research, NVIDIA Warp e GH200 mostram CFD baseado em Python com XLB: ~8x de velocidade, até 50 bilhões de células e desempenho próximo a soluções OpenCL/C++.
Otimize o acesso a alterações de conteúdo ISO-rating com Verisk Rating Insights e Amazon Bedrock
Verisk Rating Insights, impulsionado pelo Amazon Bedrock, LLMs e RAG, oferece uma interface conversacional para acessar mudanças ERC ISO, reduzindo downloads manuais e aumentando a velocidade e a precisão das informações.
Como a msg otimizou a transformação de RH com Amazon Bedrock e msg.ProfileMap
Este post mostra como a msg automatizou a harmonização de dados para o msg.ProfileMap usando o Amazon Bedrock para alimentar fluxos de enriquecimento de dados alimentados por LLM, elevando a precisão na correspondência de conceitos de RH, reduzindo trabalho manual e alinhando-se ao EU AI Act e ao GD