Desbloqueie insights do modelo com suporte a probabilidades de log para Importação de Modelo Personalizado no Amazon Bedrock

TL;DR

O suporte a probabilidades de log para Importação de Modelo Personalizado fornece dados de confiança por token para modelos importados, como Llama, Mistral e Qwen, no Bedrock.
Ative definindo “return_logprobs”: true na solicitação InvokeModel; a resposta inclui probabilidades de log tanto para os tokens de prompt quanto para os gerados.
Use as probabilidades de log para classificar saídas, detectar alucinações, avaliar modelos finamente ajustados e otimizar prompts e sistemas de geração com recuperação (RAG).
Um exemplo com um modelo Llama 3.2 1B ajustado ilustra decodificação de IDs de token e conversão de probabilidades de log em probabilidades para uma compreensão intuitiva da confiança do modelo.

Contexto e antecedentes

O Bedrock Custom Model Import permite integrar perfeitamente seus modelos personalizados—como Llama, Mistral e Qwen—que você ajustou externamente, ao Amazon Bedrock. A experiência é serverless, reduzindo a gestão de infraestrutura, e oferece aos modelos importados o mesmo acesso unificado à API que os modelos nativos do Bedrock. Seus modelos personalizados se beneficiam de escalabilidade automática, segurança de alto nível e integração nativa com recursos do Bedrock, como Guardrails e Knowledge Bases. Compreender o quão confiante o modelo está em suas previsões é essencial para construir aplicações de IA confiáveis, especialmente ao lidar com consultas específicas de domínio. Com o suporte a probabilidades de log agora adicionado ao Custom Model Import, você pode acessar informações sobre a confiança de suas previsões em nível de token. Essa melhoria oferece maior visibilidade sobre o comportamento do modelo e habilita novas capacidades para avaliação de modelo, pontuação de confiança e filtragem avançada.

O que há de novo

Neste lançamento, o Bedrock permite que modelos importados via Custom Model Import retornem probabilidades de log por token como parte da resposta de inferência. Ao invocar um modelo por meio da API InvokeModel do Bedrock, você pode acessar as probabilidades de log dos tokens configurando “return_logprobs”: true no corpo da requisição JSON. Com essa opção ativada, a resposta do modelo incluirá campos adicionais com probabilidades de log tanto para os tokens de prompt quanto para os tokens gerados, permitindo que os clientes analisem a confiança do modelo em suas previsões. Essas probabilidades de log permitem avaliar de forma quantitativa o quão confiante seus modelos personalizados estão ao processar entradas e gerar respostas. As métricas granulares possibilitam uma melhor avaliação da qualidade da resposta, solução de problemas de saídas inesperadas e otimização de prompts ou configurações do modelo. Suponha que você já tenha importado um modelo personalizado (por exemplo, um modelo Llama 3.2 1B ajustado) no Bedrock e tenha seu ARN de modelo. Você pode invocar esse modelo usando o SDK de tempo de execução do Bedrock (Boto3 para Python, neste exemplo) conforme o seguinte cenário: no código, enviamos um prompt— “The quick brown fox jumps” —para o modelo importado. Configuramos parâmetros padrão de inferência: comprimento máximo de geração de 50 tokens, temperatura moderada de 0,5 para uma aleatoriedade moderada, e uma condição de parada (ponto final ou nova linha). O parâmetro “return_logprobs”:True diz ao Bedrock para retornar probabilidades de log na resposta. A API InvokeModel retorna uma resposta JSON contendo três componentes principais: o texto gerado padrão, metadados sobre o processo de geração e, agora, probabilidades de log para prompt e tokens gerados. Esses valores revelam a confiança interna do modelo para cada previsão de token, de modo que você pode entender não apenas o texto produzido, mas o quão certo o modelo estava em cada etapa do processo. A resposta bruta da API fornece IDs de token emparelhados com suas probabilidades de log. Para tornar esses dados interpretáveis, primeiro decodificamos os IDs de token usando o tokenizador apropriado (neste caso, o tokenizador Llama 3.2 1B), que mapeia cada ID de volta ao token de texto correspondente. Em seguida, convertemos as probabilidades de log em probabilidades aplicando a função exponencial, traduzindo esses valores em probabilidades mais intuitivas entre 0 e 1. Implementamos essas transformações com código personalizado (não mostrado aqui) para produzir um formato legível onde cada token aparece com sua probabilidade, tornando clara a confiança do modelo em suas previsões. As probabilidades de log por token do recurso Custom Model Import oferecem insights valiosos sobre o processo de tomada de decisão do seu modelo. Essas métricas transformam a forma como você interage com seus modelos personalizados, revelando os seus níveis de confiança para cada token gerado. A seguir estão maneiras práticas de usar esses insights:

Você pode usar probabilidades de log para ranquear várias saídas geradas para o mesmo prompt. Quando sua aplicação precisa escolher entre diferentes concluções, você pode calcular a probabilidade total de cada conclusão somando ou somando as probabilidades de log de todos os seus tokens. Exemplo: Prompt: “Traduzir a frase “Battre le fer pendant qu’il est chaud"". Neste exemplo, a Conclusão A recebe uma pontuação de probabilidade de log mais alta (mais próximo de zero), indicando que a tradução idiomática foi mais natural que a Conclusão B. Essa abordagem numérica permite que sua aplicação selecione automaticamente a saída mais provável ou apresente vários candidatos classificados pela confiança do modelo, indo além da tradução para muitos cenários com múltiplas saídas válidas, como geração de conteúdo, conclusão de código e escrita criativa.
Modelos podem apresentar alucinações—declarações plausíveis mas factualmente incorretas—quando lidam com prompts ambíguos ou queries fora da sua especialidade. As probabilidades de log fornecem uma forma prática de detectar essas situações revelando a incerteza interna do modelo, ajudando a identificar informações potencialmente imprecisas mesmo que a saída pareça confiante. Ao analisar as probabilidades de log por token, você pode identificar quais partes da resposta o modelo pode ter duvidado, mesmo quando o texto parece confiante. Esse recurso é especialmente valioso em sistemas de geração com recuperação (RAG), onde as respostas devem estar conectadas ao contexto recuperado. Quando o modelo tem informações relevantes disponíveis, ele tende a gerar respostas com maior confiança. Por outro lado, baixa confiança em vários tokens sugere que o conteúdo pode ter sido gerado sem apoio suficiente. Exemplo: perguntamos sobre uma métrica fictícia—Índice de Sinergia de Portfólio (ISP)—para demonstrar como as probabilidades de log revelam incerteza nas respostas. Embora o modelo tenha produzido uma definição profissional para esse conceito financeiro inexistente, as pontuações de confiança por token contam uma história reveladora. As pontuações de confiança derivadas das probabilidades de log ajudam a implementar salvaguardas específicas, como sinalização para verificação, busca de contexto adicional, perguntas de esclarecimento ou aplicação de limiares de confiança para informações sensíveis, contribuindo para sistemas de IA mais confiáveis.
Ao projetar prompts para sua aplicação, as probabilidades de log mostram o quão bem o modelo entende suas instruções. Se os primeiros tokens gerados apresentarem probabilidades excepcionalmente baixas, geralmente isso indica que o modelo teve dificuldade em interpretar o que você está pedindo. Acompanhar a média de probabilidade de tokens iniciais (tipicamente os primeiros 5–10 tokens) permite medir de forma quantitativa a clareza do prompt. Prompts bem estruturados com contexto claro costumam produzir probabilidades mais altas, pois o modelo sabe imediatamente o que fazer. Prompts vagos ou pouco especificados costumam gerar menor probabilidade inicial, pois o modelo hesita ou busca direção. Exemplo: comparação de prompts para respostas de atendimento ao cliente: o prompt otimizado gera probabilidades de log mais altas, demonstrando que instruções precisas e contexto claro reduzem a incerteza do modelo. Em vez de julgar a qualidade do prompt como um todo, essa abordagem permite medir a melhoria relativa entre versões.
Você pode usar esses insights para guiar o design de prompts, a seleção de modelos e decisões de implantação, ajudando a construir aplicações de IA mais confiáveis e transparentes com seus modelos personalizados do Bedrock.

Por que isso importa (impacto para desenvolvedores/empresas)

Para desenvolvedores e empresas que constroem IA em produção, o acesso a probabilidades de log por token permite uma avaliação mais precisa do comportamento do modelo e da confiança nas respostas. Isso suporta decisões informadas em áreas como:

classificar e selecionar entre várias saídas candidatas para um dado prompt
detectar e mitigar alucinações ao apresentar tokens incertos
melhorar a geração com recuperação (RAG) ao fundamentar respostas no contexto verificado
diagnosticar falhas e refinar prompts, configurações ou dados de ajuste fino Essa capacidade está alinhada com os objetivos mais amplos do Bedrock de IA escalável, segura e observável, e complementa recursos como Guardrails e Knowledge Bases ao oferecer aos desenvolvedores uma visão quantitativa das decisões do modelo. Você pode consultar o post oficial da AWS para ver o anúncio e exemplos de uso.

Detalhes técnicos ou Implementação

Para usar o suporte a probabilidades de log com importação de modelo personalizado no Bedrock, você precisa:

Invocar um modelo pela API InvokeModel do Bedrock e definir o parâmetro JSON “return_logprobs”: true. Isso habilita probabilidades de log por token para os tokens de prompt e gerados na resposta.
Receber uma resposta JSON que inclui o texto gerado padrão, metadados de geração e os novos campos de probabilidades de log. Esses valores revelam a confiança interna do modelo para cada token durante o processamento.
Decodificar os IDs de token da resposta usando o tokenizador apropriado (por exemplo, o tokenizador Llama 3.2 1B) para mapear os IDs de volta para tokens de texto.
Converter probabilidades de log em probabilidades aplicando a função exponencial, obtendo valores entre 0 e 1. Isso facilita a interpretação e a comparação entre candidatos. O seguinte cenário é descrito no post da AWS:
Você importou um modelo personalizado, como um modelo Llama 3.2 1B ajustado, e possui o ARN dele.
Você o invoca com um prompt como “The quick brown fox jumps” e solicita um comprimento máximo de geração de 50 tokens, temperatura de 0,5 para aleatoriedade moderada e uma condição de parada (ponto final ou nova linha). O sinal “return_logprobs”: true faz com que a resposta inclua probabilidades de log para prompt e tokens gerados.
A resposta traz o texto padrão e as probabilidades de log por token. Você pode decodificar os IDs de token para texto e converter as probabilidades de log para probabilidades, obtendo uma representação legível da confiança do modelo a cada etapa. O que você faz a seguir depende do seu caso de uso. Aqui estão padrões representativos:
Classificar saídas concorrentes pela probabilidade total de log e apresentar a opção mais provável aos usuários ou a componentes downstream.
Usar tokens de baixa confiança para acionar verificação, buscar contexto adicional ou fazer perguntas de esclarecimento em um sistema de diálogo.
Em cenários de RAG, identificar tokens apoiados pelo contexto recuperado, correlacionando a confiança do token com o contexto recuperado.
Monitorar os primeiros tokens das respostas geradas para aferir a clareza do prompt; probabilidades médias mais altas para os tokens iniciais costumam indicar instruções mais claras.

Principais conclusões

Probabilidades de log por token fornecem uma medida quantitativa da confiança do modelo para cada token.
Ative incluindo “return_logprobs”: true na solicitação da API InvokeModel; os resultados incluem probabilidades de log de prompt e tokens gerados.
Decodifique os IDs de token e, em seguida, exponencie as probabilidades de log para obter probabilidades de token, facilitando a interpretação.
Use probabilidades de log para classificar saídas, detectar alucinações, avaliar prompts e ajustar a recuperação-augmented generation.
Essa abordagem ajuda a construir sistemas de IA mais confiáveis com modelos Bedrock personalizados.

FAQ

O que são probabilidades de log em modelos de linguagem?

São o logaritmo da probabilidade atribuída a um token; os valores são negativos, com mais perto de zero indicando maior confiança (por exemplo, -0,1 ~ 90% de confiança).
Como habilito probabilidades de log para um modelo Bedrock personalizado?

Chamando a API InvokeModel com "return_logprobs": true; a resposta então inclui probabilidades de log para prompts e tokens gerados.
Como interpretar as probabilidades de log na prática?

Decodifique os IDs de token com o tokenizador correspondente e converta as probabilidades de log para probabilidades usando a função exponencial para obter valores entre 0 e 1; use-os para avaliar a confiança por token e a qualidade geral da conclusão.
uais são casos de uso práticos para probabilidades de log?

Classificar saídas, detectar alucinações, fundamentar respostas em contexto recuperado (RAG) e diagnosticar problemas de prompt ou configuração do modelo.
Isso ajuda no design de prompts?

Sim; acompanhar a média de probabilidade dos tokens iniciais ajuda a medir a clareza do prompt e o quão bem o modelo entende as instruções.