Desbloquea insights del modelo con soporte de probabilidades de registro para la importación de modelos personalizados de Amazon Bedrock

TL;DR

El soporte de probabilidades de log para la Importación de Modelos Personalizados ofrece datos de confianza a nivel de token para modelos importados en Bedrock, como Llama, Mistral y Qwen.
Actívelo estableciendo “return_logprobs”: true en la solicitud de InvokeModel; la respuesta incluye probabilidades de log para los tokens de prompt y los tokens generados.
Utilice estas probabilidades para clasificar salidas, detectar alucinaciones, evaluar modelos afinados y optimizar prompts y sistemas de generación con recuperación (RAG).
Un ejemplo con un modelo Llama 3.2 1B afinado ilustra la decodificación de IDs de tokens y la conversión de probabilidades de log a probabilidades para entender mejor la confianza del modelo.

Contexto y antecedentes

Bedrock Custom Model Import permite integrar sin problemas tus modelos personalizados—como Llama, Mistral y Qwen—afinados fuera de Bedrock, al Amazon Bedrock. La experiencia es sin servidor, con gestión de infraestructura mínima y acceso API unificado con los modelos nativos de Bedrock. Tus modelos personalizados se benefician de escalado automático, seguridad de nivel empresarial y una integración nativa con características de Bedrock como Guardrails y Knowledge Bases. Entender cuánta confianza tiene un modelo en sus predicciones es clave para construir aplicaciones de IA fiables, especialmente ante consultas de dominio específico. Con el soporte de probabilidades de log en Custom Model Import, puedes acceder a información sobre la confianza de tus predicciones a nivel de token, lo que ofrece mayor visibilidad del comportamiento del modelo y habilita nuevas capacidades para evaluación del modelo, puntuación de confianza y filtrado avanzado.

Qué hay de nuevo

Con esta versión, Amazon Bedrock permite que los modelos importados mediante la función Custom Model Import devuelvan probabilidades de log por token como parte de la respuesta de inferencia. Al invocar un modelo a través de la API InvokeModel de Bedrock, puedes acceder a las probabilidades de log de los tokens estableciendo “return_logprobs”: true en el cuerpo JSON de la solicitud. Con este indicador habilitado, la respuesta del modelo incluirá campos adicionales que proporcionan probabilidades de log tanto para los tokens de prompt como para los tokens generados, de modo que los clientes puedan analizar la confianza del modelo en sus predicciones. Estas probabilidades permiten evaluar de forma cuantitativa cuán confiantes están los modelos personalizados al procesar entradas y generar respuestas. Las métricas granulares permiten una mejor evaluación de la calidad de respuesta, depuración de salidas inesperadas y optimización de prompts o configuraciones del modelo. Supón que ya importaste un modelo personalizado (por ejemplo, un modelo Llama 3.2 1B afinado) en Amazon Bedrock y tienes su ARN de modelo. Puedes invocar este modelo usando el AWS Bedrock Runtime SDK (Boto3 para Python en este ejemplo) como se describe en el siguiente ejemplo: en el código anterior, enviamos un prompt— “The quick brown fox jumps” —a nuestro modelo importado. Configuramos parámetros de inferencia estándar: longitud máxima de generación de 50 tokens, una temperatura moderada de 0,5 para una aleatoriedad moderada y una condición de parada (punto o salto de línea). El parámetro “return_logprobs”: true indica a Bedrock que devuelva probabilidades de log en la respuesta. La API InvokeModel devuelve una respuesta JSON que contiene tres componentes principales: el texto generado estándar, metadatos sobre el proceso de generación y, ahora, probabilidades de log tanto para el prompt como para los tokens generados. Estos valores revelan la confianza interna del modelo para cada predicción de token, para que puedas entender no solo qué texto se produjo, sino cuán seguro estaba el modelo en cada paso del proceso. La respuesta bruta de la API proporciona IDs de tokens emparejados con sus probabilidades de log. Para hacer estos datos interpretables, primero debemos decodificar los IDs de tokens utilizando el tokenizador apropiado (en este caso, el tokenizador Llama 3.2 1B), que asigna cada ID a su token de texto real. Luego convertimos las probabilidades de log en probabilidades aplicando la función exponencial, lo que produce probabilidades entre 0 y 1. Hemos implementado estas transformaciones con código personalizado (no mostrado aquí) para producir un formato legible por humanos donde cada token aparece junto a su probabilidad, dejando claro la confianza del modelo en sus predicciones en cada paso. Las probabilidades de log por token de la característica Custom Model Import ofrecen información valiosa sobre el proceso de toma de decisiones de tu modelo. Estas métricas transforman la forma en que interactúas con tus modelos personalizados al revelar sus niveles de confianza para cada token generado. Estas son formas útiles de utilizar estos conocimientos:

Puedes usar probabilidades de log para clasificar cuantitativamente múltiples salidas generadas para el mismo prompt. Cuando tu aplicación necesita elegir entre diferentes completaciones, puedes calcular la probabilidad general de cada salida sumando o promediando las probabilidades de log de todos sus tokens.
Los modelos pueden producir alucinaciones; las probabilidades de log permiten detectar estas situaciones revelando incertidumbre interna, incluso cuando la salida suena convincente.
En escenarios RAG, identifica tokens respaldados por el contexto recuperado al relacionar la confianza de tokens con el contexto recuperado.
Observa los primeros tokens para evaluar la claridad del prompt; las probabilidades promedio más altas para los tokens iniciales suelen indicar instrucciones más claras.

¿Por qué es importante para desarrolladores y empresas?

Para desarrolladores y empresas que implementan IA en producción, el acceso a probabilidades de log por token mejora la evaluación del comportamiento del modelo y de la confianza en las respuestas. Esto respalda decisiones informadas en áreas como:

clasificar y seleccionar entre múltiples salidas candidatas para un mismo prompt
detectar y mitigar alucinaciones al hacer visibles tokens inciertos
mejorar la generación con recuperación al fundamentar respuestas en contexto verificado
diagnosticar fallos y refinar prompts, configuraciones o datos de entrenamiento fino Esta capacidad se alinea con los objetivos más amplios de Bedrock: IA escalable, segura y observable, y complementa características como Guardrails y Knowledge Bases al proporcionar a los desarrolladores una visión cuantitativa de las decisiones del modelo. Puede consultar el anuncio oficial de AWS y ejemplos de uso en el enlace de referencia.

Detalles técnicos o Implementación

Para usar el soporte de probabilidades de log con importación de modelo personalizado en Amazon Bedrock, debe:

Invocar un modelo a través de la API InvokeModel y establecer el JSON “return_logprobs”: true. Esto habilita probabilidades de log por token para los tokens de prompt y generados en la respuesta.
Recibir una respuesta JSON que incluye el texto generado, metadatos de generación y los nuevos campos de probabilidades de log. Estos valores revelan la confianza interna del modelo para cada token durante el procesamiento.
Decodificar los IDs de token de la respuesta usando el tokenizador adecuado (por ejemplo, el tokenizador Llama 3.2 1B) para mapear IDs a tokens de texto.
Convertir probabilidades de log en probabilidades aplicando la función exponencial, obteniendo valores entre 0 y 1. Esto facilita la interpretación y la comparación entre candidatos. El siguiente escenario describe el post de AWS:
Importaste un modelo personalizado, como un modelo Llama 3.2 1B afinado, y tienes su ARN.
Lo invocas con un prompt como “The quick brown fox jumps” y solicitas una longitud máxima de generación de 50 tokens, una temperatura de 0,5 y una condición de parada (punto o salto de línea). El indicador “return_logprobs”: true hace que la respuesta incluya probabilidades de log para prompt y tokens generados.
La respuesta incluye el texto generado, además de probabilidades de log por token. Puedes decodificar los IDs de token a texto y convertir las probabilidades de log en probabilidades para obtener una representación legible de la confianza del modelo en cada paso. Qué hacer a continuación depende de su caso de uso. Aquí hay patrones representativos:
Clasificar las salidas competidoras por su probabilidad de log total y presentar la opción más probable a usuarios o componentes dependientes.
Usar tokens de baja confianza para activar verificación, buscar contexto adicional o hacer preguntas de aclaración en un sistema de diálogo.
En escenarios RAG, identificar tokens respaldados por contexto recuperado y correlacionar la confianza con el contexto recuperado.
Supervisar los primeros tokens de las respuestas para evaluar la claridad del prompt; mayores probabilidades de los tokens iniciales suelen indicar instrucciones más claras.

Puntos clave

Las probabilidades de log por token proporcionan una medida cuantitativa de la confianza del modelo para cada token.
Active incluyendo “return_logprobs”: true en la solicitud de la API InvokeModel; los resultados incluyen probabilidades de log de prompts y tokens generados.
Decodifique los IDs de token y luego aplique la exponencial a las probabilidades de log para obtener probabilidades de token interpretables.
Use las probabilidades de log para clasificar salidas, detectar alucinaciones, evaluar prompts y ajustar la generación con recuperación.
Este enfoque facilita construir sistemas de IA más confiables con modelos Bedrock personalizados.

FAQ

¿Qué son las probabilidades de log en los modelos de lenguaje?

Es el logaritmo de la probabilidad asignada a un token; los valores son negativos y cuanto más cercano a cero, mayor es la confianza (p. ej., -0,1 ≈ 90 % de confianza).
¿Cómo activo probabilidades de log para un modelo Bedrock personalizado?

Llamando a la API InvokeModel con "return_logprobs": true; la respuesta incluirá probabilidades de log para los tokens de prompt y generados.
¿Cómo interpretar estas probabilidades en la práctica?

Decodifica los IDs de token con el tokenizador adecuado y convierte las probabilidades de log a probabilidades aplicando la función exponencial para obtener valores entre 0 y 1; úsalas para evaluar la confianza por token y la calidad general de la salida.
¿Qué casos prácticos hay para estas probabilidades?

Clasificar salidas, detectar alucinaciones, fundamentar respuestas en contexto recuperado (RAG) y diagnosticar problemas de prompts o configuración del modelo.
¿Ayuda esto al diseño de prompts?

Sí; seguir la media de probabilidad de los tokens iniciales ayuda a medir la claridad del prompt y cuánto entiende el modelo las instrucciones.