Skip to content
Citas con Amazon Nova: prompting y evaluación de fuentes en modelos de comprensión Nova
Source: aws.amazon.com

Citas con Amazon Nova: prompting y evaluación de fuentes en modelos de comprensión Nova

Sources: https://aws.amazon.com/blogs/machine-learning/citations-with-amazon-nova-understanding-models, aws.amazon.com

TL;DR

  • Los modelos de lenguaje pueden ser instruidos para citar fuentes y mostrar el contexto de sus respuestas.
  • Los modelos de comprensión de Amazon Nova (Nova Micro, Nova Lite, Nova Pro, Nova Premier) pueden incluir citas cuando se les indica.
  • AWS demuestra un flujo de evaluación de extremo a extremo con LLM-as-a-judge para evaluar la calidad de las citas y el rendimiento del modelo.
  • Enfoque en la confianza, la verificación y prompts prácticos para mejorar la fiabilidad de las interacciones con IA.

Contexto y antecedentes

Los grandes modelos de lenguaje (LLMs) se han vuelto ubicuos en aplicaciones de consumo y empresariales. Sin embargo, su tendencia a “alucinar” información y a entregar respuestas incorrectas con una confianza aparente ha creado un problema de confianza. Piense en los LLMs como un experto humano: normalmente confiamos en expertos que respaldan sus afirmaciones con referencias y explican su razonamiento. El mismo principio se aplica a los LLMs; se vuelven más confiables cuando pueden demostrar su razonamiento y citar fuentes fiables. Con prompting adecuado, se puede instruir a los LLMs para que proporcionen estas citas, haciendo sus salidas más verificables y fiables. Este post demuestra cómo prompting de Amazon Nova understanding models para citar fuentes en las respuestas. Además, exploraremos cómo evaluar las respuestas (y las citas) en cuanto a precisión. Las citas son referencias a fuentes que indican el origen de información, ideas o conceptos. Las citas aportan credibilidad, usabilidad y fundamentos éticos a las aplicaciones de IA basadas en LLM. Amazon Nova, lanzada en dic 2024, es una nueva generación de modelos de base que ofrecen inteligencia de frontera y rendimiento de precio líder, disponible en Amazon Bedrock. Los modelos Nova incluyen cuatro modelos de comprensión (Nova Micro, Nova Lite, Nova Pro y Nova Premier), dos modelos de generación de contenido creativo (Nova Canvas y Nova Reel) y un modelo de voz a voz (Nova Sonic). A través de la integración fluida con Amazon Bedrock, los desarrolladores pueden construir y escalar aplicaciones de IA generativa con los modelos de base Amazon Nova. Las citas para los modelos de comprensión de Amazon Nova pueden lograrse mediante la creación de prompts que indiquen al modelo citar sus fuentes y el formato de la respuesta. Para ilustrar esto, elegimos un ejemplo en el que preguntamos a Nova Pro sobre cartas de accionistas de Amazon, incluyendo la carta como contexto y pidiendo a Nova Pro responder a preguntas e incluir citas de la carta(s).

Qué hay de nuevo

A continuación, mostramos un ejemplo de prompt que construimos para Amazon Nova Pro siguiendo las mejores prácticas de ingeniería de prompts para Amazon Nova. Observe el formato de salida que incluimos en el prompt para distinguir entre respuestas y citas. System prompt User Prompt Aquí está la respuesta de Nova Pro para el prompt anterior Como se puede ver, Nova Pro está siguiendo nuestras instrucciones y proporcionando la respuesta junto con las citas. Verificamos que las citas están presentes en la carta de 2009. Aquí tienes otro prompt de usuario (con el mismo system prompt anterior) junto con la respuesta del modelo User Prompt: Model response Aunque las citas son útiles, es importante verificar que el modelo está siguiendo nuestras instrucciones e incluyendo las citas textualmente desde el contexto y no inventándolas. Para evaluar las citas a escala, utilizamos otro LLM para juzgar las respuestas de Nova Pro. Utilizamos la técnica LLM-as-a-judge en las evaluaciones de Bedrock y evaluamos 10 prompts diferentes.

Por qué importa (impacto para desarrolladores/empresas)

La capacidad de incluir citas en las respuestas de IA aborda la confiabilidad, trazabilidad y responsabilidad de las aplicaciones basadas en IA. Para las empresas, este enfoque facilita el cumplimiento, la auditoría y una mayor colaboración entre humanos e IA al hacer explícitos el razonamiento y las fuentes. Al demostrar un enfoque práctico desde el prompting hasta la evaluación, este post ofrece una guía para construir experiencias de IA más confiables en Bedrock con Amazon Nova.

Detalles técnicos o Implementación

  • Las citas se pueden incluir al instruir al modelo para citar sus fuentes y especificar un formato de salida que delimite claramente la respuesta de las citas.
  • La demostración utiliza Nova Pro para responder preguntas sobre cartas de accionistas de Amazon, con la carta incluida como contexto en el prompt.
  • La evaluación a escala empleó la técnica LLM-as-a-judge en las evaluaciones de Bedrock, utilizando Claude 3.5 Sonnet v1 como evaluador.
  • El conjunto de datos de entrada para la evaluación es un archivo jsonl en el que cada línea contiene pares clave-valor que representan prompts y metadatos.
  • Se mencionan herramientas de código abierto en el repositorio AWS Samples GitHub para reproducir o adaptar el flujo de evaluación.
  • Para aprender más sobre prompts para modelos Nova y prácticas de evaluación, consulte el prompt library y las referencias de Bedrock en el sitio de AWS. El artículo de referencia es https://aws.amazon.com/blogs/machine-learning/citations-with-amazon-nova-understanding-models.
  • Los autores citados son Sunita Koppar y Veda Raman, Arquitectos de Soluciones Senior de AWS en IA generativa y ML.

Métricas y resultados breves

En la evaluación descrita, Nova Pro obtuvo 0,78 en coherencia y fidelidad, y 0,67 en exactitud (correctness), evaluadas por Claude 3.5 Sonnet v1. Estas puntuaciones reflejan respuestas holísticas, útiles y precisas.

Consejos prácticos de ingeniería de prompts

  • Instruir explícitamente para citar fuentes del contexto.
  • Utilizar un formato de salida que separe claramente la respuesta de las citas.
  • Incluir el material relevante en el prompt para garantizar cobertura de las citas.
  • Validar las citas con métodos automatizados o revisión humana para evitar atribuciones erróneas.
  • Explorar el flujo de evaluación de Bedrock para medir el rendimiento del modelo en múltiples prompts y métricas.

Cómo acceder y ampliar el trabajo

  • El post señala que el código de evaluación está abierto en AWS Samples GitHub, permitiendo reproducir o adaptar el flujo.
  • Se anima a los lectores a consultar el prompt library para patrones de prompts y prácticas de evaluación al trabajar con los modelos Nova.
  • Para más información sobre las evaluaciones de Bedrock y recursos asociados, consulte el sitio de AWS.

Conclusiones clave

  • Las citas fortalecen la confianza cuando se solicitan explícitamente en prompts.
  • Los modelos Nova pueden generar citas a partir del contexto si se dan instrucciones adecuadas.
  • La evaluación automática mediante LLM como juez ofrece perspectivas sobre coherencia, fidelidad y exactitud.
  • Las herramientas y bibliotecas de prompts open source ayudan a construir aplicaciones de IA más fiables en Bedrock.

FAQ

  • ¿Cómo puede Nova citar fuentes?

    Instruyéndolo explícitamente para citar sus fuentes y presentando la salida de forma que separe la respuesta de las citas.

  • ¿Qué enfoque de evaluación se utilizó?

    Evaluación con LLM-as-a-judge en Bedrock, usando Claude 3.5 Sonnet v1 como evaluador.

  • ¿Dónde obtener más información sobre prompts y flujo de evaluación?

    Consulte el prompt library y los recursos de evaluación de Bedrock en el sitio de AWS; el artículo de referencia es https://aws.amazon.com/blogs/machine-learning/citations-with-amazon-nova-understanding-models.

  • ¿Cuáles fueron las métricas reportadas para Nova Pro?

    Coherencia y fidelidad 0,78 y exactitud 0,67.

Referencias

More news