Skip to content
Cómo Amazon Health Services Mejoró el Descubrimiento en la Búsqueda de Amazon con AWS ML y Gen AI
Source: aws.amazon.com

Cómo Amazon Health Services Mejoró el Descubrimiento en la Búsqueda de Amazon con AWS ML y Gen AI

Sources: https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-health-services-improved-discovery-in-amazon-search-using-aws-ml-and-gen-ai, https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-health-services-improved-discovery-in-amazon-search-using-aws-ml-and-gen-ai/, AWS ML Blog

TL;DR

  • La búsqueda de salud en plataformas de comercio electrónico presenta desafíos únicos donde la búsqueda de productos tradicional no alcanza para capturar las relaciones entre síntomas, condiciones, tratamientos y servicios.
  • Amazon Health Services resolvió estos desafíos de descubrimiento en la búsqueda de Amazon utilizando una pila de AWS de tres componentes: SageMaker para modelos de ML, Bedrock para capacidades de LLM y EMR/Athena para procesamiento de datos.
  • El enfoque combina comprensión de consultas impulsada por ML, búsqueda vectorial para la correspondencia de productos y optimización de relevancia mediante LLM en un marco de Retrieval Augmented Generation (RAG).
  • Se expandió una base de conocimiento de salud con términos de ontología y prompts mejorados por LLM, con embeddings creados con FAISS y almacenados en S3 para búsquedas por similitud eficientes.
  • La solución se utiliza diariamente para ayudar a los clientes a encontrar desde medicamentos con prescripción hasta atención primaria y atención especializada a través de Health Benefits Connector y ofertas relacionadas.

Contexto y antecedentes

La descubribilidad de salud en entornos de comercio electrónico presenta desafíos para los que la búsqueda de productos tradicional no está diseñada. A diferencia de libros o electrónica, las consultas de salud implican relaciones entre síntomas, condiciones, tratamientos y servicios, que requieren una comprensión avanzada de la terminología médica y la intención del usuario. Con la expansión de Amazon hacia servicios de salud, ahora se ofrece acceso directo a medicamentos con receta a través de Amazon Pharmacy, atención primaria a través de One Medical y asociaciones de atención especializada a través de Health Benefits Connector. Estas ofertas implican un cambio significativo respecto a la búsqueda centrada en productos y traen consigo desafíos técnicos únicos que requieren un enfoque de búsqueda especializado. Este artículo explica cómo Amazon Health Services (AHS) mejoró la descubribilidad en la búsqueda de Amazon.com mediante el uso de servicios de AWS como SageMaker, Bedrock y EMR para conectar a los clientes con ofertas de salud relevantes. El objetivo es conectar a los clientes con servicios y productos de salud relevantes de manera más eficaz, y la solución se utiliza a diario para búsquedas relacionadas con la salud. El enfoque reconoce dos extremos en el recorrido de búsqueda del cliente. Por un lado están las consultas spearfishing que apuntan a productos específicos con atributos precisos. Por el otro, las consultas amplias de salud buscan información y recomendaciones que pueden abarcar varios tipos de producto. Este marco guio la construcción de capacidades dedicadas para cubrir todo el espectro de búsquedas de salud. Para identificar la intención spearfishing se analizaron datos de compromiso de búsqueda anonimizados y se entrenó un clasificador para detectar palabras clave que conducen a interacción con los ASIN de Farmacia de Amazon. El procesamiento de datos utilizó PySpark en EMR y Athena para manejar datos a gran escala. Para identificar la intención de búsqueda de salud amplia se entrenó un modelo de reconocimiento de entidades nombradas para anotar palabras clave en terminología médica. Se construyó un corpus de ontología de salud para identificar conceptos como condiciones de salud, enfermedades, tratamientos, lesiones y medicamentos. Cuando faltaban términos alternativos, se recurrió a grandes modelos de lenguaje para ampliar la base de conocimiento. El modelo NER se coloca tras predicciones de tipos de productos relevantes para salud generadas por modelos de correlación de consultas con productos de Amazon. Para ampliar el vocabulario de salud, se empleó un modelo de lenguaje para añadir términos relevantes de condiciones, síntomas y tratamientos por medio de prompts refinados y ejemplos de few-shot. Se usa Comprehend Medical para detectar entidades médicas en cuadros de texto cuando procede. El conocimiento se mantiene actualizado mediante una base de datos de productos existente y datos de catálogo; se añadió la expansión de términos de salud con un LLM a través de Bedrock en lote. La base de conocimiento se convirtió en embeddings con FAISS y se creó un índice para permitir búsquedas por similitud eficientes. Se mantienen mapeos desde cada embedding a los elementos del conocimiento para garantizar búsquedas reversas fiables cuando sea necesario. El almacenamiento se realiza en S3 y se señala OpenSearch Service como una opción viable para capacidades de base de datos vectorial. Los trabajos de embeddings a gran escala se ejecutan mediante trabajos programados de SageMaker Notebook. El diseño Retrieval Augmented Generation es clave. El primer paso identifica palabras clave conocidas y productos de Amazon para establecer una verdad de base. Con la base de conocimiento construida a partir de metadatos del catálogo y atributos de ASIN, la consulta del cliente se convierte en embedding y se utiliza para emparejar con el índice de similitud. Las coincidencias se evalúan con un criterio de relevancia basado en ESCI — exacto, substituto, complemento, irrelevante. Un equipo de etiquetado humano establece la verdad de referencia y, con el apoyo de etiquetado por LLM con Bedrock en lote, se refuerza la señal de relevancia con el tiempo. La arquitectura es completamente basada en AWS: SageMaker para modelos ML, Bedrock para capacidades LLM y EMR/Athena para procesamiento de datos. Esto permite cubrir tanto la comprensión específica de consultas de salud como la recuperación de conocimiento relevante para servicios de salud dentro del ecosistema de ecommerce. El resultado es una experiencia de búsqueda que alinea la intención del usuario con los servicios y productos de salud más relevantes, facilitando el acceso a la atención.

Novedades

  • Segmentación explícita entre intenciones spearfishing y de salud amplia con modelos de ML y NLP dedicados.
  • Introducción de un mecanismo de recuperación en dos fases: búsqueda de similitud con FAISS basada en un knowledge base de salud enriquecido, seguido de etiquetas de relevancia con ESCI.
  • Ampliación del knowledge base de salud mediante augmentación por LLM con Bedrock en lote, complementada por ontologías de salud para cubrir términos adicionales.
  • Arquitectura RAG para conectar consultas con elementos de conocimiento relevantes y reordenar resultados con señales de relevancia mejoradas.
  • Mención explícita de OpenSearch Service como opción viable y uso de S3 para almacenamiento del knowledge base, con trabajos de embedding programados en SageMaker.

Importancia para empresas y desarrolladores

Este trabajo demuestra que es factible construir una búsqueda centrada en salud usando herramientas de datos y ML disponibles en la nube para enfrentar desafíos específicos del dominio. Al incorporar comprensión de consultas especializada, conceptos ontológicos de salud y una búsqueda vectorial escalable, los equipos pueden mejorar la relevancia de los resultados para servicios y productos en el ecosistema de salud. La aproximación también muestra cómo las arquitecturas tipo RAG pueden mantener bases de conocimiento actualizadas y cómo la supervisión humana combinada con etiquetado por LLM ayuda a sostener una alta calidad a escala.

Detalles técnicos o Implementación

La solución se apoya enteramente en AWS y se apoya en tres componentes principales:

  • Modelos y pipelines de ML con Amazon SageMaker para entrenamiento e inferencia de consultas de salud.
  • Modelos de lenguaje grandes proporcionados por Amazon Bedrock para optimizar relevancia y ampliar la base de conocimientos mediante batch inference.
  • Procesamiento de datos y orquestación con Amazon EMR y Amazon Athena para recopilación, procesamiento y consultas a escala. La arquitectura reconoce dos extremos en la experiencia de búsqueda de salud:
  • Consultas spearfishing con intención explícita de producto y atributos precisos.
  • Consultas amplias de salud que buscan información y recomendaciones que pueden abarcar múltiples tipos de producto. Para implementar el sistema se realizaron varias capacidades interconectadas:
  • Un clasificador que identifica la intención spearfishing analizando datos de compromiso de búsqueda anonimizados, entrenado con PySpark en EMR y Athena.
  • Un modelo NER orientado a la salud para reconocer condiciones, enfermedades, tratamientos, lesiones y medicamentos, apoyado por un corpus ontológico. Si faltan términos alternativos, se amplían con LLMs para mejorar la cobertura.
  • Un mecanismo de gating que dirige intenciones amplias hacia tipos de producto relevantes para salud, asegurando experiencias de búsqueda adecuadas.
  • Una base de conocimientos construida a partir de metadatos de catálogo y atributos de ASIN, enriquecida con augmentación de términos de salud mediante Bedrock en lote. La base se transforma en embeddings con FAISS y se mantiene un índice con mapeos, para búsquedas por similitud y recuperación reversa.
  • Infraestructura de almacenamiento y orquestación con S3 y la opción de OpenSearch Service como base de datos vectorial. Desarrollos de embedding a gran escala se ejecutan mediante tareas programadas de SageMaker Notebook.

Detalles clave de implementación

| Componente | Rol

---
SageMaker
Bedrock
EMR y Athena
FAISS
S3
OpenSearch Service
SageMaker Notebook Jobs
El flujo general sigue el patrón Retrieval Augmented Generation, donde una consulta se convierte en embedding y se compara con el índice de similitud para encontrar coincidencias relevantes, que luego se refinan con señales de relevancia ESCI y un reranking potenciado por LLM. La solución está diseñada para conectar consultas de salud con servicios y productos de salud relevantes dentro del ecosistema de Amazon, facilitando el acceso a atención médica.

Puntos clave

  • La búsqueda en salud implica representación del dominio y conocimiento específico que va más allá de las simpleas búsquedas de productos.
  • Un sistema de recuperación al estilo RAG puede enlazar consultas con elementos de conocimiento relevantes y producir resultados bien posicionados y pertinentes.
  • La augmentación por LLM y el etiquetado de relevancia con ESCI ayudan a mantener la calidad y actualidad de los resultados.
  • Herramientas de AWS como SageMaker, Bedrock, EMR y FAISS permiten construir bases de conocimiento de salud escalables dentro de un entorno de ecommerce.
  • El etiquetado humano combinado con etiquetado por LLM ofrece señales de calidad sólidas para el ranking y la relevancia de resultados de búsqueda de salud.

FAQ

  • ¿Qué problema abordó AHS en la búsqueda de Amazon?

    Los desafíos de descubrimiento se deben a consultas de salud complejas que involucran síntomas, condiciones, tratamientos y servicios y que van más allá de la búsqueda de productos tradicional.

  • ¿Qué servicios de AWS se utilizaron para implementar la solución?

    SageMaker para ML, Bedrock para capacidades de LLM y EMR con Athena para procesamiento de datos.

  • ¿Qué es el patrón Retrieval Augmented Generation en este contexto?

    RAG utiliza embeddings para recuperar elementos relevantes del conocimiento y luego aplica generación para producir resultados relevantes y bien ordenados.

  • ¿Cómo se expandió el conocimiento de salud más allá de los datos del catálogo?

    Hubo augmentación de conocimiento por LLM mediante Bedrock en lote, con términos añadidos a partir de ontologías y prompts ajustados.

  • ¿Cómo se almacenan y consultan los embeddings?

    Se crean con FAISS y se almacenan con mapeos a los elementos del conocimiento para búsquedas por similitud y recuperaciones reversas a través de S3, con OpenSearch como opción adicional.

Referencias

https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-health-services-improved-discovery-in-amazon-search-using-aws-ml-and-gen-ai/

More news