Conoce a Boti: el asistente de IA que transforma el acceso de los ciudadanos de Buenos Aires a la información gubernamental con Amazon Bedrock

TL;DR

La Ciudad de Buenos Aires, en colaboración con AWS GenAIIC, desarrolló un asistente de IA agentico usando LangGraph y Amazon Bedrock que responde preguntas sobre procedimientos gubernamentales.
El diseño tiene dos componentes: un sistema de guardrail que clasifica las consultas y un agente de procedimientos que recupera y compone respuestas.
Un flujo de recuperación con razonamiento utiliza resúmenes comparativos para desambiguar procedimientos similares, logrando hasta 98,9% de precisión top-1 y una ganancia de 12,5 a 17,5% frente a métodos estándar de RAG.
Los guardrail bloquearon el 100% de consultas dañinas en la evaluación; los expertos señalan 98% de precisión en voseo y 92% en futuro perífrastico.
El proyecto amplía el alcance de Boti más allá de las más de 3 millones de conversaciones mensuales que ya maneja por WhatsApp, conectando a los ciudadanos con más de 1.300 procedimientos gubernamentales.

Contexto e historia

Desde 2019, Boti ha funcionado a través de WhatsApp, el canal más utilizado para información municipal en Argentina. Con Boti, los ciudadanos pueden acceder a información sobre renovación de licencias de conducir, servicios de salud, eventos culturales y más. Este canal se ha convertido en un canal de comunicación preferente y gestiona más de 3 millones de conversaciones cada mes. A medida que Boti gana popularidad, la ciudad buscó mejorar las experiencias conversacionales aprovechando los últimos avances en IA generativa para responder preguntas sobre procedimientos y guiar a los usuarios hacia el procedimiento correcto. Para evaluar una solución más avanzada, la ciudad se asoció con el AWS GenAIIC, que colaboró para construir un sistema de IA agentico que combina LangGraph y Amazon Bedrock. La implementación se centra en dos componentes: un sistema de guardrail de entrada y un agente de procedimientos gubernamentales. El guardrail utiliza un clasificador de LLM personalizado para evaluar las consultas e decidir si deben procesarse. Si está aprobado, el agente de procedimientos genera la respuesta; si no, se continúa con la ruta segura. La Ciudad de Buenos Aires mantiene más de 1.300 procedimientos, cada uno con su propia lógica, matices y excepciones, lo que llevó a enfatizar la necesidad de desambiguación precisa y recuperación de contexto para evitar respuestas incorrectas. Para la construcción del knowledge base y la inferencia, los equipos emplean Amazon Bedrock Knowledge Bases y la Bedrock Converse API para ejecutar LLMs, con un énfasis en adaptar las respuestas al español rioplatense, destacando el voseo y el uso del futuro perífrástico.

Novedades

El nuevo sistema de IA agentico consta de dos componentes que trabajan en paralelo al recibir una consulta. Primero, el guardrail analiza la consulta para decidir si puede procesarse on-topic. Si la consulta es nociva, la ejecución se detiene y el usuario es redirigido a preguntas sobre procedimientos gobernamentales de forma segura. Si se aprueba, el agente de procedimientos toma el control para generar la respuesta. En segundo lugar, el agente puede llamar a una herramienta de recuperación para obtener contexto y metadatos relevantes de procedimientos almacenados en Bedrock Knowledge Bases, permitiendo respuestas precisas y actualizadas. La inferencia se realiza mediante la Bedrock Converse API, aprovechando una diversa selección de LLMs para optimizar rendimiento y latencia. Una innovación clave es el flujo de recuperación por razonamiento diseñado para desambiguar procedimientos cercanos entre sí. El proceso comienza con la creación de una base de conocimiento de los procedimientos gubernamentales, que incluye información básica (propósito, audiencia, costos, pasos, requisitos) y resúmenes comparativos que describen qué distingue a cada procedimiento de sus vecinos. Estos resúmenes se agrupan en clusters pequeños (tamaño medio ≈ 5) y se enriquecen con descripciones de diferencias generadas por un LLM. Esta aproximación es similar a Contextual Retrieval de Anthropic, que antepone contexto explicativo a los fragmentos de documentos. Con la base de conocimiento preparada, el Reasoning Retriever opera en tres pasos: recibe los textos completos recuperados, sigue su propio razonamiento para identificar el contenido relevante y las atribuciones de URL al generar la respuesta, y utiliza esa información para componer la respuesta final. En evaluaciones con un conjunto sintético de 1.908 preguntas derivadas de procedimientos conocidos, el Reasoning Retriever superó significativamente a las técnicas RAG estándar en precisión de recuperación top-k. Los resultados mostraron que los embeddings multilingües de Cohere, combinados con un paso de razonamiento que usa Claude/Haiku en Bedrock, ofrecen rendimientos especialmente fuertes. Además, las configuraciones de recuperación fueron validadas con un gran benchmark. Los tres primeros enfoques representan métodos estándar de recuperación basados en vectores. Section Titan segmenta procedimientos por secciones del documento (~250 palabras por fragmento) y embebe los fragmentos con Titan Text Embeddings v2. Summaries Titan embebe los resúmenes de los procedimientos. Summaries Cohere utiliza Cohere Multilingual v3 para embeddings. El modelo Cohere Multilingual mostró mejoras notables con todos los valores top-k por encima de 90%. A continuación, las configuraciones con Reasoning Retriever usaron embeddings Cohere y LLMs de Anthropic Claude/Haiku o Claude 3 Sonnet en Bedrock. Todas las configuraciones de razonamiento obtuvieron altas puntuaciones en top-k, destacando la solución. Desde la perspectiva lingüística, los expertos observaron que las respuestas de Boti son correctas en voseo en el 98% de los casos y en el uso del futuro perífrastico en el 92% de los casos, lo que confirma la calidad de la adaptación lingüística al español Rioplatense.

Por qué es importante (impacto para desarrolladores/empresas)

La implementación demuestra cómo una administración puede escalar un asistente de IA para gestionar un vasto catálogo de procedimientos respetando la seguridad y la precisión. El diseño de guardrails personalizado demuestra cómo las organizaciones pueden adaptar sistemas de IA generativa a normas locales y lenguas sin sacrificar seguridad. Al integrar LangGraph con Bedrock, los desarrolladores pueden crear asistentes agentivos que combinan recuperación robusta, desambiguación precisa y generación contextual. Para las empresas, el proyecto ofrece un modelo de arquitectura práctico: un sistema de dos capas que protege a los usuarios al tiempo que permite una recuperación compleja sobre una base de conocimiento bien estructurada. La integración con Bedrock Knowledge Bases y Bedrock Converse API demuestra cómo lograr inferencia LLM escalable para tareas de información gubernamental. El proyecto también subraya la importancia de la escalabilidad y la precisión en dominios donde las leyes y los procedimientos cambian con frecuencia, al tiempo que ofrece una experiencia de usuario fluida y natural en español Rioplatense.

Detalles técnicos o Implementación

Arquitectura: dos flujos paralelos al recibir una consulta — guardrail de entrada y agente de procedimientos. El guardrail asigna una categoría primaria (aprobado o bloqueado) y una subcategoría; las consultas aprobadas pasan al agente; las bloqueadas se redirigen a contenido seguro.
Guardrail: clasificador LLM personalizado para detectar contenido nocivo (lenguaje ofensivo, opiniones peligrosas, ataques de inyección de prompt y conductas antiéticas). En la evaluación, el guardrail bloqueó el 100% de consultas dañinas, con algunas consultas normales señaladas como nocivas de forma conservadora.
Agente de procedimientos: recupera contexto desde Bedrock Knowledge Bases y genera respuestas en español Rioplatense.
Construcción de la base de conocimiento: metadatos de procedimientos (propósito, público, costos, pasos, requisitos) más resúmenes comparativos que describen diferencias entre procedimientos; los resúmenes se agrupan y se enriquecen con descripciones generadas por un LLM.
Reasoning Retriever: tras la recuperación inicial, aplica un razonamiento para identificar procedimientos relevantes y citar URLs con trazabilidad.
Modelos y evaluación: enfoques estándar (Titan, Summaries Titan, Summaries Cohere) y configuraciones con Reasoning Retriever que emplean Cohere y Claude/Haiku en Bedrock han mostrado resultados superiores; embeddings multilingües Cohere y razonamiento con LLM pueden lograr hasta 98,9% de precisión top-1 y mejoras de 12,5–17,5% frente al RAG.
Inferencia y latencia: tanto el guardrail como el agente usan la Bedrock Converse API para inferencia de LLM, lo que facilita el control de rendimiento.
Calidad lingüística: expertos reportaron 98% de precisión en voseo y 92% en futuro perífrastico.

Conclusiones clave

Un sistema IA en dos capas (guardrails + agente) es viable para gestionar grandes catálogos de procedimientos con seguridad y precisión.
Guardrails adaptados al idioma y al contexto local permiten seguridad sin sacrificar utilidad.
Un flujo de recuperación por razonamiento con resúmenes comparativos mejora la desambiguación y la recuperación en dominios regulados.
Bedrock Knowledge Bases + Bedrock Converse API permiten una inferencia LLM integrada y escalable para información gubernamental.
El Boti demuestra que es posible entregar respuestas rápidas y contextualizadas con un tono local, manteniendo la trazabilidad y conformidad.

FAQ

¿Qué problema aborda Boti?

yuda a los ciudadanos a acceder a información sobre procedimientos gubernamentales, respondiendo preguntas y guiando hacia el procedimiento correcto.
¿Cómo funciona el guardrail de entrada?

Emplea un clasificador LLM personalizado que decide entre aprobado o bloqueado; las consultas aprobadas avanzan al agente de procedimientos; las bloqueadas se redirigen a contenidos seguros.
¿Qué es el Reasoning Retriever y por qué se usa?

Usa resúmenes comparativos y selección basada en LLM para desambiguar procedimientos y extraer los resultados más relevantes.
¿Qué rendimiento se observó?

El guardrail bloqueó el 100% de las consultas nocivas en la evaluación y el Reasoning Retriever alcanzó hasta 98,9% de exactitud top-1, con mejoras de 12,5–17,5% frente al RAG estándar. Los especialistas reportaron 98% de precisión en voseo y 92% en futuro perífrastico.
¿Qué tecnologías respaldan la solución?

LangGraph, Amazon Bedrock, Bedrock Knowledge Bases y Bedrock Converse API.