Tres Lecciones para Crear una Ventaja Sostenible en IA
Sources: https://openai.com/index/intercom, openai.com
TL;DR
- Experimente temprano y mida con rigor para mapear capacidades, limitaciones y oportunidades de los modelos.
- Construya una arquitectura modular e independiente del modelo capaz de dirigir consultas al mejor modelo y reemplazar modelos sin reingeniería.
- Invierta en una plataforma de IA con gobernanza y una estrategia de soporte con IA que escale, incluyendo un replatform estratégicamente orientado a IA.
- Use pruebas offline estructuradas y pruebas A/B en vivo para comparar modelos en seguimiento de instrucciones, ejecución de herramientas y coherencia, lo que permite migraciones rápidas y mejoras reales (p. ej., GPT‑4.1 en días).
- Aproveche avances de modelos como GPT‑4.1 para mejorar la fiabilidad y reducir costos, ampliando capacidades a Fin Voice y Fin Tasks.
Contexto y antecedentes
El recorrido de Intercom hacia una plataforma de IA escalable se basa en la experimentación deliberada, la evaluación rigurosa y un diseño que evoluciona con los progresos de los modelos. Cuando se lanzó ChatGPT en 2022, Intercom no solo fue testigo de las noticias; comenzó a experimentar. Cuatro meses después de la salida de GPT‑3.5, lanzaron Fin, su Agente de IA que hoy resuelve millones de consultas de clientes cada mes. En julio de 2025, el liderazgo tomó medidas rápidas ante el avance de los modelos de lenguaje, formando un equipo multifuncional, cancelando proyectos no relacionados con IA y destinando 100 millones de dólares para replatformar el negocio alrededor de la IA. Esta decisión impulsó cambios a lo largo de la empresa: equipos de producto reorganizados, una nueva estrategia de helpdesk impulsada por IA y una plataforma modular para apoyar a Fin ante volúmenes altos y consultas complejas. El viaje ofrece tres lecciones que cualquier equipo puede aplicar ya. Historia de la plataforma de IA de Intercom (enlace de referencia para contexto)
Lo nuevo
El progreso de Intercom se apoya en tres pilares: experimentación temprana, evaluación rigurosa y una arquitectura modular independiente del modelo.
- Experimentación y aprendizaje de modelos tempranos. El equipo comenzó a trabajar con modelos generativos desde temprano, mapeando limitaciones y oportunidades. Cuando GPT‑4 estuvo disponible a principios de 2023, Intercom ya estaba preparada y lanzó Fin en cuatro meses. Esta fluidez también guio el diseño de Fin Tasks, un sistema que automatiza flujos de trabajo complejos como reembolsos y soporte técnico. Aunque inicialmente planearon una pila basada en razonamiento, las evaluaciones mostraron que GPT‑4.1 podía manejar la tarea con alta fiabilidad y menor latencia, permitiendo un pivote hacia menos complejidad.
- Proceso de evaluación riguroso y despliegue ágil. Cada nuevo modelo de OpenAI —ya sea para Fin Voice vía API en tiempo real o para Fin Tasks vía GPT‑4.1— pasa por pruebas offline estructuradas y por pruebas A/B en vivo antes de su despliegue. El equipo compara los modelos con transcripciones de interacciones reales de soporte para evaluar seguimiento de instrucciones, precisión en llamadas a herramientas y coherencia general. Este enfoque permitió migrar de GPT‑4 a GPT‑4.1 en días y desplegar mejoras en Fin Tasks y Fin Voice con beneficios inmediatos de rendimiento y satisfacción del usuario.
- Arquitectura para evolucionar con los modelos. Fin es un sistema modular por diseño, que admite múltiples modalidades—chat, correo y voz—con diferentes tradeoffs en latencia y complejidad. La arquitectura permite dirigir consultas al mejor modelo para el trabajo y cambiar de modelo sin reingeniería. La arquitectura de Fin ha llegado ya a su tercera iteración mayor, con la siguiente en desarrollo. A medida que los modelos mejoran, el equipo añade complejidad donde es necesaria y simplifica donde es posible, para desbloquear nuevas capacidades.
- Ganancias cuantificadas y nuevas capacidades. GPT‑4.1 mostró mayor fiabilidad al completar tareas y, lo que es crucial, ofreció una reducción de costos del 20% frente a GPT‑4o. Para Fin Voice, el proceso de evaluación se extendió a factores de voz—personalidad, tono, manejo de interrupciones y ruido de fondo—para garantizar experiencias de cliente de alta calidad. Fin AI Engine, impulsado por modelos avanzados y construido sobre una arquitectura modular, se está expandiendo más allá del soporte para impulsar flujos de trabajo en toda la empresa, entregando resoluciones más rápidas y mejores experiencias para los clientes.
Por qué importa (impacto para desarrolladores/empresas)
El enfoque de Intercom demuestra cómo operacionalizar IA a escala, incluso frente al ritmo acelerado de los avances de los modelos. Implicaciones clave para desarrolladores y empresas:
- Valor rápido. Una plataforma modular e independiente del modelo permite entregar nuevas capacidades rápidamente a medida que los modelos mejoran, sin reconstruir sistemas con cada versión.
- Gestión de riesgos mediante evaluación rigurosa. Combinando pruebas offline y experimentos A/B en condiciones reales, los equipos pueden cuantificar el seguimiento de instrucciones, el uso de herramientas y la coherencia antes de la implementación amplia.
- Alineación organizacional y gobernanza. La decisión de replatformar en torno a IA requirió reestructurar equipos de producto y establecer una estrategia IA primero para el helpdesk, mostrando cómo la gobernanza y la colaboración entre equipos son esenciales para programas de IA a gran escala.
- Capacidades multimodales y escalabilidad. La modularidad de la arquitectura Fin permite gestionar chat, correo y voz con diferentes compromisos de latencia y complejidad, al tiempo que dirige consultas al modelo más adecuado. Este enfoque facilita escalar usos de IA más allá de simples chats hacia flujos de trabajo y automatización en toda la empresa.
- Resultados mensurables. El compromiso financiero y la adopción de modelos con mejoras continuas ayudaron a pasar de la experimentación a una plataforma IA escalable que resuelve millones de consultas de clientes cada mes.
Detalles técnicos o Implementación (cómo se hizo)
- Disciplina experimental y preparación de modelos. Intercom prueba cada nuevo modelo de OpenAI —ya sea para Fin Voice mediante la API en tiempo real o para Fin Tasks con GPT‑4.1— mediante pruebas offline estructuradas y pruebas A/B en vivo. Se comparan los modelos con transcripciones de interacciones reales para evaluar seguimiento de instrucciones, exactitud en llamadas a herramientas y coherencia, y se ajustan las estrategias de implementación en consecuencia.
- Transición a GPT‑4.1. Tras confirmar mejoras en manejo de instrucciones y ejecución de funciones, migraron a GPT‑4.1 en Fin Tasks en cuestión de días, observando un equilibrio favorable entre inteligencia y latencia para las necesidades de sus clientes.
- Arquitectura preparada para evolucionar. Fin está diseñado de forma modular e independiente del modelo, permitiendo dirigir las consultas al modelo más adecuado y cambiar de modelo sin reingeniería. La arquitectura ya ha pasado por tres iteraciones principales, y la próxima ya está en desarrollo. El equipo añade complejidad cuando es necesario para desbloquear nuevas capacidades y simplifica cuando es posible, conforme mejoran los modelos.
- Expansión por Fin AI Engine. Impulsado por modelos avanzados y con una arquitectura modular, Intercom se expande más allá del soporte al cliente para potenciar flujos de trabajo en toda la empresa, entregando resoluciones más rápidas y mejores experiencias para los clientes. El énfasis es mantener una IA evaluada rigurosamente y un diseño flexible que evolucione con el estado del arte.
Conclusiones clave
- Comience a experimentar temprano para aprender de las limitaciones y oportunidades de los modelos.
- Establezca una estructura de evaluación estricta que combine pruebas offline y pruebas A/B en vivo para guiar las elecciones de modelo.
- Construya una arquitectura modular e independiente del modelo que evolucione con modelos y modalidades.
- Invierta en alineación organizacional y en una estrategia IA‑primero para escalar iniciativas de IA en toda la empresa.
- Aproveche avances como GPT‑4.1 para mejorar fiabilidad, latencia y costo, y expanda capacidades con Fin Tasks y Fin Voice.
Preguntas frecuentes
Referencias
More news
Detección y reducción de scheming en modelos de IA: avances, métodos e implicaciones
OpenAI y Apollo Research evaluaron el desalineamiento oculto en modelos de frontera, observaron comportamientos de scheming y probaron un método de alineamiento deliberativo que redujo las acciones encubiertas unas 30x, con limitaciones y trabajos en curso.
OpenAI, NVIDIA y Nscale presentan Stargate UK para IA soberana en el Reino Unido
OpenAI, NVIDIA y Nscale anuncian Stargate UK, una infraestructura de IA soberana que ofrece cómputo local en el Reino Unido para apoyar servicios públicos, industrias reguladas y metas nacionales de IA.
Rumbo a la Predicción de Edad: OpenAI Personaliza ChatGPT para Adolescentes y Familias
OpenAI describe un sistema de predicción de edad a largo plazo para adaptar ChatGPT a usuarios menores y mayores de 18 años, con políticas por edad, salvaguardas de seguridad y controles parentales próximos.
Teen safety, freedom, and privacy
Explore OpenAI’s approach to balancing teen safety, freedom, and privacy in AI use.
Adenda GPT-5-Codex: GPT-5 optimizado para codificación con medidas de seguridad
Un adendo detallando GPT-5-Codex, una variante de GPT-5 optimizada para codificar en Codex, con mitigaciones de seguridad y disponibilidad multiplataforma.
OpenAI presenta GPT‑5‑Codex: código más rápido, revisión de código avanzada y mayor confiabilidad
OpenAI revela GPT‑5‑Codex, una versión de GPT‑5 optimizada para codificación guiada por agentes en Codex. Acelera interacciones, maneja tareas largas, mejora las revisiones de código y funciona en terminal, IDE, web, GitHub y móvil.