Enviando agentes más inteligentes con cada nuevo modelo: SafetyKit y GPT‑5 para moderación más segura e inteligente
Sources: https://openai.com/index/safetykit, OpenAI
TL;DR
- SafetyKit emplea agentes de IA multimodales impulsados por GPT‑5 y GPT‑4.1 para detectar y actuar ante fraudes y actividades prohibidas a través de texto, imágenes y transacciones. OpenAI SafetyKit
- Revisa el 100% del contenido de los clientes con más del 95% de precisión, según evaluaciones de SafetyKit.
- La plataforma ahora abarca riesgo de pagos, fraude, explotación infantil, AML y atiende a cientos de millones de usuarios finales.
- Un enfoque de emparejamiento de modelos dirige cada contenido al mejor agente y al modelo óptimo para cada violación, logrando una aplicación más matizada entre modalidades.
- Desde sus inicios, SafetyKit procesa más de 16 mil millones de tokens al día, frente a 200 millones hace seis meses, ampliando la cobertura de riesgo sin perder precisión.
Contexto y antecedentes
OpenAI SafetyKit construye agentes IA multimodales para ayudar a marketplaces, plataformas de pago y fintechs a detectar y actuar ante fraudes y actividades prohibidas en texto, imágenes, transacciones y listados de productos. Avances recientes en razonamiento de modelos y comprensión multimodal hacen esto más efectivo, marcando un nuevo estándar para operaciones de riesgo, cumplimiento y seguridad. Los agentes de SafetyKit aprovechan GPT‑5, GPT‑4.1, investigación profunda y Computer Using Agent (CUA) para revisar el 100% del contenido de los clientes con más del 95% de precisión según las evaluaciones de SafetyKit. Pueden ayudar a las plataformas a proteger a los usuarios, prevenir fraudes, evitar multas regulatorias y hacer cumplir políticas complejas que los sistemas heredados pueden pasar por alto, como reglas regionales o números de teléfono incrustados en imágenes de estafa o contenido explícito. La automatización también protege a los moderadores humanos de la exposición a material ofensivo y les permite gestionar decisiones de políticas con mayor matiz. Los agentes de SafetyKit están diseñados para manejar categorías de riesgo específicas, desde estafas hasta productos ilegales. Cada pieza de contenido se dirige al agente más adecuado para esa violación, utilizando el modelo OpenAI óptimo: este enfoque de emparejamiento de modelos permite a SafetyKit escalar la revisión de contenido entre modalidades con más matiz y precisión que las soluciones heredadas. El agente Detección de Estafas, por ejemplo, va más allá del escaneo de texto. Analiza elementos visuales como códigos QR o números de teléfono incrustados en imágenes de productos. GPT‑4.1 ayuda a procesar la imagen, entender la disposición y decidir si hay una violación de políticas. El agente Divulgación de Políticas verifica listados o páginas de aterrizaje para lenguaje obligatorio, como avisos legales o advertencias de cumplimiento regional. GPT‑4.1 extrae secciones relevantes, y GPT‑5 evalúa el cumplimiento, con el agente marcando violaciones. “Pensamos en nuestros agentes como flujos de trabajo hechos a medida”, dice Graunke. “Algunas tareas requieren un razonamiento profundo, otras necesitan contexto multimodal. OpenAI es la única pila que ofrece rendimiento confiable en ambos.” Las decisiones políticas suelen depender de distinciones sutiles. Tomemos un marketplace que exige a los vendedores incluir un aviso para productos de bienestar, con requisitos que varían según las afirmaciones del producto y las reglas regionales. Los proveedores heredados usan disparadores de palabras clave o reglas rígidas, que pueden pasar por alto llamadas de juicio más profundas, provocando incumplimientos o errores. El agente Divulgación de Políticas de SafetyKit primero consulta la biblioteca interna de políticas y luego GPT‑5 evalúa el contenido: ¿se menciona tratamiento o prevención? ¿Se vende en una región donde el aviso es obligatorio? Y, si es así, ¿la redacción obligatoria está realmente incluida en la lista? Si algo falta, GPT‑5 devuelve una salida estructurada que el agente usa para señalar el problema. “El poder de GPT‑5 está en cuán precisamente puede razonar cuando está anclado en políticas reales”, señala Graunke. “Nos permite tomar decisiones precisas y defendibles incluso en los casos límite donde otros sistemas fracasan.” SafetyKit evalúa cada nuevo modelo de OpenAI contra sus casos más difíciles, desplegando a menudo a los mejores desempeños el mismo día. Evaluaciones internas rigurosas permiten al equipo identificar rápidamente cómo los nuevos modelos pueden mejorar el rendimiento e integrarse sin problemas en su infraestructura central. Cuando se lanzó OpenAI o3, SafetyKit lo utilizó para mejorar el rendimiento en casos límite en áreas políticas clave. GPT‑5 siguió, y en pocos días se desplegó en los agentes más exigentes, aumentando las puntuaciones de referencia en más de 10 puntos en sus tareas de visión más desafiantes. “OpenAI avanza rápido, y hemos diseñado nuestro sistema para seguirle el ritmo. Cada nueva versión nos ofrece una ventaja operativa—abriendo nuevas capacidades y dominios que no podíamos apoyar antes, aumentando la cobertura y la precisión que entregamos a los clientes”, dice Graunke. SafetyKit también alimenta mejoras en el ecosistema, compartiendo resultados de evaluaciones, fallos en casos extremos e ideas específicas de políticas directamente con OpenAI para ayudar a moldear el rendimiento futuro de modelos para cargas de trabajo críticas de seguridad. La arquitectura de SafetyKit aplica políticas a escala, entregando velocidad, precisión y cobertura de riesgo integral. Detrás de escena, ahora maneja más de 16 mil millones de tokens diarios, subiendo desde 200 millones hace seis meses, analizando más contenido sin sacrificar precisión. En ese mismo periodo, SafetyKit se ha expandido a riesgo de pagos, fraude, lucha contra la explotación infantil, lucha contra el lavado de dinero y nuevos clientes con cientos de millones de usuarios finales bajo protección de SafetyKit. Esta base empodera a los clientes para responder con rapidez y confianza a riesgos emergentes. “Hemos creado un bucle donde cada lanzamiento de OpenAI fortalece directamente nuestras capacidades”, dice Graunke. “Por eso el sistema mejora continuamente, siempre un paso adelante de los riesgos en evolución.”
¿Qué hay de nuevo?
- Desde la prototipación con previsualizaciones visionarias hasta escalar con GPT‑5, los agentes multimodales de SafetyKit se expanden a nuevos dominios y aumentan la precisión. SafetyKit revisa contenido a través de texto, imágenes y datos financieros para detectar y actuar ante actividades prohibidas.
- La plataforma ahora cubre riesgo de pagos, fraude, explotación infantil y AML, alcanzando cientos de millones de usuarios finales.
- Un flujo de emparejamiento de modelos dirige cada ítem al mejor agente y al modelo más adecuado, permitiendo una aplicación más precisa entre modalidades. Por ejemplo, el agente Detección de Estafas analiza elementos visuales como códigos QR o números de teléfono incrustados en imágenes, con GPT‑4.1 ayudando a extraer el diseño y entender la disposición.
- Las decisiones de políticas se fundamentan en la biblioteca interna de políticas, con GPT‑5 evaluando el cumplimiento y señalando si falta lenguaje obligatorio o divulgaciones regionales.
- Los benchmarks internos impulsan la adopción de los mejores desempeños tras cada lanzamiento de OpenAI, con mejoras disponibles el mismo día.
Por qué importa (impacto para desarrolladores/empresas)
Para desarrolladores y empresas que construyen marketplaces digitales, plataformas de pago o servicios fintech, SafetyKit ofrece un enfoque escalable para aplicar políticas y gestionar riesgos. Al combinar GPT‑5, GPT‑4.1 y CUAs, SafetyKit entrega decisiones precisas y defendibles entre modalidades y jurisdicciones. La capacidad de revisar 100% del contenido con alta precisión ayuda a las plataformas a proteger a los usuarios, reducir fraudes y mitigar riesgos regulatorios como requisitos de divulgación regional. La automatización también reduce la exposición de moderadores a material ofensivo, permitiéndoles centrarse en interpretaciones políticas y excepciones complejas. La capacidad de emparejar modelos significa que las plataformas pueden hacer evolucionar las reglas sin reconstruir pipelines basados en palabras clave o disparadores fijos. En lugar de eso, los riesgos se tratan mediante flujos de trabajo dedicados para categorías como estafas o productos ilegales, logrando una cobertura más amplia y una ruta de cumplimiento más clara a medida que cambian las reglas. SafetyKit también facilita la escalabilidad: al dirigir el contenido al agente y al modelo más adecuados, las plataformas pueden ampliar la cobertura a nuevos dominios, tipos de contenido y grandes poblaciones de usuarios sin perder precisión. La colaboración continua con OpenAI, compartiendo evaluaciones, datos de casos límite e ideas políticas, ayuda a dar forma a mejoras de rendimiento para cargas de trabajo críticas de seguridad.
Detalles técnicos o Implementación
- Arquitectura compuesta por agentes especializados, cada uno manejando una categoría de riesgo (p. ej., estafas, productos ilegales) y coordinados por una capa de emparejamiento de modelos que elige el mejor agente y el mejor modelo OpenAI para cada violación.
- El agente Detección de Estafas amplía el análisis más allá del texto al evaluar aspectos visuales en imágenes de productos, como códigos QR o números de teléfono incrustados. GPT‑4.1 ayuda en el procesamiento de imágenes y la comprensión del diseño para decidir si hay incumplimiento.
- El agente Divulgación de Políticas consulta primero la biblioteca interna de políticas y luego GPT‑5 evalúa el contenido para ver si cumple con requisitos como lenguaje obligatorio o avisos de cumplimiento regional. Si falta algo, se devuelve una salida estructurada que el agente utiliza para señalar el problema.
- Las decisiones políticas se basan en reglas reales, permitiendo una aplicación precisa incluso con matices regionales. Esto ayuda a evitar omisiones o falsos positivos que podrían surgir de enfoques basados solo en palabras clave.
- SafetyKit evalúa nuevos modelos de OpenAI contra los casos más difíciles y despliega en producción los mejores desempeños, a menudo el mismo día.
- La arquitectura es escalable para miles de millones de tokens diarios sin perder precisión, con mejoras continuas para ayudar a OpenAI a moldear futuros modelos para cargas de seguridad críticas.
Puntos clave
- SafetyKit combina agentes multimodales con GPT‑5 y GPT‑4.1 para hacer cumplir políticas en texto, imágenes y transacciones.
- Revisa el 100% del contenido con >95% de precisión y se expandió a riesgo de pagos, fraude, AML y explotación infantil.
- Un flujo de emparejamiento de modelos dirige cada violación al mejor agente y modelo para una aplicación más matizada.
- La plataforma procesa miles de millones de tokens diarios, permitiendo una cobertura amplia sin sacrificar precisión.
- El sistema mantiene un bucle de retroalimentación con OpenAI para guiar el rendimiento futuro de modelos en cargas de seguridad.
FAQ
-
¿Qué es SafetyKit?
Un conjunto de agentes IA multimodales diseñados para detectar y actuar ante fraudes y actividades prohibidas en texto, imágenes, transacciones y listados.
-
¿Qué modelos se utilizan?
GPT‑5 y GPT‑4.1, junto con componentes Computer Using Agent (CUA).
-
¿Cuántos tokens procesa al día?
Más de 16 mil millones de tokens por día.
-
¿Qué nivel de precisión tiene?
Revisa el 100% del contenido con más del 95% de precisión, según evaluaciones internas.
-
¿Cómo ayuda con regulaciones regionales?
Usa una biblioteca interna de políticas y evaluación de cumplimiento con GPT‑5.
Referencias
More news
Detección y reducción de scheming en modelos de IA: avances, métodos e implicaciones
OpenAI y Apollo Research evaluaron el desalineamiento oculto en modelos de frontera, observaron comportamientos de scheming y probaron un método de alineamiento deliberativo que redujo las acciones encubiertas unas 30x, con limitaciones y trabajos en curso.
OpenAI, NVIDIA y Nscale presentan Stargate UK para IA soberana en el Reino Unido
OpenAI, NVIDIA y Nscale anuncian Stargate UK, una infraestructura de IA soberana que ofrece cómputo local en el Reino Unido para apoyar servicios públicos, industrias reguladas y metas nacionales de IA.
Rumbo a la Predicción de Edad: OpenAI Personaliza ChatGPT para Adolescentes y Familias
OpenAI describe un sistema de predicción de edad a largo plazo para adaptar ChatGPT a usuarios menores y mayores de 18 años, con políticas por edad, salvaguardas de seguridad y controles parentales próximos.
Teen safety, freedom, and privacy
Explore OpenAI’s approach to balancing teen safety, freedom, and privacy in AI use.
Adenda GPT-5-Codex: GPT-5 optimizado para codificación con medidas de seguridad
Un adendo detallando GPT-5-Codex, una variante de GPT-5 optimizada para codificar en Codex, con mitigaciones de seguridad y disponibilidad multiplataforma.
OpenAI presenta GPT‑5‑Codex: código más rápido, revisión de código avanzada y mayor confiabilidad
OpenAI revela GPT‑5‑Codex, una versión de GPT‑5 optimizada para codificación guiada por agentes en Codex. Acelera interacciones, maneja tareas largas, mejora las revisiones de código y funciona en terminal, IDE, web, GitHub y móvil.