Acelerando ML en el dispositivo en la familia de apps de Meta con ExecuTorch

TL;DR

ExecuTorch es la solución de código abierto de Meta para la inferencia en el dispositivo en dispositivos móviles y edge, utilizando tecnologías PyTorch 2.x para convertir modelos en una representación estable y compacta para su despliegue en el dispositivo. Fuente
El framework mejora la latencia, las garantías de privacidad y el rendimiento general de los modelos en todas las apps del FoA, funcionando en Android e iOS y diseñado para ser compacto, modular y extensible para que los desarrolladores personalicen los componentes manteniendo la portabilidad entre plataformas y compatibilidad con PyTorch. Fuente
Implementaciones reales incluyen Cutouts de Instagram potenciado por SqueezeSAM (una versión ligera de SAM), modelos de estimación de ancho de banda para WhatsApp, LID en el dispositivo para Messenger, y mejoras de calidad de video y SceneX, todos migrando a ExecuTorch para mayor velocidad, fiabilidad y seguridad. Fuente
La implementación ha generado reducciones sustanciales en el tiempo de carga de modelos y en el tiempo medio de inferencia, además de menores tasas de ANR, liberando capacidad de servidor y de red para escalar globalmente. Fuente
Meta enfatiza la seguridad mediante pruebas de fuzzing y continúa invitando a la comunidad a participar a través de GitHub y del servidor de Discord de ExecuTorch. Fuente

Contexto y antecedentes

Durante el último año, Meta implementó ExecuTorch como una solución de código abierto para la inferencia en el dispositivo en su familia de apps (FoA). El proyecto se desarrolló en colaboración con líderes de la industria y utiliza tecnologías PyTorch 2.x para convertir modelos en una representación estable y compacta apta para despliegue en el dispositivo. El runtime está diseñado para ser compacto, modular y extensible, permitiendo a los desarrolladores mezclar componentes manteniendo la portabilidad entre plataformas y la compatibilidad con PyTorch. El objetivo es mejorar las experiencias de usuario manteniendo fuertes garantías de privacidad mediante la realización de la mayor parte de la computación en el dispositivo. Este esfuerzo demuestra el compromiso de Meta con la IA en el dispositivo a gran escala para miles de millones de usuarios. Fuente

Novedades

ExecuTorch se ha desplegado en FoA de Meta, aportando mejoras de rendimiento y fiabilidad en múltiples apps y casos de uso. Ejemplos notables:

Instagram Cutouts: una función reciente que transforma fotos y videos en stickers animados y personalizados para Reels o Stories. La migración a ExecuTorch utiliza SqueezeSAM, una versión ligera de SAM, para obtener resultados más rápidos en Android e iOS, lo que se traduce en un aumento de usuarios activos diarios del Cutouts. Fuente
WhatsApp: modelos de estimación de ancho de banda optimizados para diversas plataformas, reduciendo los tiempos de carga de modelos y el tiempo medio de inferencia, mejorando la fiabilidad y la eficiencia del streaming de video y las llamadas. Los modelos en el dispositivo con ExecuTorch muestran características de seguridad reforzadas mediante pruebas de fuzzing. Fuente
Messenger: la E2EE permanece intacta mientras que los modelos en dispositivo permiten ejecutar tareas del servidor localmente, fortaleciendo las garantías de cifrado. Un modelo de identificación de idioma (LID) en el dispositivo acelera traducciones, resúmenes y recomendaciones de contenido sin exponer datos a los servidores. Otros modelos en-device incluyen optimización de la calidad de las videollamadas y recorte de imágenes. Fuente
SceneX y otros: SceneX ahora se ejecuta en ExecuTorch para mejorar, entre otras cosas, las historias de Facebook sugiriendo música de fondo basada en imágenes, con mejoras de rendimiento en dispositivos desde básicos hasta de gama alta. Modelos adicionales para mejorar la calidad de imagen y reducir el ruido en llamadas están en fases de pruebas A/B. Fuente
Prácticas de seguridad: se incorporaron pruebas de fuzzing para evaluar la robustez frente a entradas inválidas. Fuente
Meta invita a contribuir al ExecuTorch y a compartir comentarios en la página de GitHub y en el servidor de Discord de ExecuTorch. Fuente

Por qué importa (impacto para desarrolladores/empresas)

El ML en el dispositivo reduce la latencia y mejora la privacidad al realizar la inferencia en el propio dispositivo, reduciendo la dependencia de redes y servidores centrales. Esto mejora la experiencia del usuario en escenarios con conectividad limitada y respalda los compromisos de E2EE al mantener el procesamiento local cuando es posible. También facilita escalar funciones globalmente sin aumentar significativamente la carga de servidores. Fuente
El runtime modular y compacto permite a los desarrolladores adaptar componentes para dispositivos y plataformas específicas, promoviendo la portabilidad entre Android e iOS y garantizando compatibilidad con los flujos de trabajo de PyTorch. Esto reduce fricciones y acelera la adopción de ML en el dispositivo en un ecosistema de apps diverso. Fuente
Al migrar varios modelos a ExecuTorch, Meta demuestra un marco escalable para desplegar modelos de ML en el dispositivo a gran escala, manteniendo garantías de seguridad y visibilidad de rendimiento. Fuente

Detalles técnicos o Implementación

ExecuTorch se basa en tecnologías PyTorch 2.x para convertir modelos en representaciones estables y compactas optimizadas para la inferencia en dispositivo. El runtime prioriza la compacidad, modularidad y extensibilidad, permitiendo a los desarrolladores personalizar componentes manteniendo la portabilidad entre plataformas y la compatibilidad con PyTorch. Fuente
Modelos y casos migrados a ExecuTorch incluyen:
Instagram Cutouts impulsado por SqueezeSAM, versión ligera de SAM, para segmentación rápida en dispositivo y stickers creativos en Android e iOS. Fuente
WhatsApp: modelos de estimación de ancho de banda optimizados para dispositivo, detectando y utilizando la banda ancha disponible con mayor precisión y eficiencia. Fuente
Messenger: LID en dispositivo para acelerar traducciones y resúmenes, manteniendo el E2EE; otros modelos incluyen optimización de la calidad de videollamadas y recorte de imágenes. Fuente
SceneX: ahora en ExecuTorch para sugerir música de fondo basada en imágenes en Stories, con mejoras de rendimiento en dispositivos desde básicos hasta de gama alta; otros modelos de mejora de imagen y reducción de ruido en llamadas están en pruebas A/B. Fuente
Prácticas de seguridad incluyen pruebas de fuzzing para evaluar la robustez ante entradas inválidas, aumentando la seguridad frente a la pila anterior de PyTorch Mobile. Fuente
Meta invita a contribuir a ExecuTorch y a compartir comentarios en la página de GitHub, así como a unirse a la comunidad ExecuTorch en el servidor de Discord. Fuente

Hechos clave y comparaciones

| Aspecto | Antes de ExecuTorch |

Con ExecuTorch
---
---
Enfoque de plataforma
Android e iOS, portabilidad entre plataformas con PyTorch 2.x
Runtime
Compacto, modular y extensible
Pruebas de seguridad
Pruebas de fuzzing introducidas para robustez
Modelos en dispositivo
Migración amplia a Cutouts, LID, calidad de video y reducción de ruido

Por qué importa (continuación)

La migración de características clave a la inferencia en dispositivo ofrece una experiencia más estable ante redes variables, manteniendo las expectativas de privacidad para mensajería y medios. Este enfoque también ofrece un camino escalable para IA en dispositivo a gran escala en apps de consumo, con un plan claro para futuras migraciones de modelos. Fuente

Puntos clave

ExecuTorch es un marco de inferencia en dispositivo open-source basado en PyTorch 2.x, centrado en la compacidad, modularidad y portabilidad entre plataformas.
La adopción abarca Instagram, WhatsApp, Messenger y Facebook, con características como LID en dispositivo, estimación de ancho de banda y Cutouts con SqueezeSAM.
Las mejoras de seguridad incluyen fuzzing; Meta invita a contribuir a través de GitHub y a unirse al servidor de Discord de ExecuTorch.
La inferencia en dispositivo reduce la carga de servidores y de red, mejora la latencia y refuerza la privacidad, marcando un camino escalable para IA en dispositivo a nivel global.