Warp 1.9 Lanzado: Soporte CUDA 13.0, Módulos AOT y Marching Cubes completamente en Warp
Sources: https://github.com/NVIDIA/warp/releases/tag/v1.9.0, https://github.com/NVIDIA/warp/releases/tag/v1.9.0#new_tab, NVIDIA Dev Blog
TL;DR
- Warp 1.9 trae compatibilidad con el toolkit CUDA 13.0, una implementación de Marching Cubes completamente en Warp y corrección de un bug de desplazamiento de largo tiempo.
- Se introducen nuevas herramientas AOT para la compilación ahead-of-time con wp.compile_aot_module() y wp.load_aot_module(), incluyendo strip_hash=True para distribuir módulos precompilados sin código fuente.
- El modelo de programación recibe indexación más flexible para tipos compuestos, soporte directo para IntEnum/IntFlag, y asignaciones locales dentro de kernels con wp.zeros(), junto con tres nuevas operaciones indexadas de tile.
- La captura de CUDA graph ahora es plenamente soportada para solucionadores, con convergencia en el lado del dispositivo mediante wp.capture_while() y opciones entre verificación en host o en dispositivo.
- Las mejoras continúen en warp.sparse, warp.fem y ejecución basada en tiles, con heurísticas automáticas y overrides manuales mediante tile_size.
Contexto y antecedentes
Warp continúa evolucionando como un marco de programación GPU basado en Python, orientado a kernels de alto rendimiento en CPU y GPU. La versión v1.9 alinea Warp con CUDA 13.x y expande sus capacidades AOT para facilitar la distribución de artefactos preconstruidos. Uno de los aspectos destacados es la implementación de Marching Cubes reescrita íntegramente en Warp, ejecutable tanto en CPU como en GPU. Este cambio también resuelve un problema de desplazamiento de larga data, subrayando el compromiso de Warp con la corrección y la portabilidad. Para quienes evalúan la evolución del ecosistema CUDA, CUDA Toolkit 13.0 se lanzó a principios de agosto, y Warp ofrece rutas de compatibilidad para facilitar actualizaciones y requisitos de controladores. Consulte las notas de la versión para detalles.
Novedades
Warp 1.9 trae un conjunto amplio de mejoras y capacidades nuevas. Los cambios más visibles incluyen la implementación de Marching Cubes reescrita en Warp, la compatibilidad con CUDA 13.0 y un conjunto de mejoras AOT. Además de la parte central, la actualización ofrece indexación más flexible para tipos compuestos, soporte directo para IntEnum e IntFlag dentro de funciones y kernels de Warp, así como la capacidad de asignar arrays locales dentro de kernels usando wp.zeros(), con esos arrays almacenados en registros para acceso rápido. La implementación de Marching Cubes es completamente diferenciable y provista por la comunidad, permitiendo su ejecución total en Warp en CPU y GPU. La nueva funcionalidad AOT introduce wp.compile_aot_module() y wp.load_aot_module(), con la opción strip_hash=True que elimina hashes únicos de los nombres de módulos para distribuir artefactos preconstruidos sin el código fuente. AOT e implementación
- wp.compile_aot_module() y wp.load_aot_module()
- strip_hash=True para distribuir módulos preconstruidos sin código fuente
- Documentación describiendo flujos AOT y planes de expansión futura Modelos e mejoras de lenguaje
- Indexación más flexible para tipos compuestos (vectores, matrices, cuaterniones, transforms)
- Soporte directo para IntEnum e IntFlag dentro de funciones y kernels
- Vistas dentro del kernel que soportan formas dinámicas y tipos de struct vía el atributo ptr
- wp.zeros() permite asignar arrays locales de tamaño fijo en registros
- Tres nuevas operaciones de tile indexadas para cargar, almacenar y operaciones atómicas con mapeo de índice personalizado
- Soporte correcto para escribir en elementos de matrices almacenadas en campos de struct Algoritmos y rendimiento
- Implementación de Marching Cubes totalmente diferenciable en Warp
- Solvers iterativos (CG, BiCGSTAB, GMRES) compatibles con CUDA graph; convergencia en el lado del dispositivo vía wp.capture_while()
- warp.sparse soporta bloques de tamaño arbitrario y cálculos basados en tiles con heurísticas para elegir entre ejecución tileada y no tileada
- warp.fem.integrate utiliza tiling para la acumulación de cuadratura con selección automática del tamaño de tile Notas de estabilidad, pruebas y observaciones
- Pruebas tempranas en NVIDIA Jetson Thor mostraron posibles fallos de segmentación al iniciar kernels de CPU; los kernels de GPU no se ven afectados. La resolución recomienda compilar Warp desde el código fuente usando LLVM/Clang v18+.
- Las características obsoletas de versiones anteriores serán removidas en v1.10 (principios de noviembre)
- El lanzamiento agradece las contribuciones de la comunidad y señala la sección v1.9.0 de CHANGELOG.md para la lista completa de cambios Compatibilidad y transición
- Compatibilidad CUDA Toolkit 13.0: dos rutas posibles: ruedas Warp compiladas con CUDA 12.8 pueden ejecutarse con drivers 13.x; o compilar contra CUDA 13.x para Warp
- Las distribuciones PyPI de Warp seguirán construyéndose con CUDA 12.8 durante la fase de transición
- Las notas de la versión destacan planes continuos para ampliar flujos AOT en actualizaciones futuras Referencias y fuentes
- La página oficial de notas de lanzamiento y detalles está disponible aquí: https://github.com/NVIDIA/warp/releases/tag/v1.9.0#new_tab
Por qué es importante (impacto para desarrolladores/empresas)
Para los desarrolladores, Warp 1.9 reduce las barreras para distribuir kernels de alto rendimiento mediante AOT y la distribución de módulos preconstruidos sin exponer el código fuente. La compatibilidad con CUDA 13.0 reduce fricciones al actualizar drivers y hardware, manteniendo a la vez una ruta de transición para wheel construidas con CUDA 12.8. La implementación de Marching Cubes en Warp abre oportunidades para pipelines de renderizado diferenciado y visualización volumétrica que pueden ejecutarse de forma eficiente en CPU y GPU. Los avances en indexación, memoria local dentro de kernels y las nuevas operaciones de tile ofrecen mayor control sobre el comportamiento de la memoria y los perfiles de rendimiento en escenarios con matrices dispersas y métodos de elementos finitos. Desde el punto de vista de ingeniería, las mejoras AOT reflejan una orientación hacia compilación fuera de línea y distribución de kernels preconstruidos, lo que puede simplificar el empaquetado de software y mejorar la latencia de inicio en entornos de producción. El conjunto de características—preparación para CUDA 13.0, flujos AOT, memoria local mejorada y compatibilidad de graph capture—refuerza a Warp como una plataforma flexible para investigadores e ingenieros que buscan optimizar el rendimiento en despliegues de CPU y GPU.
Detalles técnicos o Implementación
| Área | Puntos clave | Observaciones |---|---|---| | Marching Cubes | Reescrito en Warp; totalmente diferenciable; ejecución CPU y GPU | Reemplaza la implementación CUDA C++ anterior; corrige el bug de desplazamiento (#324) |AOT | wp.compile_aot_module(), wp.load_aot_module() | strip_hash=True permite distribuir sin código fuente |Toolkit CUDA | Compatibilidad CUDA 13.0; ruedas CUDA 12.8 durante transición | Rutas duales de despliegue según drivers |Indexación y tipos | Indexación flexible para tipos compuestos; soporte directo IntEnum/IntFlag | Vistas en kernel dinámicas; tipos struct vía ptr |Arrays locales | wp.zeros() en kernels | Almacenamiento en registros para rendimiento |Operaciones de tile | Tres nuevas operaciones indexadas | Patrones de acceso a memoria más avanzados |Sparse y FEM | warp.sparse con bloques arbitrarios; warp.fem.integrate tiling | Afinación automática con override tile_size |Graph capture | Solveurs iterativos compatibles; convergencia en el dispositivo vía wp.capture_while() | Cobertura completa de graph capture |Estabilidad | Posibles segfaults CPU en Jetson Thor | Resolver mediante LLVM/Clang v18+; GPUs no afectados |Deprecaciones | Funcionalidades antiguas serán removidas | Hoja de ruta indicada |
Puntos clave para llevar adelante
- Warp 1.9 avanza la preparación para CUDA 13.0 y habilita flujos AOT con distribución de módulos preconstruidos sin código fuente.
- Marching Cubes completamente en Warp facilita pipelines de renderizado diferenciado en CPU y GPU.
- Mejoras de memoria y acceso por tiles ofrecen mayor control de rendimiento en matrices dispersas y FE.
- La captura de gráficos CUDA más robusta mejora la reproducibilidad y eficiencia de flujos de trabajo complejos.
- Transición CUDA 12.8 a 13.x con rutas de compatibilidad y builds en transición discutidas.
FAQ
-
¿Cuál es el objetivo principal de Warp 1.9?
Compatibilidad con CUDA 13.0, Marching Cubes completamente en Warp y flujos AOT con distribución de módulos preconstruidos.
-
¿Cómo se usa AOT en Warp 1.9?
Use wp.compile_aot_module() para compilar y wp.load_aot_module() para cargar módulos preconstruidos; strip_hash=True permite distribuir sin código fuente.
-
¿CUDA 13.0 está plenamente soportado?
Sí, con dos rutas: ruedas Warp para CUDA 12.8 funcionan con drivers 13.x, o se puede compilar contra CUDA 13.x para Warp.
-
¿Qué hay sobre la captura de graph y la convergencia?
Los solveurs iterativos son compatibles con CUDA graph; la convergencia en el dispositivo puede verificarse con wp.capture_while().
-
¿Existen problemas conocidos?
Se observaron posibles segfaults CPU en Jetson Thor; se recomienda usar LLVM/Clang v18+ al compilar desde el código fuente.
Referencias
More news
Primer vistazo a la app Google Home impulsada por Gemini
The Verge informa que Google está actualizando la app Google Home para traer Gemini, con una barra de búsqueda Ask Home, un rediseño de la interfaz y controles por voz para el hogar.
Las demostraciones fallidas de las gafas inteligentes con Live AI de Meta no tenían que ver con el Wi‑Fi, dice el CTO
Las demostraciones en vivo de las gafas Ray‑Ban con Live AI de Meta presentaron fallos vergonzosos. El CTO Andrew Bosworth explica las causas, entre ellas un tráfico autoimpuesto y un fallo raro de llamada, y señala que el fallo ya está corregido.
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
OpenAI desarrolla supuesto altavoz inteligente, gafas, grabadora y pin con Jony Ive
OpenAI exploraría una familia de dispositivos IA con el ex director de diseño de Apple, Jony Ive, que incluiría un altavoz inteligente sin pantalla, gafas, una grabadora y un pin wearable, con previsión de lanzamiento para finales de 2026 o principios de 2027.
Shadow Leak muestra cómo los agentes de ChatGPT pueden exfiltrar datos de Gmail mediante inyección de prompts
Investigadores de seguridad demostraron un ataque de inyección de prompts llamado Shadow Leak, que utilizó Deep Research de ChatGPT para exfiltrar datos de una bandeja de Gmail. OpenAI parcheó la falla; el caso subraya los riesgos de la IA con agentes.
Llevar agentes de IA de concepto a producción con Amazon Bedrock AgentCore
Análisis detallado de cómo Amazon Bedrock AgentCore facilita la transición de aplicaciones de IA basadas en agentes desde un concepto de prueba hasta sistemas de producción empresariales, conservando memoria, seguridad, observabilidad y gestión escalable de herramientas.