Warp 1.9 Lanzado: Soporte CUDA 13.0, Módulos AOT y Marching Cubes completamente en Warp

TL;DR

Warp 1.9 trae compatibilidad con el toolkit CUDA 13.0, una implementación de Marching Cubes completamente en Warp y corrección de un bug de desplazamiento de largo tiempo.
Se introducen nuevas herramientas AOT para la compilación ahead-of-time con wp.compile_aot_module() y wp.load_aot_module(), incluyendo strip_hash=True para distribuir módulos precompilados sin código fuente.
El modelo de programación recibe indexación más flexible para tipos compuestos, soporte directo para IntEnum/IntFlag, y asignaciones locales dentro de kernels con wp.zeros(), junto con tres nuevas operaciones indexadas de tile.
La captura de CUDA graph ahora es plenamente soportada para solucionadores, con convergencia en el lado del dispositivo mediante wp.capture_while() y opciones entre verificación en host o en dispositivo.
Las mejoras continúen en warp.sparse, warp.fem y ejecución basada en tiles, con heurísticas automáticas y overrides manuales mediante tile_size.

Contexto y antecedentes

Warp continúa evolucionando como un marco de programación GPU basado en Python, orientado a kernels de alto rendimiento en CPU y GPU. La versión v1.9 alinea Warp con CUDA 13.x y expande sus capacidades AOT para facilitar la distribución de artefactos preconstruidos. Uno de los aspectos destacados es la implementación de Marching Cubes reescrita íntegramente en Warp, ejecutable tanto en CPU como en GPU. Este cambio también resuelve un problema de desplazamiento de larga data, subrayando el compromiso de Warp con la corrección y la portabilidad. Para quienes evalúan la evolución del ecosistema CUDA, CUDA Toolkit 13.0 se lanzó a principios de agosto, y Warp ofrece rutas de compatibilidad para facilitar actualizaciones y requisitos de controladores. Consulte las notas de la versión para detalles.

Novedades

Warp 1.9 trae un conjunto amplio de mejoras y capacidades nuevas. Los cambios más visibles incluyen la implementación de Marching Cubes reescrita en Warp, la compatibilidad con CUDA 13.0 y un conjunto de mejoras AOT. Además de la parte central, la actualización ofrece indexación más flexible para tipos compuestos, soporte directo para IntEnum e IntFlag dentro de funciones y kernels de Warp, así como la capacidad de asignar arrays locales dentro de kernels usando wp.zeros(), con esos arrays almacenados en registros para acceso rápido. La implementación de Marching Cubes es completamente diferenciable y provista por la comunidad, permitiendo su ejecución total en Warp en CPU y GPU. La nueva funcionalidad AOT introduce wp.compile_aot_module() y wp.load_aot_module(), con la opción strip_hash=True que elimina hashes únicos de los nombres de módulos para distribuir artefactos preconstruidos sin el código fuente. AOT e implementación

wp.compile_aot_module() y wp.load_aot_module()
strip_hash=True para distribuir módulos preconstruidos sin código fuente
Documentación describiendo flujos AOT y planes de expansión futura Modelos e mejoras de lenguaje
Indexación más flexible para tipos compuestos (vectores, matrices, cuaterniones, transforms)
Soporte directo para IntEnum e IntFlag dentro de funciones y kernels
Vistas dentro del kernel que soportan formas dinámicas y tipos de struct vía el atributo ptr
wp.zeros() permite asignar arrays locales de tamaño fijo en registros
Tres nuevas operaciones de tile indexadas para cargar, almacenar y operaciones atómicas con mapeo de índice personalizado
Soporte correcto para escribir en elementos de matrices almacenadas en campos de struct Algoritmos y rendimiento
Implementación de Marching Cubes totalmente diferenciable en Warp
Solvers iterativos (CG, BiCGSTAB, GMRES) compatibles con CUDA graph; convergencia en el lado del dispositivo vía wp.capture_while()
warp.sparse soporta bloques de tamaño arbitrario y cálculos basados en tiles con heurísticas para elegir entre ejecución tileada y no tileada
warp.fem.integrate utiliza tiling para la acumulación de cuadratura con selección automática del tamaño de tile Notas de estabilidad, pruebas y observaciones
Pruebas tempranas en NVIDIA Jetson Thor mostraron posibles fallos de segmentación al iniciar kernels de CPU; los kernels de GPU no se ven afectados. La resolución recomienda compilar Warp desde el código fuente usando LLVM/Clang v18+.
Las características obsoletas de versiones anteriores serán removidas en v1.10 (principios de noviembre)
El lanzamiento agradece las contribuciones de la comunidad y señala la sección v1.9.0 de CHANGELOG.md para la lista completa de cambios Compatibilidad y transición
Compatibilidad CUDA Toolkit 13.0: dos rutas posibles: ruedas Warp compiladas con CUDA 12.8 pueden ejecutarse con drivers 13.x; o compilar contra CUDA 13.x para Warp
Las distribuciones PyPI de Warp seguirán construyéndose con CUDA 12.8 durante la fase de transición
Las notas de la versión destacan planes continuos para ampliar flujos AOT en actualizaciones futuras Referencias y fuentes
La página oficial de notas de lanzamiento y detalles está disponible aquí: https://github.com/NVIDIA/warp/releases/tag/v1.9.0#new_tab

Por qué es importante (impacto para desarrolladores/empresas)

Para los desarrolladores, Warp 1.9 reduce las barreras para distribuir kernels de alto rendimiento mediante AOT y la distribución de módulos preconstruidos sin exponer el código fuente. La compatibilidad con CUDA 13.0 reduce fricciones al actualizar drivers y hardware, manteniendo a la vez una ruta de transición para wheel construidas con CUDA 12.8. La implementación de Marching Cubes en Warp abre oportunidades para pipelines de renderizado diferenciado y visualización volumétrica que pueden ejecutarse de forma eficiente en CPU y GPU. Los avances en indexación, memoria local dentro de kernels y las nuevas operaciones de tile ofrecen mayor control sobre el comportamiento de la memoria y los perfiles de rendimiento en escenarios con matrices dispersas y métodos de elementos finitos. Desde el punto de vista de ingeniería, las mejoras AOT reflejan una orientación hacia compilación fuera de línea y distribución de kernels preconstruidos, lo que puede simplificar el empaquetado de software y mejorar la latencia de inicio en entornos de producción. El conjunto de características—preparación para CUDA 13.0, flujos AOT, memoria local mejorada y compatibilidad de graph capture—refuerza a Warp como una plataforma flexible para investigadores e ingenieros que buscan optimizar el rendimiento en despliegues de CPU y GPU.

Detalles técnicos o Implementación

| Área | Puntos clave | Observaciones |---|---|---| | Marching Cubes | Reescrito en Warp; totalmente diferenciable; ejecución CPU y GPU | Reemplaza la implementación CUDA C++ anterior; corrige el bug de desplazamiento (#324) |AOT | wp.compile_aot_module(), wp.load_aot_module() | strip_hash=True permite distribuir sin código fuente |Toolkit CUDA | Compatibilidad CUDA 13.0; ruedas CUDA 12.8 durante transición | Rutas duales de despliegue según drivers |Indexación y tipos | Indexación flexible para tipos compuestos; soporte directo IntEnum/IntFlag | Vistas en kernel dinámicas; tipos struct vía ptr |Arrays locales | wp.zeros() en kernels | Almacenamiento en registros para rendimiento |Operaciones de tile | Tres nuevas operaciones indexadas | Patrones de acceso a memoria más avanzados |Sparse y FEM | warp.sparse con bloques arbitrarios; warp.fem.integrate tiling | Afinación automática con override tile_size |Graph capture | Solveurs iterativos compatibles; convergencia en el dispositivo vía wp.capture_while() | Cobertura completa de graph capture |Estabilidad | Posibles segfaults CPU en Jetson Thor | Resolver mediante LLVM/Clang v18+; GPUs no afectados |Deprecaciones | Funcionalidades antiguas serán removidas | Hoja de ruta indicada |

Puntos clave para llevar adelante

Warp 1.9 avanza la preparación para CUDA 13.0 y habilita flujos AOT con distribución de módulos preconstruidos sin código fuente.
Marching Cubes completamente en Warp facilita pipelines de renderizado diferenciado en CPU y GPU.
Mejoras de memoria y acceso por tiles ofrecen mayor control de rendimiento en matrices dispersas y FE.
La captura de gráficos CUDA más robusta mejora la reproducibilidad y eficiencia de flujos de trabajo complejos.
Transición CUDA 12.8 a 13.x con rutas de compatibilidad y builds en transición discutidas.

FAQ

¿Cuál es el objetivo principal de Warp 1.9?

Compatibilidad con CUDA 13.0, Marching Cubes completamente en Warp y flujos AOT con distribución de módulos preconstruidos.
¿Cómo se usa AOT en Warp 1.9?

Use wp.compile_aot_module() para compilar y wp.load_aot_module() para cargar módulos preconstruidos; strip_hash=True permite distribuir sin código fuente.
¿CUDA 13.0 está plenamente soportado?

Sí, con dos rutas: ruedas Warp para CUDA 12.8 funcionan con drivers 13.x, o se puede compilar contra CUDA 13.x para Warp.
¿Qué hay sobre la captura de graph y la convergencia?

Los solveurs iterativos son compatibles con CUDA graph; la convergencia en el dispositivo puede verificarse con wp.capture_while().
¿Existen problemas conocidos?

Se observaron posibles segfaults CPU en Jetson Thor; se recomienda usar LLVM/Clang v18+ al compilar desde el código fuente.