Hugging Face AI Sheets: herramienta sin código para crear, transformar y enriquecer conjuntos de datos
Sources: https://huggingface.co/blog/aisheets, Hugging Face Blog
Visión general
Hugging Face AI Sheets es una herramienta sin código para construir, transformar y enriquecer conjuntos de datos con modelos de IA. Es de código abierto, está estrechamente integrada con Hugging Face Hub y se puede desplegar localmente o en el Hub. La interfaz es similar a una hoja de cálculo, diseñada para experimentación rápida con conjuntos de datos pequeños antes de pipelines más largos y costosos. AI Sheets permite crear columnas nuevas escribiendo prompts; puedes iterar cuantas veces quieras y editar o validar celdas para enseñar al modelo lo que deseas. Puedes comparar modelos creando columnas por modelo y proporcionando prompts que hagan referencia a columnas existentes. También puedes usar un prompt de juez para evaluar las respuestas de diferentes modelos mediante LLMs. Existen dos modos de uso: puedes importar un conjunto de datos existente o generar un conjunto de datos desde cero describiéndolo en lenguaje natural. Por ejemplo, puedes solicitar ciudades del mundo con sus países y una imagen, y AI Sheets generará automáticamente un conjunto de datos. La herramienta admite feedback rápido al editar o dar me gusta a celdas, lo que se convierte en ejemplos deFew-shot al regenerar. AI Sheets admite transformaciones, clasificación, extracción, enriquecimiento y análisis de datos mediante prompts de IA. Puede enriquecer datos con información faltante pidiendo encontrar el código postal de una dirección (la búsqueda web debe estar habilitada). También puede generar datos sintéticos describiendo los datos objetivo y generando campos adicionales como descripciones profesionales y correos electrónicos realistas a partir de bios. La exportación al Hub está soportada y, al exportar, genera un archivo de configuración que puede reutilizarse para generar más datos con trabajos de HF usando scripts, o para reutilizar prompts en aplicaciones posteriores con los ejemplos de pocos-shot incluidos. Si deseas escalar, puedes usar la configuración generada para ejecutar conjuntos de datos más grandes vía el Hub. AI Sheets ofrece un camino directo para experimentar y probar: comienza con una idea o un conjunto de datos pequeño, añade columnas de IA con prompts, compara salidas de modelos, refina prompts y regenera según sea necesario. El sistema está diseñado para facilitar la iteración, evaluación y colaboración, y viene con conjuntos de datos de ejemplo y configuraciones que ilustran cómo combinar prompts de modelo, pasos de validación y prompts de juicio. Para aquellos curiosos sobre usos reales, el blog muestra flujos de trabajo de ejemplo con tres columnas de modelos diferentes y una columna de juez para comparar la calidad. El proyecto también admite trabajar con conjuntos de datos existentes del Hub para añadir categorías o usar un LLM como juez para comparar salidas de modelos. Puedes empezar sin instalar nada mediante el despliegue de Hugging Face Spaces o instalar localmente desde el repositorio GitHub. Para uso avanzado, un plan PRO ofrece mayor uso de inferencia. Cuando estés listo, puedes ponerte en contacto con la comunidad a través del Hub o de issues en GitHub con preguntas y comentarios.
Funciones clave
- Interfaz sin código, tipo hoja de cálculo, para construir, transformar y enriquecer conjuntos de datos con modelos de IA.
- Integración con Hugging Face Hub; acceso a miles de modelos abiertos mediante Inference Providers o modelos locales (incluido gpt-oss de OpenAI).
- Crear columnas IA por prompts; iterar y regenerar; ediciones manuales y me gusta sirven como ejemplos de few-shot.
- Comparar modelos creando múltiples columnas y usando prompts de juicio para evaluar resultados.
- Una gama flexible de tareas de datos: transformación, clasificación, extracción, enriquecimiento y generación de datos sintéticos.
- Soporte para enriquecimiento por búsqueda web (activar Search) y la capacidad de exportar el conjunto final al Hub con un archivo de configuración.
- Dos modos de inicio: importar datos existentes o describir un conjunto de datos para generarlo automáticamente.
- Despliegue local o en Hub; suscripción PRO con uso aumentado.
- Exportación al Hub y reutilización de prompts mediante la configuración generada para tareas posteriores y usos futuros.
Casos de uso comunes
- Probar modelos recientes en tus datos: importa un conjunto de datos, crea una columna por modelo y compara resultados usando prompts que hagan referencia a los datos en cada columna.
- Mejorar prompts rápidamente: las ediciones o me gusta se convierten en ejemplos few-shot; regenera para propagar mejoras.
- Construir aplicaciones que respondan automáticamente a solicitudes de clientes: crea columnas con prompts para generar respuestas y añade una columna de juez para comparar salidas.
- Transformar datos con prompts: eliminar puntuación, normalizar el texto o reestructurar contenido en una columna.
- Clasificar y extraer ideas: añade una columna para categorizar o extraer ideas principales.
- Enriquecer conjuntos de datos: obtener información faltante como códigos postales mediante prompts, con búsqueda web activada cuando sea necesario.
- Generar datos sintéticos: crear descripciones y correos electrónicos realistas a partir de prompts.
- Ampliar conjuntos de datos existentes del Hub: etiquetar y categorizar datos existentes con prompts adicionales y validar resultados.
- Evaluar salidas de modelos: usar un LLM como juez para comparar diferentes modelos en una tarea.
- Exportar resultados al Hub para reutilización y para automatizar tareas posteriores con la configuración generada.
Setup & instalación
Prueba gratis sin instalación en https://huggingface.co/spaces/aisheets/sheets. Para implementación local, consulta el repositorio GitHub en https://github.com/huggingface/sheets. Los comandos exactos de configuración no están proporcionados en la fuente; consulta las páginas enlazadas para instrucciones.
# Consulta las instrucciones de instalación en:
# - https://huggingface.co/spaces/aisheets/sheets
# - https://github.com/huggingface/sheets
Quick start
Ejemplo mínimo del blog:
- Prompts: ciudades del mundo con sus países y una imagen de referencia para cada una, generado en estilo Ghibli.
- Resultado: AI Sheets genera automáticamente un conjunto de datos con tres columnas; puedes añadir filas arrastrando hacia abajo, editar las celdas para sembrar ejemplos few-shot y regenerar para propagar prompts y comentarios.
- Luego puedes exportar al Hub para crear un archivo de configuración, reutilizable en ejecuciones futuras o alimentado a scripts para generar conjuntos de datos más grandes con trabajos de HF. Este enfoque permite probar rápidamente varios modelos y iterar sobre prompts y la estructura de datos antes de escalar.
Ventajas y limitaciones
Ventajas:
- Herramienta no-code de código abierto, integrada con el Hub.
- Acceso a miles de modelos abiertos vía Inference Providers o modelos locales (incluido gpt-oss).
- Iteración rápida mediante prompts y ejemplos few-shot incorporados a partir de ediciones manuales y me gusta.
- Comparación de modelos y prompts de juicio para evaluar salidas.
- Dos modos de inicio: importar datos o generar desde cero.
- Exportación al Hub y reutilización de prompts mediante una configuración generada.
- Despliegue local o en Hub; uso gratuito vía Spaces. Limitaciones:
- No hay una lista explícita de desventajas en la fuente; depende del uso y de la calidad de los modelos.
Alternatives
No descrito en la fuente.
Precios o Licencia
- Herramienta de código abierto con plan PRO para uso extendido (20x uso de inferencia al mes).
- Despliegue gratuito en Spaces mencionado; no es necesario instalar.
Referencias
More resources
Reducir costos de implementación de modelos manteniendo el rendimiento con intercambio de memoria de GPU
Utiliza el intercambio de memoria de GPU (hot-swapping de modelos) para compartir GPUs entre varios LLM, reducir costos de GPU ociosas y mejorar el autoescalado manteniendo los SLA.
Haz ZeroGPU Spaces más rápido con la compilación ahead-of-time (AoT) de PyTorch
Descubre cómo la compilación AoT de PyTorch acelera ZeroGPU Spaces exportando un modelo compilado y recargándolo al instante, con cuantización FP8, formas dinámicas e integración con Spaces GPU.
Ajuste fino de gpt-oss para Precisión y Rendimiento con Entrenamiento Consciente de Cuantización (QAT)
Guía de afinado fino de gpt-oss usando SFT + QAT para recuperar precisión FP4 manteniendo la eficiencia, con upcasting a BF16, MXFP4, NVFP4 y despliegue con TensorRT-LLM.
Cómo los modelos de lenguaje pequeños son la clave para una IA agentica escalable
Explica cómo los modelos de lenguaje pequeños permiten IA agentica más rentable y flexible junto a LLMs, mediante NVIDIA NeMo y Nemotron Nano 2.
Cómo Escalar tus Agentes LangGraph en Producción de un Solo Usuario a 1,000 Compañeros
Guía para desplegar y escalar agentes LangGraph en producción usando NeMo Agent Toolkit, pruebas de carga y despliegue por fases para cientos a miles de usuarios.
NVFP4 Entrena con Precisión de 16 Bits y Velocidad y Eficiencia de 4 Bits
NVFP4 es un formato de datos de 4 bits que ofrece precisión similar a FP16 con el rendimiento y la eficiencia de memoria de 4 bits, extendido al preentrenamiento de grandes modelos de lenguaje. Este perfil aborda experimentos a nivel 12B, estabilidad y colaboraciones industriales.