AI Sheets : outil no‑code pour créer et enrichir des jeux de données avec des modèles open
Sources: https://huggingface.co/blog/aisheets
TL;DR
- AI Sheets est un outil open-source no‑code, à interface type tableur, pour construire, transformer et enrichir des jeux de données avec des modèles d’IA.
- Il s’exécute dans le navigateur via une Space Hugging Face ou peut être téléchargé et déployé localement depuis GitHub.
- Accès à des milliers de modèles du Hub via des Inference Providers ou des modèles locaux (y compris gpt-oss d’OpenAI) ; les modifications manuelles servent d’exemples few-shot.
Contexte et arrière‑plan
Hugging Face a présenté AI Sheets : une interface qui permet de travailler sur des datasets en utilisant des modèles d’IA sans écrire de code. L’outil reprend le paradigme d’une feuille de calcul où chaque nouvelle colonne est créée à partir d’un prompt en langage naturel qui peut référencer des colonnes existantes. AI Sheets est étroitement intégré au Hugging Face Hub et à l’écosystème de modèles open-source, avec la possibilité d’utiliser des modèles via des Inference Providers ou localement. L’approche privilégie l’expérimentation rapide : commencer avec un petit jeu de données pour affiner les prompts avant de lancer des pipelines de génération plus longs et coûteux. On peut essayer AI Sheets immédiatement dans la Space hébergée ou cloner le dépôt pour un déploiement local.
Ce qui est nouveau
AI Sheets apporte plusieurs capacités clés :
- Génération de datasets à partir d’une description en langage naturel (fonction “auto-dataset” ou “prompt-to-dataset”).
- Importation de datasets existants et génération de colonnes pour transformation, classification, analyse, enrichissement (avec recherche web si activée) et génération synthétique.
- Workflow itératif où les modifications manuelles et les validations sont ajoutées comme exemples few-shot pour améliorer les régénérations.
- Possibilité de comparer des modèles et d’utiliser une colonne juge qui emploie un LLM pour évaluer ou classer les réponses. Essayez la démo : https://huggingface.co/spaces/aisheets/sheets. Code source et déploiement local : https://github.com/huggingface/sheets.
Pourquoi cela compte (impact pour développeurs et entreprises)
AI Sheets facilite l’expérimentation centrée données via une interface familière et une automatisation pilotée par modèles. Impacts observés :
- Itération rapide sur prompts et formats de données : tester et ajuster sur peu d’exemples avant d’investir en calcul.
- Accès flexible aux modèles : possibilité d’utiliser des milliers de modèles du Hub via Inference Providers ou des modèles locaux ; l’annonce mentionne explicitement gpt-oss d’OpenAI.
- Nettoyage et enrichissement de données : normalisation de texte, extraction d’idées, catégorisation ou remplissage d’informations manquantes (ex. code postal) avec des prompts simples.
- Reproductibilité : l’export vers le Hub génère un fichier de configuration réutilisable pour des tâches de génération à grande échelle et des usages en aval. Pour les équipes qui préparent des données d’entraînement ou des pipelines, AI Sheets offre un moyen rapide de prototyper des transformations, comparer des modèles et capter des corrections humaines.
Détails techniques ou mise en œuvre
Interaction utilisateur
- Interface : AI Sheets présente les données sous forme de tableur éditable. Les nouvelles colonnes sont créées par des prompts qui référencent d’autres colonnes via la syntaxe
{{colonne}}. - Boucle d’itération : après génération, les cellules peuvent être modifiées ou aimées ; ces actions deviennent des exemples few-shot utilisés lors d’une régénération ou d’une extension de colonne.
- Configuration : possibilité de modifier le prompt, changer de modèle ou de fournisseur, et activer l’option “Search the web” pour des recherches externes avant régénération. Accès aux modèles et déploiement
- Démo hébergée : essayez AI Sheets sans installation sur https://huggingface.co/spaces/aisheets/sheets.
- Déploiement local : le code source est disponible sur https://github.com/huggingface/sheets. Pour une utilisation locale, Hugging Face recommande un abonnement PRO pour obtenir 20x d’usage mensuel d’inférence si vous souhaitez plus de capacité.
- Modèles : AI Sheets peut appeler des milliers de modèles du Hugging Face Hub via des Inference Providers ou utiliser des modèles locaux ; l’annonce cite gpt-oss d’OpenAI comme exemple. Export et montée en charge
- Export Hub : exporter un dataset vers le Hub produit un fichier de configuration décrivant les prompts et les few-shot issus des éditions/validations. Ce config peut être réutilisé pour créer des jeux de données plus importants via des jobs automatisés et pour réutiliser les prompts dans des applications en aval. Exemples pratiques
- Comparaison de modèles : importez un dataset de prompts et ajoutez une colonne par modèle, p. ex. “Answer the following:
{{prompt}}” ; ajoutez une colonne juge pour évaluer les réponses. - Nettoyage : ajoutez une colonne avec un prompt comme “Remove extra punctuation marks from the following text:
{{text}}” et régénérez après validation. - Classification/Analyse : prompts exemples : “Categorize the following text:
{{text}}” ou “Extract the most important ideas from the following:{{text}}”. - Enrichissement web : pour retrouver des codes postaux manquants, activez “Search the web” et utilisez un prompt se référant à la colonne d’adresse.
- Données synthétiques : générez une colonne de biographie professionnelle puis une colonne d’emails réalistes écrits par cette personne.
| Tâche | Exemple de prompt de colonne
|---
|---
|Réponse / comparaison | Answer the following:
{{prompt}}|Nettoyage texte | Remove extra punctuation marks from the following text:{{text}}|Classification | Categorize the following text:{{text}}|Extraction / analyse | Extract the most important ideas from the following:{{text}}|Enrichissement (web) | Find the zip code of the following address:{{address}}|
Points clés
- AI Sheets fournit une expérience no‑code de type tableur pour travailler des datasets avec des modèles ouverts ou locaux.
- Les corrections manuelles servent d’exemples few-shot pour améliorer les générations suivantes.
- Disponible en Space pour test immédiat et sur GitHub pour déploiement local ; l’export vers le Hub crée des configs réutilisables.
FAQ
-
Comment tester AI Sheets sans installation ?
Accédez à la démo hébergée : https://huggingface.co/spaces/aisheets/sheets.
-
Où trouver le code pour déployer localement ?
Le dépôt est disponible sur https://github.com/huggingface/sheets.
-
Quels modèles sont pris en charge ?
AI Sheets peut utiliser des milliers de modèles du Hugging Face Hub via des Inference Providers ou des modèles locaux ; l'annonce mentionne gpt-oss d'OpenAI.
-
Les modifications manuelles aident-elles la génération ?
Oui, les cellules éditées ou aimées sont utilisées comme exemples few-shot lors de la régénération.
Références
- Démo : https://huggingface.co/spaces/aisheets/sheets
- Code et deploy local : https://github.com/huggingface/sheets
- Exemple de dataset créé avec AI Sheets : https://huggingface.co/datasets/dvilasuero/jsvibes-qwen-gpt-oss-judged
- Annonce originale : https://huggingface.co/blog/aisheets
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence
Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Surveiller l’inférence par lot Bedrock d’AWS via les métriques CloudWatch
Apprenez à surveiller et optimiser les jobs d’inférence par lot Bedrock via CloudWatch, with alertes et tableaux de bord pour améliorer les performances, les coûts et l’exploitation.
Créer des flux de travail agentiques avec GPT OSS d’OpenAI sur SageMaker AI et Bedrock AgentCore
Vue d’ensemble complète sur le déploiement des modèles GPT OSS d’OpenAI sur SageMaker AI et Bedrock AgentCore pour alimenter un analyseur d’actions multi-agents avec LangGraph, incluant la quantification MXFP4 en 4 bits et une orchestration sans serveur.
Autodesk Research mène la CFD à vitesse Warp sur le NVIDIA GH200
Autodesk Research, Warp de NVIDIA et le GH200 démontrent une CFD Python-native avec XLB, atteignant environ 8x de vitesse et évoluant jusqu’à 50 milliards de cellules.