Hugging Face AI Sheets: ferramenta sem código para criar, transformar e enriquecer conjuntos de dados
Sources: https://huggingface.co/blog/aisheets, Hugging Face Blog
Visão geral
O Hugging Face AI Sheets é uma ferramenta sem código para construir, transformar e enriquecer conjuntos de dados com modelos de IA. É de código aberto, fortemente integrada ao Hugging Face Hub e pode ser implantada localmente ou na Hub. A interface é semelhante a uma planilha, projetada para experimentação rápida com conjuntos de dados pequenos antes de pipelines maiores ou mais caros. AI Sheets permite criar novas colunas por meio de prompts; você pode iterar quantas vezes for necessário e editar ou validar células para ensinar o modelo. É possível comparar modelos criando colunas por modelo e fornecendo prompts que referenciem colunas existentes. Também é possível usar um prompt de julgamento para avaliar respostas de modelos diferentes usando LLMs. Existem dois modos de uso: você pode importar um conjunto de dados existente ou gerar um conjunto de dados do zero descrevendo-o em linguagem natural. Por exemplo, você pode solicitar cidades do mundo com seus países e uma imagem, e o AI Sheets gerará automaticamente um conjunto de dados. A ferramenta oferece feedback rápido por meio da edição ou curtidas em células, que viram exemplos de poucos-shot quando regeneradas. AI Sheets suporta transformações, classificação, extração, enriquecimento e análise de dados por meio de prompts de IA. Pode enriquecer dados com informações ausentes solicitando localizar, por exemplo, o código postal de um endereço (a busca na web deve ser ativada). Também é possível gerar dados sintéticos descrevendo os dados-alvo e gerando campos adicionais, como e-mails profissionais realistas a partir de bios. A exportação para o Hub é suportada e, ao exportar, é gerado um arquivo de configuração que pode ser reutilizado para gerar mais dados com trabalhos HF usando scripts, ou para reutilizar prompts em aplicações futuras com os exemplos de poucos-shot incluídos. Se quiser escalar, é possível usar a configuração gerada para criar conjuntos de dados maiores via Hub. O AI Sheets oferece um caminho direto para experimentação e testes: comece com uma ideia ou um conjunto de dados pequeno, adicione colunas de IA com prompts, compare saídas de modelos, refine prompts e regenere conforme necessário. O sistema foi projetado para facilitar iteração, avaliação e colaboração, e vem com conjuntos de dados de exemplo e configurações que demonstram como combinar prompts de modelo, etapas de validação e prompts de avaliação. Para quem tem curiosidade sobre usos reais, o blog mostra fluxos de trabalho de exemplo envolvendo três colunas com modelos diferentes e uma coluna de juiz para comparar a qualidade. O projeto também suporta trabalhar com conjuntos de dados existentes do Hub para adicionar categorias ou usar um LLM como juiz para comparar saídas de modelos. Você pode começar sem instalar nada acessando o Hugging Face Spaces ou instalar localmente a partir do repositório GitHub. Para uso avançado, um plano PRO oferece uso estendido de inferência. Quando estiver pronto, você pode entrar em contato com a comunidade através do Hub ou de issues no GitHub com dúvidas e feedback.
Principais recursos
- Interface no-code, semelhante a planilha, para construir, transformar e enriquecer conjuntos de dados com modelos de IA.
- Integração com o Hugging Face Hub; acesso a milhares de modelos abertos via Inference Providers ou modelos locais (incluindo gpt-oss da OpenAI).
- Criar colunas de IA por prompts; iterar e regenerar; edições manuais e curtidas servem como exemplos de few-shot.
- Comparação entre modelos criando várias colunas e usando prompts de julgamento para avaliar resultados.
- Conjunto flexível de tarefas de dados: transformação, classificação, extração, enriquecimento e geração de dados sintéticos.
- Suporte para enriquecimento com busca na web (ativar Search) e a capacidade de exportar o conjunto final para o Hub com um arquivo de configuração.
- Dois modos de início: importar dados existentes ou descrever um conjunto de dados do zero para gerar automaticamente a estrutura e o conteúdo.
- Implantação local ou no Hub; assinatura PRO com uso aumentado.
- Exportação para o Hub e reutilização de prompts via configuração gerada para tarefas subsequentes e usos futuros.
Casos de uso comuns
- Testar modelos mais recentes nos seus dados: importe um conjunto, crie uma coluna por modelo e compare resultados usando prompts que referenciem os dados em cada coluna.
- Melhorar prompts rapidamente: edições ou curtidas viram exemplos de few-shot; regenere para propagar melhorias.
- Construir aplicações que respondam automaticamente a solicitações de clientes: crie colunas com prompts para gerar respostas e, opcionalmente, adicione uma coluna de juiz para comparar saídas.
- Transformar dados com prompts: remova pontuação, normalize o texto ou recrie conteúdo em uma coluna.
- Classificar e extrair ideias: adicione uma coluna para categorizar ou extrair ideias principais.
- Enriquecer conjuntos de dados: localizar informações ausentes como códigos postais solicitando, com busca na web ativada quando necessário.
- Gerar dados sintéticos: criar descrições e emails realistas a partir de prompts.
- Ampliar conjuntos de dados existentes do Hub: marcar e categorizar dados existentes com prompts adicionais e validar os resultados.
- Avaliar saídas de modelos: use um LLM como juiz para comparar modelos diferentes em uma tarefa.
- Exportar resultados para o Hub para reutilização e para automatizar tarefas subsequentes com a configuração gerada.
Setup & instalação
Experimente gratuitamente sem instalar nada em https://huggingface.co/spaces/aisheets/sheets. Para implantação local, consulte o repositório GitHub em https://github.com/huggingface/sheets. Prompts exatos de configuração não são fornecidos na fonte; veja as páginas vinculadas para instruções.
# Consulte instruções de configuração em:
# - https://huggingface.co/spaces/aisheets/sheets
# - https://github.com/huggingface/sheets
Quick start
Exemplo mínimo do blog:
- Prompt: cidades do mundo, juntamente com os países a que pertencem e uma imagem de marco para cada, gerada em estilo Ghibli.
- Resultado: AI Sheets criará automaticamente um conjunto de dados com três colunas; você pode adicionar mais linhas arrastando para baixo, editar as células para semear exemplos de few-shot e regenerar para propagar prompts e feedback.
- Em seguida, você pode exportar para o Hub para criar um arquivo de configuração, que pode ser reutilizado em execuções futuras ou alimentado em scripts para gerar conjuntos de dados maiores com trabalhos HF. Essa abordagem permite testar vários modelos rapidamente e iterar sobre prompts e a estrutura de dados antes de escalar.
Prós e contras
Prós:
- Ferramenta no-code, de código aberto, fortemente integrada ao Hub.
- Acesso a milhares de modelos abertos via Inference Providers ou modelos locais (incluindo gpt-oss).
- Iteração rápida por meio de prompts com exemplos de few-shot incorporados a partir de edições manuais e curtidas.
- Comparação de modelos e prompts de julgamento para avaliar saídas.
- Dois modos de início: importar dados ou gerar do zero.
- Exportação para o Hub e reutilização de prompts via configuração gerada.
- Implantação local ou no Hub; grátis para experimentar com Spaces. Contras:
- Não há uma lista explícita de desvantagens na fonte; depende do uso e da qualidade do modelo.
Alternatives
Não descrito na fonte.
Pricing or License
- Ferramenta de código aberto com plano PRO para uso estendido (20x uso de inferência por mês).
- Implantação gratuita em Spaces citada; não é necessária instalação.
References
More resources
Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Utilize o swap de memória da GPU (hot-swapping de modelos) para compartilhar GPUs entre múltiplos LLMs, reduzir custos de ociosidade e melhorar o autoscaling mantendo os SLAs.
Deixe os ZeroGPU Spaces mais rápidos com compilação ahead-of-time (AoT) do PyTorch
Descubra como a AoT do PyTorch acelera ZeroGPU Spaces exportando um modelo compilado e recarregando-o instantaneamente, com quantização FP8, formas dinâmicas e integração cuidadosa com o fluxo Spaces GPU.
Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)
Guia de fine-tuning do gpt-oss com SFT + QAT para recuperar a precisão em FP4 mantendo a eficiência, incluindo upcasting para BF16, MXFP4, NVFP4 e implantação com TensorRT-LLM.
Como Modelos de Linguagem Pequenos são a Chave para IA Agentica Escalável
Explora como modelos de linguagem pequenos permitem IA agentica mais barata, flexível e escalável, ao lado de LLMs, com NVIDIA NeMo e Nemotron Nano 2.
Como Escalar seus Agentes LangGraph em Produção de um Único Usuário para 1.000 Colegas
Guia para implantar e escalar agentes baseados em LangGraph em produção usando o NeMo Agent Toolkit, testes de carga e rollout por fases para centenas a milhares de usuários.
NVFP4 Treina com Precisão de 16 Bits e Velocidade e Eficiência de 4 Bits
NVFP4 é um formato de dados de 4 bits que oferece precisão equivalente a FP16 com a vazão e eficiência de memória de 4 bits, estendido ao pré-treinamento de modelos de linguagem grandes. Este perfil aborda experimentos em escala 12B, estabilidade e colaborações.