Inovações de Hardware da NVIDIA e Contribuições de Código Aberto moldam a IA
Sources: https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai, https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/, NVIDIA Dev Blog
TL;DR
- A arquitetura de GPU Blackwell da NVIDIA combina Cores de Tensor de quinta geração com o formato de ponto flutuante de 4 bits (NVFP4) e NVLink-72 para oferecer computação maciça com alta precisão para cargas de IA exigentes.
- Esse hardware é apoiado por um ecossistema de software aberto abrangente: mais de 1.000 ferramentas no NVIDIA GitHub e 450+ modelos com 80+ conjuntos de dados na Hugging Face, cobrindo desde preparação de dados até implantação.
- Modelos abertos, conjuntos de dados e frameworks permitem escalar IA do protótipo à produção dentro de um ecossistema inteiramente aberto, com pipelines de ponta a ponta que vão de RAPIDS a Dynamo.
- Ganhos de desempenho do mundo real incluem até 4x mais interatividade no GPT-OSS 120B em GPUs Blackwell B200 e até 2,5x de throughput por GPU no DeepSeek-R1 671B com GB200 NVL72; Nemotron atinge até 6x de throughput em relação a modelos abertos concorrentes. NVIDIA Blog
- O ecossistema aberto é reforçado por ferramentas como TensorRT-LLM, CUTLASS e Dynamo, permitindo inferência escalável entre PyTorch, TensorRT-LLM, vLLM e SGLang. NVIDIA Blog
Contexto e antecedentes
Modelos de IA abertos como Cosmos, DeepSeek, Gemma, GPT-OSS, Llama, Nemotron, Phi, Qwen e muitos outros são apresentados como fundamentos da inovação em IA. Esses modelos democratizam IA ao disponibilizar pesos, arquiteturas e metodologias de treinamento para pesquisadores, startups e organizações mundialmente. Criadores podem aprender e construir em técnicas como mixture-of-experts (MoE), novos kernels de atenção e treinamento pós-modelagem para raciocínio—sem começar do zero. A NVIDIA enquadra essa democratização como ampliada pelo acesso amplo ao hardware e a software de código aberto projetado para acelerar IA desde a nuvem e data center até dispositivos de borda. NVIDIA Blog A arquitetura Blackwell é descrita como um superchip de IA construído sob medida, com Cores de Tensor de quinta geração, NVFP4 (4-bit FP) para alto rendimento com precisão, além de NVLink‑72 para comunicação ultrarrápida entre GPUs e escalonamento em configurações multinúcleo. As GPUs Blackwell também incluem a segunda geração de Transformer Engines e NVLink Fusion para melhorar desempenho e eficiência. NVIDIA Blog A estratégia enfatiza a otimização de todo o stack de software para entregar o máximo desempenho em IA: ferramentas, modelos e conjuntos de dados abertos são liberados para acelerar o desenvolvimento em nível de sistema. A NVIDIA aponta mais de 1.000 ferramentas de código aberto disponíveis em repositórios do NVIDIA GitHub, além de coleções Hugging Face com 450+ modelos e 80+ conjuntos de dados sob licenças permissivas. O stack de software aberto abrange desde processamento de dados até frameworks completos de desenvolvimento e implantação de IA, com bibliotecas CUDA-X acelerando ecossistemas inteiros de ferramentas. NVIDIA Blog Como parte de fluxos de trabalho de IA ponta a ponta, o RAPIDS acelera o processamento de dados e ETL, permitindo que cargas de IA rodem totalmente em GPUs, eliminando gargalos de CPU. O NeMo oferece treinamento de ponta a ponta para modelos de linguagem grandes (LLMs), modelos multimodais e de fala, escalável de um único GPU a clusters com milhares de nós. PhysicsNeMo introduz ML guiado por física para incorporar leis físicas em redes neurais, acelerando digital twins e simulações científicas. BioNeMo traz IA generativa para ciências da vida, com modelos pré-treinados como microserviços NIM acelerados e ferramentas para predição de estruturas de proteínas, design molecular e descoberta de fármacos. Esses frameworks utilizam NCCL para comunicação multi-GPU e multi-nó. NVIDIA Blog Además, NVIDIA estende PyTorch com capacidades generativas avançadas por meio de NeMo, PhysicsNeMo e BioNeMo, permitindo aos desenvolvedores construir, personalizar e implantar aplicações de IA generativa poderosas além de fluxos de aprendizado profundo padrão. Após o treinamento, os modelos são servidos com eficiência usando a pilha de inferência TensorRT (incluindo TensorRT-LLM e o TensorRT Model Optimizer). TensorRT-LLM aproveita as instruções Blackwell e o formato FP4 para ampliar ainda mais o desempenho de inferência em grandes modelos. Para desenvolvedores de kernels customizados, o CUTLASS oferece templates em CUDA C++ para facilitar a escrita de kernels de alto desempenho para GEMM, o backbone do aprendizado profundo. NVIDIA Blog NVIDIA Dynamo facilita o atendimento de usuários em escala, oferecendo uma plataforma de inferência agnóstica de frameworks que suporta PyTorch, TensorRT-LLM, vLLM e SGLang, projetada para escalar o raciocínio de IA desagregando as diferentes etapas de inferência e usando planejamento inteligente orientado a LLM. Dynamo também inclui NIXL, uma biblioteca de comunicação de alta taxa de transferência e baixa latência otimizada para ambientes de inferência de IA. Os resultados mais recentes do Dynamo 0.4 com TensorRT-LLM são promissores: para sequências de entrada longas, entrega até 4x de interatividade para o modelo GPT-OSS 120B em GPUs Blackwell B200, sem tradeoffs de throughput; com DeepSeek-R1 671B em GB200 NVL72, alcança 2,5x de throughput por GPU sem aumentar custos de inferência. NVIDIA Blog
O que há de novo
A NVIDIA destaca uma abordagem abrangente de código aberto que combina hardware de ponta com um stack de software amplo. A linha Blackwell traz precisão NVFP4 e interconexões de próxima geração (NVLink-72), além de Transformers engines de segunda geração e NVLink Fusion para permitir workloads de IA escaláveis e eficientes. O software amplia modelos abertos e datasets no Hugging Face, com centenas de modelos e milhares de datasets distribuídos sob licenças permissivas, incluindo a NVIDIA Open Model License. Em adição, Cosmos oferece modelos generativos e ferramentas para geração e compreensão de mundos, com pipelines de tokenizadores released under licenças abertas para acelerar o desenvolvimento de IA física. NVIDIA Blog O pipeline agora começa com RAPIDS para preparação de dados e analytics, permitindo aceleração GPU de todo o fluxo até o treinamento de modelos com NeMo, PhysicsNeMo e BioNeMo. Modelos podem ser treinados e ajustados em escala para ecossistemas Hugging Face/PyTorch e Megatron, seguidos de implantação otimizada via TensorRT e Dynamo. Modelos e datasets abertos estão disponíveis no Hugging Face, com licenças abertas para fomentar adoção e colaboração. Cosmos, voltado a tarefas de IA física, complementa os SDKs Omniverse e as bibliotecas OpenUSD para simulações de robótica e visão computacional com integração em pipelines de sim-to-real. NVIDIA Blog NVIDIA também enfatiza suas contribuições de código aberto para projetos centrais e organizações, incluindo Linux Kernel, Python, PyTorch, Kubernetes, JAX e ROS, além de participação em fundações como Linux Foundation, PyTorch Foundation, Python Software Foundation, Cloud Native Computing Foundation, Open Source Robotics Foundation e The Alliance for OpenUSD. NVIDIA Blog
Por que isso importa (impacto para desenvolvedores/empresas)
- Para desenvolvedores, o ecossistema oferece stack de software aberto em rápida evolução com milhares de ferramentas e centenas de modelos pré-treinados para experimentar e personalizar, reduzindo o tempo de prototipagem em hardware de ponta como Blackwell. NVIDIA Blog
- Para empresas, a capacidade de escalar inferência e raciocínio com Dynamo e TensorRT-LLM, aliada a comunicação eficiente entre GPUs (NCCL), permite implantações de IA em produção em escala. Resultados reais citados incluem interatividade mais rápida e maior throughput por GPU em grandes modelos, com ganhos de desempenho comprovados. NVIDIA Blog
- Para pesquisadores, PhysicsNeMo e BioNeMo trazem ML informado por física e IA voltada para biologia, acelerando digital twins, simulações e descobertas na área biológica, tudo dentro de um ecossistema aberto e extensível. NVIDIA Blog
Detalhes técnicos ou Implementação
- Fundamentos de hardware: arquitetura Blackwell com Cores de Tensor de quinta geração, NVFP4 (4-bit FP), NVLink-72, e Transformer Engines de segunda geração, além de NVLink Fusion para escalabilidade e eficiência. NVIDIA Blog
- Ecossistema de código aberto: mais de 1.000 ferramentas no NVIDIA GitHub e 450+ modelos com 80+ datasets no Hugging Face. O stack abrange processamento de dados (RAPIDS) até treinamento de modelos (NeMo, PhysicsNeMo, BioNeMo) com suporte a PyTorch, Megatron e Hugging Face. NVIDIA Blog
- Inferência e implantação: TensorRT com TensorRT-LLM e o TensorRT Model Optimizer; CUTLASS para kernels GEMM de alto desempenho; Dynamo para atendimento de inferência em escala com NIXL para movimentos de dados de alta taxa. Resultados reais demonstram melhorias de interatividade e throughput para grandes modelos. NVIDIA Blog
- Modelos abertos e sim-to-real: Cosmos (Predict, Transfer, Reason) com tokenizadores e pipelines; Omniverse SDKs e OpenUSD suportam simulações de física e dados para ambientes industriais e robótica; pipelines de sim-to-real para IA física. NVIDIA Blog
- Dados abertos: RAPIDS acelera processamento bruto de dados e ETL; CUDA-X bibliotecas conectam ferramentas para acelerar todo o ciclo de vida de IA em Blackwell. NVIDIA Blog
Principais conclusões
- O ecossistema de IA da NVIDIA combina inovações de hardware (Blackwell) com um stack de código aberto amplo (RAPIDS, NeMo, Cosmos, Dynamo, TensorRT, CUTLASS, etc.).
- Modelos abertos e datasets com licenças permissivas aceleram colaboração e implantação em grande escala.
- Pipelines ponta a ponta — de preparação de dados a treinamento e serviço — são projetadas para operar inteiramente dentro de um ecossistema aberto em hardware Blackwell.
- Ganhos de desempenho concretos demonstram o valor dessa abordagem: interatividade mais rápida e maior throughput em grandes modelos com Dynamo e TensorRT-LLM, além de maior eficiência por GPU com NVFP4. NVIDIA Blog
FAQ
-
O que torna o Blackwell único para workloads de IA?
Ele combina Cores de Tensor de quinta geração, NVFP4 de 4-bit FP, NVLink‑72 para interconexão ultrarrápida entre GPUs e Transformers Engines de segunda geração, além de NVLink Fusion para escalabilidade e eficiência. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)
-
Como o Dynamo se encaixa na stack de IA?
Dynamo é uma plataforma de serving de inferência agnóstica de frameworks, projetada para escalar raciocínio de IA ao desagregar estágios de inferência e com agendamento inteligente orientado a LLM; suporta PyTorch, TensorRT-LLM, vLLM e SGLang. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)
-
Onde os desenvolvedores podem acessar ferramentas abertas e modelos?
través dos repositórios NVIDIA GitHub e das coleções Hugging Face, que hospedam milhares de ferramentas, modelos e datasets sob licenças permissivas. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)
-
O que é Cosmos e por que é importante?
Cosmos é um conjunto de modelos generativos e ferramentas para geração e compreensão de mundos, com foco em IA física para aplicações de simulação e robótica. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)
Referências
- NVIDIA Dev Blog: NVIDIA Hardware Innovations and Open Source Contributions Are Shaping AI. https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência
A Scaleway é agora um Fornecedor de Inferência compatível no Hugging Face Hub, permitindo inferência serverless diretamente nas páginas de modelo com as SDKs JS e Python. Acesse modelos abertos populares com operações escaláveis e baixa latência.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo
A Microsoft divulga planos para um data center Fairwater AI de 1,2 milhão de pés quadrados no Wisconsin, com centenas de milhares de GPUs Nvidia GB200. projeto de US$ 3,3 bilhões promete treinamento de IA em escala sem precedentes.