Skip to content
Inovações de Hardware da NVIDIA e Contribuições de Código Aberto moldam a IA
Source: developer.nvidia.com

Inovações de Hardware da NVIDIA e Contribuições de Código Aberto moldam a IA

Sources: https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai, https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/, NVIDIA Dev Blog

TL;DR

  • A arquitetura de GPU Blackwell da NVIDIA combina Cores de Tensor de quinta geração com o formato de ponto flutuante de 4 bits (NVFP4) e NVLink-72 para oferecer computação maciça com alta precisão para cargas de IA exigentes.
  • Esse hardware é apoiado por um ecossistema de software aberto abrangente: mais de 1.000 ferramentas no NVIDIA GitHub e 450+ modelos com 80+ conjuntos de dados na Hugging Face, cobrindo desde preparação de dados até implantação.
  • Modelos abertos, conjuntos de dados e frameworks permitem escalar IA do protótipo à produção dentro de um ecossistema inteiramente aberto, com pipelines de ponta a ponta que vão de RAPIDS a Dynamo.
  • Ganhos de desempenho do mundo real incluem até 4x mais interatividade no GPT-OSS 120B em GPUs Blackwell B200 e até 2,5x de throughput por GPU no DeepSeek-R1 671B com GB200 NVL72; Nemotron atinge até 6x de throughput em relação a modelos abertos concorrentes. NVIDIA Blog
  • O ecossistema aberto é reforçado por ferramentas como TensorRT-LLM, CUTLASS e Dynamo, permitindo inferência escalável entre PyTorch, TensorRT-LLM, vLLM e SGLang. NVIDIA Blog

Contexto e antecedentes

Modelos de IA abertos como Cosmos, DeepSeek, Gemma, GPT-OSS, Llama, Nemotron, Phi, Qwen e muitos outros são apresentados como fundamentos da inovação em IA. Esses modelos democratizam IA ao disponibilizar pesos, arquiteturas e metodologias de treinamento para pesquisadores, startups e organizações mundialmente. Criadores podem aprender e construir em técnicas como mixture-of-experts (MoE), novos kernels de atenção e treinamento pós-modelagem para raciocínio—sem começar do zero. A NVIDIA enquadra essa democratização como ampliada pelo acesso amplo ao hardware e a software de código aberto projetado para acelerar IA desde a nuvem e data center até dispositivos de borda. NVIDIA Blog A arquitetura Blackwell é descrita como um superchip de IA construído sob medida, com Cores de Tensor de quinta geração, NVFP4 (4-bit FP) para alto rendimento com precisão, além de NVLink‑72 para comunicação ultrarrápida entre GPUs e escalonamento em configurações multinúcleo. As GPUs Blackwell também incluem a segunda geração de Transformer Engines e NVLink Fusion para melhorar desempenho e eficiência. NVIDIA Blog A estratégia enfatiza a otimização de todo o stack de software para entregar o máximo desempenho em IA: ferramentas, modelos e conjuntos de dados abertos são liberados para acelerar o desenvolvimento em nível de sistema. A NVIDIA aponta mais de 1.000 ferramentas de código aberto disponíveis em repositórios do NVIDIA GitHub, além de coleções Hugging Face com 450+ modelos e 80+ conjuntos de dados sob licenças permissivas. O stack de software aberto abrange desde processamento de dados até frameworks completos de desenvolvimento e implantação de IA, com bibliotecas CUDA-X acelerando ecossistemas inteiros de ferramentas. NVIDIA Blog Como parte de fluxos de trabalho de IA ponta a ponta, o RAPIDS acelera o processamento de dados e ETL, permitindo que cargas de IA rodem totalmente em GPUs, eliminando gargalos de CPU. O NeMo oferece treinamento de ponta a ponta para modelos de linguagem grandes (LLMs), modelos multimodais e de fala, escalável de um único GPU a clusters com milhares de nós. PhysicsNeMo introduz ML guiado por física para incorporar leis físicas em redes neurais, acelerando digital twins e simulações científicas. BioNeMo traz IA generativa para ciências da vida, com modelos pré-treinados como microserviços NIM acelerados e ferramentas para predição de estruturas de proteínas, design molecular e descoberta de fármacos. Esses frameworks utilizam NCCL para comunicação multi-GPU e multi-nó. NVIDIA Blog Además, NVIDIA estende PyTorch com capacidades generativas avançadas por meio de NeMo, PhysicsNeMo e BioNeMo, permitindo aos desenvolvedores construir, personalizar e implantar aplicações de IA generativa poderosas além de fluxos de aprendizado profundo padrão. Após o treinamento, os modelos são servidos com eficiência usando a pilha de inferência TensorRT (incluindo TensorRT-LLM e o TensorRT Model Optimizer). TensorRT-LLM aproveita as instruções Blackwell e o formato FP4 para ampliar ainda mais o desempenho de inferência em grandes modelos. Para desenvolvedores de kernels customizados, o CUTLASS oferece templates em CUDA C++ para facilitar a escrita de kernels de alto desempenho para GEMM, o backbone do aprendizado profundo. NVIDIA Blog NVIDIA Dynamo facilita o atendimento de usuários em escala, oferecendo uma plataforma de inferência agnóstica de frameworks que suporta PyTorch, TensorRT-LLM, vLLM e SGLang, projetada para escalar o raciocínio de IA desagregando as diferentes etapas de inferência e usando planejamento inteligente orientado a LLM. Dynamo também inclui NIXL, uma biblioteca de comunicação de alta taxa de transferência e baixa latência otimizada para ambientes de inferência de IA. Os resultados mais recentes do Dynamo 0.4 com TensorRT-LLM são promissores: para sequências de entrada longas, entrega até 4x de interatividade para o modelo GPT-OSS 120B em GPUs Blackwell B200, sem tradeoffs de throughput; com DeepSeek-R1 671B em GB200 NVL72, alcança 2,5x de throughput por GPU sem aumentar custos de inferência. NVIDIA Blog

O que há de novo

A NVIDIA destaca uma abordagem abrangente de código aberto que combina hardware de ponta com um stack de software amplo. A linha Blackwell traz precisão NVFP4 e interconexões de próxima geração (NVLink-72), além de Transformers engines de segunda geração e NVLink Fusion para permitir workloads de IA escaláveis e eficientes. O software amplia modelos abertos e datasets no Hugging Face, com centenas de modelos e milhares de datasets distribuídos sob licenças permissivas, incluindo a NVIDIA Open Model License. Em adição, Cosmos oferece modelos generativos e ferramentas para geração e compreensão de mundos, com pipelines de tokenizadores released under licenças abertas para acelerar o desenvolvimento de IA física. NVIDIA Blog O pipeline agora começa com RAPIDS para preparação de dados e analytics, permitindo aceleração GPU de todo o fluxo até o treinamento de modelos com NeMo, PhysicsNeMo e BioNeMo. Modelos podem ser treinados e ajustados em escala para ecossistemas Hugging Face/PyTorch e Megatron, seguidos de implantação otimizada via TensorRT e Dynamo. Modelos e datasets abertos estão disponíveis no Hugging Face, com licenças abertas para fomentar adoção e colaboração. Cosmos, voltado a tarefas de IA física, complementa os SDKs Omniverse e as bibliotecas OpenUSD para simulações de robótica e visão computacional com integração em pipelines de sim-to-real. NVIDIA Blog NVIDIA também enfatiza suas contribuições de código aberto para projetos centrais e organizações, incluindo Linux Kernel, Python, PyTorch, Kubernetes, JAX e ROS, além de participação em fundações como Linux Foundation, PyTorch Foundation, Python Software Foundation, Cloud Native Computing Foundation, Open Source Robotics Foundation e The Alliance for OpenUSD. NVIDIA Blog

Por que isso importa (impacto para desenvolvedores/empresas)

  • Para desenvolvedores, o ecossistema oferece stack de software aberto em rápida evolução com milhares de ferramentas e centenas de modelos pré-treinados para experimentar e personalizar, reduzindo o tempo de prototipagem em hardware de ponta como Blackwell. NVIDIA Blog
  • Para empresas, a capacidade de escalar inferência e raciocínio com Dynamo e TensorRT-LLM, aliada a comunicação eficiente entre GPUs (NCCL), permite implantações de IA em produção em escala. Resultados reais citados incluem interatividade mais rápida e maior throughput por GPU em grandes modelos, com ganhos de desempenho comprovados. NVIDIA Blog
  • Para pesquisadores, PhysicsNeMo e BioNeMo trazem ML informado por física e IA voltada para biologia, acelerando digital twins, simulações e descobertas na área biológica, tudo dentro de um ecossistema aberto e extensível. NVIDIA Blog

Detalhes técnicos ou Implementação

  • Fundamentos de hardware: arquitetura Blackwell com Cores de Tensor de quinta geração, NVFP4 (4-bit FP), NVLink-72, e Transformer Engines de segunda geração, além de NVLink Fusion para escalabilidade e eficiência. NVIDIA Blog
  • Ecossistema de código aberto: mais de 1.000 ferramentas no NVIDIA GitHub e 450+ modelos com 80+ datasets no Hugging Face. O stack abrange processamento de dados (RAPIDS) até treinamento de modelos (NeMo, PhysicsNeMo, BioNeMo) com suporte a PyTorch, Megatron e Hugging Face. NVIDIA Blog
  • Inferência e implantação: TensorRT com TensorRT-LLM e o TensorRT Model Optimizer; CUTLASS para kernels GEMM de alto desempenho; Dynamo para atendimento de inferência em escala com NIXL para movimentos de dados de alta taxa. Resultados reais demonstram melhorias de interatividade e throughput para grandes modelos. NVIDIA Blog
  • Modelos abertos e sim-to-real: Cosmos (Predict, Transfer, Reason) com tokenizadores e pipelines; Omniverse SDKs e OpenUSD suportam simulações de física e dados para ambientes industriais e robótica; pipelines de sim-to-real para IA física. NVIDIA Blog
  • Dados abertos: RAPIDS acelera processamento bruto de dados e ETL; CUDA-X bibliotecas conectam ferramentas para acelerar todo o ciclo de vida de IA em Blackwell. NVIDIA Blog

Principais conclusões

  • O ecossistema de IA da NVIDIA combina inovações de hardware (Blackwell) com um stack de código aberto amplo (RAPIDS, NeMo, Cosmos, Dynamo, TensorRT, CUTLASS, etc.).
  • Modelos abertos e datasets com licenças permissivas aceleram colaboração e implantação em grande escala.
  • Pipelines ponta a ponta — de preparação de dados a treinamento e serviço — são projetadas para operar inteiramente dentro de um ecossistema aberto em hardware Blackwell.
  • Ganhos de desempenho concretos demonstram o valor dessa abordagem: interatividade mais rápida e maior throughput em grandes modelos com Dynamo e TensorRT-LLM, além de maior eficiência por GPU com NVFP4. NVIDIA Blog

FAQ

  • O que torna o Blackwell único para workloads de IA?

    Ele combina Cores de Tensor de quinta geração, NVFP4 de 4-bit FP, NVLink‑72 para interconexão ultrarrápida entre GPUs e Transformers Engines de segunda geração, além de NVLink Fusion para escalabilidade e eficiência. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)

  • Como o Dynamo se encaixa na stack de IA?

    Dynamo é uma plataforma de serving de inferência agnóstica de frameworks, projetada para escalar raciocínio de IA ao desagregar estágios de inferência e com agendamento inteligente orientado a LLM; suporta PyTorch, TensorRT-LLM, vLLM e SGLang. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)

  • Onde os desenvolvedores podem acessar ferramentas abertas e modelos?

    través dos repositórios NVIDIA GitHub e das coleções Hugging Face, que hospedam milhares de ferramentas, modelos e datasets sob licenças permissivas. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)

  • O que é Cosmos e por que é importante?

    Cosmos é um conjunto de modelos generativos e ferramentas para geração e compreensão de mundos, com foco em IA física para aplicações de simulação e robótica. [NVIDIA Blog](https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/)

Referências

More news