Dimensionando Fábricas de IA com Óptica Co-Packaged para Melhor Eficiência de Energia
Sources: https://developer.nvidia.com/blog/scaling-ai-factories-with-co-packaged-optics-for-better-power-efficiency, developer.nvidia.com
TL;DR
- Óptica co-packaged integra o motor óptico diretamente no pacote do switch, reduzindo drasticamente a perda elétrica e a potência por interface.
- Os sistemas Quantum-X Photonics InfiniBand e Spectrum-X Photonics buscam oferecer largura de banda sem precedentes, latência ultrabaixa e maior confiabilidade para fábricas de IA.
- A arquitetura reduz a perda elétrica de cerca de 22 dB para ~4 dB e diminui o consumo de energia para até 9W por interface.
- Melhorias de eficiência de energia em 3,5x e até 10x na resiliência, com métricas de implantação mais rápidas como tempo para ligar 1,3x mais rápido.
- Disponibilidade prevista: switches Quantum-X InfiniBand no início de 2026 e Spectrum-X Ethernet no segundo semestre de 2026.
Contexto e antecedentes
À medida que a IA remodela o cenário de computação, as redes tornaram-se a coluna vertebral crítica dos data centers. O treinamento de grandes modelos de linguagem e outras cargas de IA requerem mais do que apenas poder de processamento: exigem redes rápidas, com alta capacidade e inteligente para sustentar tráfego de altas taxas entre milhares de GPUs. A NVIDIA descreve uma transição de infraestruturas tradicionais centradas em CPU para fábricas de IA movidas por GPUs, com redes definidas pela própria IA. Para atender a picos de tráfego e interconexões densas, a NVIDIA desenvolveu um portfólio abrangente de rede — Spectrum-X Ethernet, NVIDIA Quantum InfiniBand e plataformas BlueField — que orquestram computação e comunicação para data centers de IA escaláveis, eficientes e resilientes. Este contexto enquadra a evolução de topologia e tecnologia, culminando com o uso de óptica co-packaged para atender às crescentes exigências de interconexão. Em data centers tradicionais, switches de nível 1 ficam no rack de cada servidor, com conectores de cobre diretos, atendendo a necessidades de rede modestas. Fábricas de IA modernas, por outro lado, utilizam racks ultradensos de computação e milhares de GPUs operando juntas em um único trabalho, exigindo largura de banda máxima e latência mínima por todo o data center. Isso impulsiona uma topologia em que o switch de Nível 1 fica no fim da fila, aumentando a distância entre servidores e switches e tornando a rede óptica essencial. Consequentemente, a demanda por componentes ópticos e energia aumenta para suportar conexões NIC-switch e switch-switch, sinalizando uma mudança fundamental no perfil físico e energético do data center. Arquiteturas tradicionais dependem de transceptores modulares e de caminhos elétricos longos do ASIC do switch até a PCB e além, o que acarreta perdas elétricas significativas e maior consumo de energia, chegando a cerca de 22 dB para canais de 200 Gbps. Esse caminho fragmentado exige processamento de sinal digital complexo e múltiplos componentes ativos, elevando o consumo de energia (frequentemente 30W por interface) e o número de pontos de falha potenciais. A abundância de módulos e conexões não apenas aumenta o consumo de energia e a contagem de componentes, mas também compromete a confiabilidade durante a escalabilidade das implantações de IA. Em contraste, switches com óptica co-packaged (CPO) integram o motor óptico diretamente ao pacote do switch. Conecta-se a fibra diretamente com o motor óptico que fica ao lado do ASIC, reduzindo a perda elétrica para cerca de 4 dB e cortando o uso de energia para níveis tão baixos quanto 9W. Ao simplificar o caminho do sinal e eliminar interfaces desnecessárias, esse design melhora drasticamente a integridade do sinal, a confiabilidade e a eficiência energética — exatamente o que é necessário para fábricas de IA de alta densidade e alto desempenho. A NVIDIA projetou sistemas baseados em CPO para atender demandas sem precedentes de fábricas de IA. Integrando motores ópticos diretamente ao ASIC do switch, as novas soluções NVIDIA Quantum-X Photonics e Spectrum-X Photonics substituem transceivers legados com pluggable. As novas ofertas simplificam o caminho de sinal para desempenho, eficiência e confiabilidade aprimorados. Essas inovações não apenas batem recordes de largura de banda e densidade de portas, mas também alteram o desenho físico e econômico dos data centers. Com a introdução de Quantum-X InfiniBand Photonics, a NVIDIA eleva a tecnologia de switches InfiniBand a novos patamares. A plataforma NVIDIA Quantum-X Photonics aproveita a fotônica de silício integrada para alcançar largura de banda incomparável, baixa latência operacional e resiliência operacional. O design de óptica co-packaged reduz o consumo de energia, melhora a confiabilidade e permite implantação rápida, atendendo às demandas maciças de interconexão de workloads de IA de grande escala. Expansão da revolução CPO para Ethernet chega com NVIDIA Spectrum-X Photonics, projetado para tarefas geradas por IA e treinamentos de grande escala de LLM. Os switches Spectrum-X Photonics incluem duas plataformas com chassis resfriados a líquido baseadas no Spectrum-6 ASIC e movidos por fotônica de silício da NVIDIA, reduzindo drasticamente o número de componentes discretos e interfaces elétricas. O resultado é um ganho significativo de eficiência energética e uma maior resiliência na operação. A coexistência de componentes ópticos avançados e parceiros de integração robustos cria uma infraestrutura de rede capaz de evoluir com as necessidades de IA. As informações de disponibilidade indicam um cronograma claro: switches Quantum-X InfiniBand estão previstos para o início de 2026, e switches Spectrum-X Ethernet devem chegar na segunda metade de 2026. A NVIDIA posiciona essas plataformas como uma mudança de necessidade para centros de dados hiperescalados que exigem implantação mais rápida e confiabilidade robusta para cargas de trabalho de IA autônoma. Um próximo post da série no blog explorará a arquitetura e o funcionamento dos motores de fotônica usados em Quantum-X Photonics e Spectrum-X Photonics, incluindo avanços em integração no chip e esquemas de modulação.
Por que isso importa (impacto para desenvolvedores/empresas)
Para desenvolvedores e empresas que constroem e implantam IA em escala, a óptica co-packaged representa um ponto de inflexão potencial em eficiência de energia e confiabilidade de data centers. A integração direta do motor óptico reduz o número de componentes e as perdas elétricas associadas a interconexões densas. Menor consumo de energia por interface implica menos calor gerado e, potencialmente, menor custo total de propriedade em implantações de IA densas. As simplificações de engenharia resultantes de menos interfaces também podem melhorar a integridade do sinal e a confiabilidade em grandes fábricas de IA. Do ponto de vista de implantação, a abordagem CPO promete inicialização mais rápida e menos complexidade de manutenção. A NVIDIA cita tempo para ligar 1,3x mais rápido e tempo para o primeiro token de IA mais rápido no Spectrum-X Photonics, sugerindo que operadores podem obter ganhos de desempenho e produtividade além da largura de banda bruta. A capacidade de alcançar interconexões muito rápidas e densas com óptica integrada também apoia as demandas de cargas de trabalho de IA autônomas, onde as necessidades de interconexão podem superar arquitetura baseada em cobre ou transceptores modulares. O impacto mais amplo se estende à economia e à resiliência dos data centers. Substituir transceptores modulares legados por motores ópticos co-packaged reduz o número de interfaces, diminuindo pontos potenciais de falha. Os ganhos de eficiência de energia de 3,5x e a melhoria de até 10x na resiliência citados pela NVIDIA destacam não apenas economias de energia, mas também maior confiabilidade operacional em ambientes de IA em larga escala.
Detalhes técnicos ou Implementação
No núcleo da óptica co-packaged está a integração do motor óptico diretamente ao pacote do switch. Esta configuração permite a conexão de fibra diretamente ao motor óptico ao lado do ASIC, encurtando drasticamente o caminho do sinal e eliminando várias interfaces elétricas. A arquitetura tradicional, com o sinal percorrendo caminhos elétricos longos do ASIC até a PCB e além, implica perdas significativas e maior consumo de energia, com perdas de até ~22 dB para canais de 200 Gbps e consumo de energia por interface de cerca de 30W. A abordagem CPO mitiga esses problemas reduzindo a perda elétrica para ~4 dB e reduzindo o consumo de energia por interface para cerca de 9W. Os sistemas com CPO da NVIDIA são apresentados principalmente em duas famílias de produtos:
- Quantum-X Photonics (InfiniBand): integra motores ópticos ao ASIC de switch InfiniBand usando fotônica de silício para alcançar largura de banda muito alta, latência ultra-baixa e maior resiliência operacional. O design reduz o consumo de energia e simplifica considerações de confiabilidade, permitindo que cargas de IA escalem com mais eficiência no nível do data center.
- Spectrum-X Photonics (Ethernet): construído em torno do ASIC Spectrum-6, esses switches Ethernet são projetados para cargas de IA gerativas e treinamentos/inferência de LLM em grande escala. Eles vêm em dois chassis resfriados a líquido, com fotônica de silício da NVIDIA, reduzindo drasticamente o número de componentes discretos e interfaces elétricas. Isso resulta em ganhos significativos de eficiência energética e maior resiliência. Principais aspectos arquitetônicos e de desempenho incluem:
- motores ópticos integrados ao pacote do switch, reduzindo caminhos elétricos e perdas.
- conexão de fibra direta ao motor óptico ao lado do ASIC, com consumo de energia de até 9W por interface.
- reduções substanciais de perda de sinal, de ~22 dB para ~4 dB para canais de 200 Gbps, viabilizando operações mais eficientes e processamento de sinal digital simplificado.
- capacidades de alto desempenho: largura de banda de até 409,6 Tb/s e 512 portas a 800 Gb/s, com resfriamento a líquido para ambientes densos de IA.
- duas linhas de produto com focos distintos: Quantum-X InfiniBand Photonics para interconexões de alto desempenho e Spectrum-X Photonics para cargas Ethernet de IA. Os prazos de disponibilidade reforçam o caráter transformador desta tecnologia: switches Quantum-X InfiniBand estão previstos para o início de 2026, enquanto switches Spectrum-X Ethernet chegam na segunda metade de 2026. A NVIDIA posiciona essas plataformas como uma mudança de inovação para necessidade em data centers hiperescalados que exigem implantação mais rápida e confiabilidade robusta para cargas de IA autonômicas. Um próximo post da série explorará a arquitetura e o funcionamento dos motores de fotônica que impulsionam Quantum-X Photonics e Spectrum-X Photonics, incluindo avanços na integração no chip e esquemas de modulação.
Tabelas: destaques comparativos
| Característica da arquitetura | Arquitetura tradicional com óptica removível | Ótica co-packaged (CPO) |
|---|---|---|
| Perda elétrica (exemplo canal de 200 Gbps) | até 22 dB | ~4 dB |
| Potência por interface | ~30W | |
| até 9W | ||
| Complexidade do caminho de sinal | várias interfaces elétricas | |
| motor óptico integrado ao pacote do switch | ||
| Confiabilidade | maior número de pontos de falha | |
| menos interfaces, maior confiabilidade |
Métricas de desempenho-chave
| Métrica | Valor com CPO |
|---|---|
| Largura de banda máxima | até 409,6 Tb/s |
| Densidade de portas | até 512 portas a 800 Gb/s |
| Latência e resiliência | ultra baixa latência, resiliência operacional aprimorada |
| Refrigeração | resfriamento a líquido nos chassis Spectrum-X |
Principais conclusões
- Ótica co-packaged integra o motor óptico ao switch, reduzindo drasticamente a perda elétrica e a potência por interface.
- NVIDIA amplia fotônica de silício com Quantum-X Photonics (InfiniBand) e Spectrum-X Photonics (Ethernet) para cargas de IA em larga escala.
- A arquitetura permite alta largura de banda e interconexões densas com ganhos significativos de eficiência energética e resiliência.
- Cronograma de disponibilidade claro: início de 2026 para Quantum-X InfiniBand e final de 2026 para Spectrum-X Ethernet, sinalizando uma mudança ampla na rede de data centers de IA.
- O ecossistema, com parceiros da indústria, busca atender à escalabilidade de produção e confiabilidade para infraestruturas de IA em grande escala.
FAQ
-
O que é óptica co-packaged e por que é importante para data centers de IA?
Óptica co-packaged coloca o motor óptico diretamente no pacote do switch, reduzindo perdas elétricas e potência por interface, essencial para redes de IA de alta densidade e baixa latência.
-
uais são as plataformas principais que adotam CPO?
Quantum-X Photonics para InfiniBand e Spectrum-X Photonics para Ethernet são as duas linhas que implementam óptica co-packaged para workloads de IA.
-
Como isso afeta energia e confiabilidade?
arquitetura reduz a perda elétrica de cerca de 22 dB para ~4 dB e diminui o consumo por interface para até 9W, contribuindo para maior confiabilidade com menos pontos de falha.
-
uando os produtos estarão disponíveis?
Switches Quantum-X InfiniBand devem chegar no início de 2026, e switches Spectrum-X Ethernet na segunda metade de 2026.
-
uais benefícios de desempenho são destacados?
Ganhos de eficiência de energia de 3,5x, melhoria de até 10x na resiliência e capacidade para altas larguras de banda com densidade de portas adequadas a cargas de IA em escala.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos
RAPIDS 25.08 traz profiladores function-level e line-level para cuml.accel, executor streaming padrão no motor GPU Polars, suporte ampliado de tipos e strings, novo Spectral Embedding no cuML e acelerações com zero código para mais algoritmos.
Decodificação Especulativa para Reduzir a Latência na Inferência de IA: EAGLE-3, MTP e Abordagens Draft-Target
Exploração detalhada de decodificação especulativa para inferência de IA, incluindo métodos draft-target e EAGLE-3, como reduzem latência e como implantar em GPUs NVIDIA com TensorRT.