Benchmark

Items tagged with “Benchmark”.

16 de set. de 2025 developer.nvidia.com

Reduzindo a Latência de Cold Start para Inferência de LLM com NVIDIA Run:ai Model Streamer

Análise detalhada de como o NVIDIA Run:ai Model Streamer reduz o tempo de cold-start na inferência de LLMs ao transmitir pesos para a memória da GPU, com benchmarks em GP3, IO2 e S3.

Nvidia LLM Inference

15 de set. de 2025 aws.amazon.com

Como a msg otimizou a transformação de RH com Amazon Bedrock e msg.ProfileMap

Este post mostra como a msg automatizou a harmonização de dados para o msg.ProfileMap usando o Amazon Bedrock para alimentar fluxos de enriquecimento de dados alimentados por LLM, elevando a precisão na correspondência de conceitos de RH, reduzindo trabalho manual e alinhando-se ao EU AI Act e ao GD

Amazon LLM Benchmark

11 de set. de 2025 developer.nvidia.com

Como o Treinamento com Quantização Detecta e Recupera Precisão em Inferência de Baixa Precisão

Explora quantization aware training (QAT) e distilação quantization aware (QAD) como métodos para recuperar precisão em modelos de baixa precisão, usando o TensorRT Model Optimizer da NVIDIA e formatos FP8/NVFP4/MXFP4.

Nvidia Quantization Benchmark

10 de set. de 2025 developer.nvidia.com

Acelere a Inferência de Estrutura de Proteínas em Mais de 100x com o NVIDIA RTX PRO 6000 Blackwell Server Edition

O RTX PRO 6000 Blackwell Server Edition da NVIDIA acelera drasticamente a inferência de estruturas de proteínas, permitindo fluxos de trabalho end-to-end movidos a GPU com OpenFold e TensorRT, atingindo até 138x mais rápido que o AlphaFold2.

Nvidia Benchmark GPU

05 de set. de 2025 openai.com

Por que modelos de linguagem alucinam — e como a OpenAI está reformulando avaliações para aumentar a confiabilidade

A OpenAI descreve que as alucinações em modelos de linguagem surgem de incentivos de avaliação que favorecem adivinhação em vez da incerteza. O texto explica como pontuações e benchmarks focados na incerteza podem reduzir erros confiantes e melhorar a confiabilidade.

Openai Benchmark

29 de ago. de 2025 developer.nvidia.com

Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)

Guia de fine-tuning do gpt-oss com SFT + QAT para recuperar a precisão em FP4 mantendo a eficiência, incluindo upcasting para BF16, MXFP4, NVFP4 e implantação com TensorRT-LLM.

Nvidia LLM Benchmark

22 de ago. de 2025 machinelearning.apple.com

Checklists superam modelos de recompensa no alinhamento de modelos de linguagem

Nova abordagem de RL usa listas de verificação derivadas de instruções para orientar o alinhamento, superando modelos de recompensa fixa em vários benchmarks no Qwen2.5-7B-Instruct, apresentada na ICLR 2025.

Apple RL Benchmark

22 de ago. de 2025 machinelearning.apple.com

SlowFast-LLaVA-1.5: LLMs de Vídeo Eficientes em Tokens para Compreensão de Longa Duração

A Apple ML Research apresenta SlowFast-LLaVA-1.5 (SF-LLaVA-1.5), uma família de LLMs de vídeo com eficiência de tokens para compreensão de vídeos de longa duração, usando o mecanismo SlowFast de dois fluxos e dados públicos para alcançar resultados de ponta entre 1B e 7B.

Apple LLM Benchmark

A photo illustration of Daivd Luan, Amazon’s head of AGI Labs.

21 de ago. de 2025 theverge.com

Amazon aposta em agentes de IA para vencer a corrida, diz o chefe do AGI Labs, David Luan

David Luan, chefe do AGI Lab da Amazon, afirma que resolver agentes de IA é a próxima fronteira importante, descrevendo uma abordagem em estilo fábrica para construir modelos mais inteligentes e enfatizando a conclusão de tarefas no mundo real além do chat.

Theverge Benchmark

13 de ago. de 2025 developer.nvidia.com

Escalando o RL de LLM com Treinamento Prolongado usando ProRL v2

A NVIDIA Research apresenta o ProRL v2, a evolução mais recente do Prolonged Reinforcement Learning para LLMs, com novas técnicas de estabilidade e exploração que permitem melhorias sustentadas por meio de milhares de passos de RL.

Nvidia LLM RL

12 de ago. de 2025 machinelearning.apple.com

ICR2: Recuperação e Raciocínio em Contexto para Modelos de Linguagem de Longo Contexto

Benchmark realista para modelos de longo contexto e métodos para melhorar recuperação em contexto e raciocínio dentro de fluxos RAG.

Apple RAG Benchmark

12 de ago. de 2025 huggingface.co

TextQuests: Avaliando LLMs em Jogos de Aventura Textuais

TextQuests é um benchmarks que testa agentes LLM em 25 jogos clássicos de ficção interativa, enfatizando raciocínio de longo contexto e exploração autônoma.

Hugging Face LLM Benchmark

11 de ago. de 2025 developer.nvidia.com

NVIDIA Isaac Sim 5.0 e Isaac Lab 2.2 com Disponibilidade Geral no SIGGRAPH 2025

A NVIDIA anuncia disponibilidade geral do Isaac Sim 5.0 e do Isaac Lab 2.2, com suporte a GPU na nuvem via NVIDIA Brev, integrações ROS 2, sensorimetria aprimorada e extensões de data‑gen open‑source para acelerar o desenvolvimento em robótica AI.

Nvidia Benchmark GPU

11 de ago. de 2025 developer.nvidia.com

Maximize o Desempenho em Robótica com o Cosmos Reason da NVIDIA após o Treinamento

VLM de raciocínio aberto e personalizável para IA física e robótica; processamento de vídeo para tokens, ganhos com SFT e RL, implantação edge-to-cloud em GPUs NVIDIA, checkpoints via Hugging Face e GitHub.

Nvidia LLM Robotics

07 de ago. de 2025 developer.nvidia.com

Transformações Eficientes no cuDF com Compilação JIT

O cuDF da RAPIDS oferece caminho de compilação JIT para fusão de kernels, reduzindo intermediários e tráfego de memória em transformações de strings e escalares. Abordagem oferece ganhos de performance e amplia suporte a operadores.

Nvidia Benchmark GPU

07 de ago. de 2025 openai.com

OpenAI Lança GPT-5 para Desenvolvedores

A OpenAI lança o GPT‑5 na plataforma de API, com desempenho de ponta em codificação e tarefas agentic, além de novos controles para desenvolvedores.

Openai Benchmark

23 de jul. de 2025 huggingface.co

TimeScope: Benchmark de Tempo de Vídeos Longos para Modelos Multimodais

Benchmark de código aberto TimeScope avalia compreensão de vídeos longos inserindo needles curtos em vídeos de 1 minuto a 8 horas, mediando recuperação, síntese, localização e análise de movimento.

Hugging Face Benchmark

23 de jul. de 2025 huggingface.co

TimeScope: Benchmark de Compreensão de Vídeos Longos em Modelos Visão+Linguagem

TimeScope apresenta um novo benchmark de código aberto para medir como modelos visão- linguagem processam vídeos longos, inserindo needles curtas e avaliando recuperação, síntese, localização e análise de movimento.

Hugging Face Benchmark

17 de jul. de 2025 huggingface.co

Voltando ao Futuro: Avaliando agentes de IA na previsão de eventos futuros

Análise aprofundada do FutureBench, um benchmark que testa agentes de IA na previsão de eventos futuros usando fontes de dados reais, com foco em raciocínio sob incerteza e resultados verificáveis.

Hugging Face Benchmark

17 de jul. de 2025 huggingface.co

Consilium: Quando Vários LLMs Colaboram para Chegar a um Consenso

Análise aprofundada do Consilium, a plataforma multi-LLM que permite que modelos discutam, debatam e cheguem a um consenso via MCP e uma mesa redonda visual no Gradio.

Hugging Face LLM Benchmark

16 de jul. de 2025 huggingface.co

Seq vs Seq: a suíte Ettin de codificadores e decodificadores emparelhados

Ettin apresenta as primeiras versões de ponta a ponta emparelhadas entre codificadores e decodificadores treinadas com dados idênticos, permitindo comparações justas entre arquiteturas.

Hugging Face Benchmark

28 de ago. de 2024 bair.berkeley.edu

Como Avaliar Métodos de Jailbreak: Estudo de Caso com a Benchmark StrongREJECT

Análise aprofundada da benchmark StrongREJECT, seu desenvolvimento e o que ela revela sobre a confiabilidade das avaliações de jailbreak para LLMs de ponta.

Berkeley LLM Benchmark

28 de ago. de 2024 bair.berkeley.edu

StrongREJECT: Benchmark robusto para avaliação de jailbreak em LLMs

Visão geral de um benchmark de jailbreak de alta qualidade com dois avaliadores automáticos, um conjunto de prompts proibidos e descobertas de que muitos jailbreaks não correspondem a reivindicações anteriores.

Berkeley LLM Benchmark

20 de jul. de 2024 bair.berkeley.edu

Estamos Prontos para o Raciocínio com Múltiplas Imagens? Lançamento do Benchmark Visual Haystacks (VHs)

Pesquisadores de Berkeley apresentam Visual Haystacks (VHs), um benchmark visual centrado em justificar raciocínio com contexto longo em grandes conjuntos de imagens, destacando limites de modelos atuais e uma nova abordagem de recuperação.

Berkeley LLM Benchmark

20 de jul. de 2024 bair.berkeley.edu

Visual Haystacks (VHs): Benchmark de Raciocínio Visual com Múltiplas Imagens

Benchmark de raciocínio visual em contexto longo entre grandes conjuntos de imagens não correlacionadas; introduz o MIRAGE para estender LMMs além de VQA com uma imagem.

Berkeley Benchmark

08 de abr. de 2024 thegradient.pub

Uma Visão Geral do Viés de Gênero na IA: de Embeddings de Palavras a LLMs

Uma visão sintética de como o viés de gênero surge em sistemas de IA — desde embeddings de palavras tendenciosos até reconhecimento facial e modelos de linguagem grande — e como pesquisadores medem, mitigam e discutem essas questões.

Thegradient LLM NLP

08 de abr. de 2024 thegradient.pub

Recursos: Medindo e Mitigando Viés de Gênero em IA

Panorama de trabalhos influentes que medem viés de gênero em IA, abrangendo embeddings, co-referência, reconhecimento facial, benchmarks de QA e geração de imagens; discute mitigação, lacunas e auditoria robusta.

Thegradient LLM Benchmark