Benchmark

Items tagged with “Benchmark”.

16 sept 2025 developer.nvidia.com

Reduciendo la latencia en frío para la inferencia de LLM con NVIDIA Run:ai Model Streamer

Análisis detallado de cómo NVIDIA Run:ai Model Streamer disminuye los tiempos de arranque en frío al transmitir pesos a la memoria GPU, con benchmarks en GP3, IO2 y S3.

Nvidia LLM Inference

15 sept 2025 aws.amazon.com

Cómo msg mejoró la transformación de la fuerza laboral de RR. HH. con Amazon Bedrock y msg.ProfileMap

Este artículo explica cómo msg automatizó la armonización de datos para msg.ProfileMap usando Amazon Bedrock para impulsar flujos de enriquecimiento impulsados por LLM, aumentando la precisión de la coincidencia de conceptos de RR. HH., reduciendo la carga de trabajo manual y alineándose con la UE A

Amazon LLM Benchmark

11 sept 2025 developer.nvidia.com

Cómo la quantización consciente (QAT) recupera precisión en inferencia de baja precisión

Analiza QAT y QAD como métodos para recuperar precisión en modelos de baja precisión, utilizando el TensorRT Model Optimizer y formatos FP8/NVFP4/MXFP4.

Nvidia Benchmark

10 sept 2025 developer.nvidia.com

Acelerar la Inferencia de Estructura de Proteínas en Más de 100x con NVIDIA RTX PRO 6000 Blackwell Server Edition

El RTX PRO 6000 Blackwell Server Edition de NVIDIA acelera de forma notable la inferencia de estructuras de proteínas, permitiendo flujos de trabajo end-to-end en GPU con OpenFold y TensorRT, hasta 138x más rápido que AlphaFold2.

Nvidia Benchmark GPU

05 sept 2025 openai.com

Por qué los modelos de lenguaje 'alucinan' y cómo OpenAI está cambiando las evaluaciones para la fiabilidad

OpenAI explica que las alucinaciones en modelos de lenguaje provienen de incentivos de evaluación que premian la conjetura sobre la incertidumbre. El artículo detalla cómo puntajes y benchmarks sensibles a la incertidumbre pueden reducir errores confiados.

Openai Benchmark

29 ago 2025 developer.nvidia.com

Ajuste fino de gpt-oss para Precisión y Rendimiento con Entrenamiento Consciente de Cuantización (QAT)

Guía de afinado fino de gpt-oss usando SFT + QAT para recuperar precisión FP4 manteniendo la eficiencia, con upcasting a BF16, MXFP4, NVFP4 y despliegue con TensorRT-LLM.

Nvidia LLM Benchmark

22 ago 2025 machinelearning.apple.com

Las listas de verificación superan a los modelos de recompensa para alinear modelos de lenguaje

Un enfoque de RL utiliza listas de verificación derivadas de instrucciones para guiar el alineamiento, superando modelos de recompensa fijos en múltiples benchmarks con Qwen2.5-7B-Instruct, presentado en ICLR 2025.

Apple RL Benchmark

22 ago 2025 machinelearning.apple.com

SlowFast-LLaVA-1.5: LLMs de vídeo eficientes en tokens para comprensión de larga duración

La investigación de Apple ML presenta SlowFast-LLaVA-1.5 (SF-LLaVA-1.5), una familia de LLMs de vídeo con eficiencia de tokens para la comprensión de vídeos largos, usando el mecanismo SlowFast de dos flujos y datos públicos para lograr resultados de vanguardia entre 1B y 7B.

Apple LLM Benchmark

A photo illustration of Daivd Luan, Amazon’s head of AGI Labs.

21 ago 2025 theverge.com

Amazon apuesta por agentes de IA para ganar la carrera, dice el director del AGI Lab, David Luan

David Luan, cabeza del AGI Lab de Amazon, sostiene que resolver los agentes de IA es la próxima gran frontera y describe un enfoque tipo fábrica para construir modelos más inteligentes y centrados en tareas reales.

Theverge Benchmark

19 ago 2025 aws.amazon.com

Benchmark de localización de información de documentos con Amazon Nova

Evaluación de la localización de campos en documentos utilizando Amazon Nova Pro en Amazon Bedrock, con resultados sólidos en FATURA y una solución modular para la empresa.

Amazon Benchmark

18 ago 2025 machinelearning.apple.com

Investigar sesgo interseccional en grandes modelos de lenguaje mediante disparidades de confianza en la resolución de correferencias

Un nuevo benchmark, WinoIdentity, expone sesgo interseccional en LLMs al combinar marcadores demográficos con género, e introduce Coreference Confidence Disparity para medir la incertidumbre entre identidades. Cinco LLMs muestran disparidades de confianza de hasta 40%.

Apple LLM Benchmark

13 ago 2025 developer.nvidia.com

Dynamo 0.4 ofrece 4x más rendimiento, autoscaling basado en SLO y observabilidad en tiempo real

Dynamo 0.4 introduce servicio desagregado, AIConfigurator, autoscalado basado en SLO y observabilidad en tiempo real para escalar despliegues de LLM con costo eficiente. Benchmark muestran hasta 4x más interactividad y 2.5x más throughput en modelos grandes.

Nvidia LLM Benchmark

13 ago 2025 developer.nvidia.com

Escalando el RL de LLM con Entrenamiento Prolongado usando ProRL v2

Investigación de NVIDIA presenta ProRL v2, la evolución del Prolonged Reinforcement Learning para LLMs, con PPO-Clip, exploración y reinicios periódicos de política de referencia para mejoras continuas.

Nvidia LLM RL

13 ago 2025 developer.nvidia.com

Optimización de la corrección de errores cuánticos y desarrollo de aplicaciones con CUDA-QX 0.4

CUDA-QX 0.4 expande flujos de trabajo de corrección de errores cuánticos de extremo a extremo con generación automática de DEM, decodificador de red tensorial, mejoras BP+OSD y un Generative Quantum Eigensolver (GQE) en la biblioteca Solvers.

Nvidia Benchmark GPU

12 ago 2025 machinelearning.apple.com

Eliciting In-context Retrieval and Reasoning for Long-Context Language Models (ICR2)

Explora cómo los modelos de lenguaje de largo contexto pueden realizar recuperación y razonamiento dentro de prompts extendidos, presentando el benchmark ICR2 y métodos de mejora, con evaluaciones en Mistral-7B y comparaciones con GPT-4.

Apple RAG Benchmark

12 ago 2025 huggingface.co

TextQuests: Evaluar LLMs en Juegos de Aventura Basados en Texto

TextQuests es un benchmark que evalúa agentes LLM en 25 juegos clásicos de ficción interactiva, enfatizando razonamiento de contexto largo y exploración autónoma.

Hugging Face LLM Benchmark

11 ago 2025 developer.nvidia.com

Maximizar el rendimiento robótico con Cosmos Reason de NVIDIA tras el entrenamiento

NVIDIA Cosmos Reason es un VLM de razonamiento abierto y personalizable para IA física y robótica, presentado en GTC 2025. Razona con conocimiento previo y física para entender y actuar en el mundo real, usando tokens de video, un proyector y módulos LLM, reforzados por un fine-tuning supervisado y

Nvidia LLM Robotics

07 ago 2025 openai.com

OpenAI presenta GPT‑5 para desarrolladores en la API

OpenAI lanza GPT‑5 en su API, con rendimiento de código y tareas de agente de primera línea, nuevos controles para desarrolladores y tres tamaños de modelo para equilibrar rendimiento y costo.

Openai Benchmark

05 ago 2025 openai.com

Presentando gpt-oss: modelos open-weight gpt-oss-120b y 20b

OpenAI presenta gpt-oss-120b y gpt-oss-20b, dos modelos de lenguaje open-weight con licencia Apache 2.0. Ofrecen razonamiento sólido y uso de herramientas a bajo costo, diseñados para una implementación eficiente en hardware de consumo y dispositivos edge.

Openai Benchmark GPU

23 jul 2025 huggingface.co

TimeScope: Evaluar cuánto pueden entender videos largos los modelos multimodales

Benchmark de código abierto TimeScope evalúa la comprensión de videos largos insertando needles cortas en videos de 1 minuto a 8 horas, cubriendo recuperación, síntesis, localización y análisis de movimiento.

Hugging Face Benchmark

23 jul 2025 huggingface.co

TimeScope: Evaluación de la comprensión de videos largos en modelos Vision-Language

TimeScope propone una nueva referencia de código abierto para medir cómo los modelos vision-ling a procesan videos largos insertando needles cortos y evaluando recuperación, síntesis, localización y análisis de movimiento.

Hugging Face Benchmark

17 jul 2025 huggingface.co

Consilium: Cuando Múltiples LLMs Colaboran para Alcanzar Consenso

Análisis profundo de Consilium, la plataforma multi-LLM que permite a los modelos discutir, debatir y alcanzar consenso mediante servidores MCP y una mesa redonda visual en Gradio.

Hugging Face LLM Benchmark

17 jul 2025 huggingface.co

Volviendo al Futuro: Evaluando agentes de IA en la predicción de eventos futuros

Análisis de FutureBench, un benchmark que evalúa a los agentes IA para predecir eventos futuros a partir de fuentes del mundo real, con foco en razonamiento bajo incertidumbre y resultados verificables.

Hugging Face Benchmark

16 jul 2025 huggingface.co

Seq vs Seq: la suite Ettin de codificadores y decodificadores emparejados

Ettin presenta los primeros modelos de vanguardia emparejados entre codificadores y decodificadores entrenados con datos idénticos, para comparar arquitecturas de forma justa y reproducible.

Hugging Face Benchmark

09 sept 2024 thegradient.pub

Qué le falta a los chatbots LLM: un sentido de propósito

Los chatbots basados en LLM siguen mejorando en los benchmarks, pero la experiencia del usuario podría no avanzar al mismo ritmo. Este artículo defiende un diálogo con propósito, multirondas y memoria, y examina su impacto para desarrolladores y empresas.

Thegradient LLM Benchmark

28 ago 2024 bair.berkeley.edu

Cómo Evaluar Métodos de Jailbreak: Estudio de Caso con el Benchmark StrongREJECT

Análisis basado en evidencia de StrongREJECT, un benchmark de jailbreak de vanguardia. Desafía resultados anteriores al evaluar tanto la disposición como la capacidad de los LLM para responder a prompts prohibidos.

Berkeley LLM Benchmark

28 ago 2024 bair.berkeley.edu

StrongREJECT: Benchmark sólido para evaluar jailbreaks en LLMs

Visión general de un benchmark de jailbreak de alta calidad con dos evaluadores automatizados, un conjunto de 313 prompts prohibidos y hallazgos sobre la brecha entre resultados publicados y evaluaciones rigurosas.

Berkeley LLM Benchmark

20 jul 2024 bair.berkeley.edu

¿Estamos listos para el razonamiento con varias imágenes? Visual Haystacks ya está aquí

Visual Haystacks evalúa grandes modelos multimodales en razonamiento visual de contexto largo con miles de imágenes, destaca limitaciones actuales y presenta MIRAGE para recuperación aumentada multi-imagen.

Berkeley Benchmark

20 jul 2024 bair.berkeley.edu

Visual Haystacks (VHs): Benchmark de razonamiento visual multi-imagen

Benchmark de razonamiento visual de contexto largo en grandes conjuntos de imágenes no correlacionadas; presenta MIRAGE para ampliar LMMs más allá del VQA de una imagen.

Berkeley Benchmark

08 abr 2024 thegradient.pub

Breve visión general del sesgo de género en la IA

Resumen sobre cómo el sesgo de género aparece en sistemas de IA, cubriendo embeddings, reconocimiento facial, resolución de anáforas y modelos de lenguaje a gran escala, con ejemplos y mitigaciones.

Thegradient LLM Transformers

08 abr 2024 thegradient.pub

Visión general sobre sesgos de género en IA

Resumen de trabajos clave que miden sesgos de género en IA, abarcando embeddings, co-referencia, reconocimiento facial, benchmarks de QA y generación de imágenes; discusión de mitigación, lagunas y auditoría robusta.

Thegradient LLM Benchmark