LLM

Items tagged with “LLM”.

18 sept 2025 developer.nvidia.com

Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo

NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.

Nvidia LLM GPU

16 sept 2025 developer.nvidia.com

Reduciendo la latencia en frío para la inferencia de LLM con NVIDIA Run:ai Model Streamer

Análisis detallado de cómo NVIDIA Run:ai Model Streamer disminuye los tiempos de arranque en frío al transmitir pesos a la memoria GPU, con benchmarks en GP3, IO2 y S3.

Nvidia LLM Inference

16 sept 2025 aws.amazon.com

Agilizar el acceso a cambios de contenido ISO-rating con Verisk Rating Insights y Amazon Bedrock

Verisk Rating Insights, impulsado por Amazon Bedrock, LLM y RAG, ofrece una interfaz conversacional para acceder a cambios ERC ISO, reduciendo descargas manuales y acelerando información precisa.

Amazon LLM RAG

15 sept 2025 aws.amazon.com

Cómo msg mejoró la transformación de la fuerza laboral de RR. HH. con Amazon Bedrock y msg.ProfileMap

Este artículo explica cómo msg automatizó la armonización de datos para msg.ProfileMap usando Amazon Bedrock para impulsar flujos de enriquecimiento impulsados por LLM, aumentando la precisión de la coincidencia de conceptos de RR. HH., reduciendo la carga de trabajo manual y alineándose con la UE A

Amazon LLM Benchmark

12 sept 2025 aws.amazon.com

Automatizar pipelines RAG avanzados con Amazon SageMaker AI

Optimiza la experimentación a la producción para Retrieval Augmented Generation (RAG) con SageMaker AI, MLflow y Pipelines, para flujos reproducibles, escalables y con gobernanza.

Amazon LLM RAG

10 sept 2025 developer.nvidia.com

Despliega Inferencia de IA escalable con NVIDIA NIM Operator 3.0.0

NVIDIA NIM Operator 3.0.0 amplía la inferencia de IA escalable en Kubernetes, habilitando despliegues multi-LLM y multi-nodo, integración con KServe y soporte DRA en modo tecnología, con colaboración de Red Hat y NeMo Guardrails.

Nvidia LLM RAG

10 sept 2025 aws.amazon.com

Modelos Falcon-H1 de TII ya disponibles en Amazon Bedrock Marketplace y SageMaker JumpStart

AWS anuncia los modelos Falcon-H1 de TII (0,5B–34B) en Amazon Bedrock Marketplace y SageMaker JumpStart, con soporte multilingüe, arquitectura híbrida y guía de implementación.

Amazon LLM Transformers

02 sept 2025 developer.nvidia.com

Reducir costos de despliegue de modelos manteniendo rendimiento con intercambio de memoria de GPU

Un enfoque de intercambio de memoria de GPU (swap de modelos) permite que múltiples modelos compartan GPUs por encima de la capacidad, reduciendo costos y conservando la capacidad de respuesta para la inferencia de LLM a gran escala.

Nvidia LLM GPU

02 sept 2025 developer.nvidia.com

Reducir costos de implementación de modelos manteniendo el rendimiento con intercambio de memoria de GPU

Utiliza el intercambio de memoria de GPU (hot-swapping de modelos) para compartir GPUs entre varios LLM, reducir costos de GPU ociosas y mejorar el autoescalado manteniendo los SLA.

Nvidia LLM GPU

29 ago 2025 developer.nvidia.com

Cómo los Modelos de Lenguaje Pequeños Son la Clave para una IA con Agencia Escalable

Explica por qué los modelos de lenguaje pequeños (SLMs) permiten una IA con agencia escalable, el papel de ecosistemas de modelos heterogéneos y rutas prácticas de adopción con NVIDIA NeMo y Nemotron Nano 2.

Nvidia LLM

29 ago 2025 developer.nvidia.com

Ajuste fino de gpt-oss para Precisión y Rendimiento con Entrenamiento Consciente de Cuantización (QAT)

Guía de afinado fino de gpt-oss usando SFT + QAT para recuperar precisión FP4 manteniendo la eficiencia, con upcasting a BF16, MXFP4, NVFP4 y despliegue con TensorRT-LLM.

Nvidia LLM Benchmark

29 ago 2025 developer.nvidia.com

Cómo los modelos de lenguaje pequeños son la clave para una IA agentica escalable

Explica cómo los modelos de lenguaje pequeños permiten IA agentica más rentable y flexible junto a LLMs, mediante NVIDIA NeMo y Nemotron Nano 2.

Nvidia LLM

27 ago 2025 developer.nvidia.com

Cómo Escalar tus Agentes LangGraph en Producción de un Solo Usuario a 1,000 Compañeros

Guía para desplegar y escalar agentes LangGraph en producción usando NeMo Agent Toolkit, pruebas de carga y despliegue por fases para cientos a miles de usuarios.

Nvidia LLM

26 ago 2025 aws.amazon.com

Cómo Amazon Health Services Mejoró el Descubrimiento en la Búsqueda de Amazon con AWS ML y Gen AI

Análisis detallado de cómo Amazon Health Services optimizó la descubribilidad en la búsqueda de Amazon combinando ML, NLP, búsqueda vectorial y LLM a través de SageMaker, Bedrock y EMR.

Amazon LLM RAG

25 ago 2025 developer.nvidia.com

NVIDIA Jetson Thor: la plataforma definitiva para la IA física

Jetson Thor ofrece IA en el borde a escala robótica, con GPU Blackwell, MIG, FP4/FP8 y 128 GB de memoria para plataformas robóticas de próxima generación.

Nvidia LLM Transformers

25 ago 2025 developer.nvidia.com

NVFP4 Entrena con Precisión de 16 Bits y Velocidad y Eficiencia de 4 Bits

NVFP4 es un formato de datos de 4 bits que ofrece precisión similar a FP16 con el rendimiento y la eficiencia de memoria de 4 bits, extendido al preentrenamiento de grandes modelos de lenguaje. Este perfil aborda experimentos a nivel 12B, estabilidad y colaboraciones industriales.

Nvidia LLM

22 ago 2025 aws.amazon.com

Mejore el análisis geoespacial con Amazon Bedrock: LLM, RAG y flujos GIS

Explora cómo integrar datos geoespaciales y flujos GIS con Amazon Bedrock, aprovechando LLM, RAG y Bedrock Agents para desbloquear insights y optimizar operaciones.

Amazon LLM RAG

22 ago 2025 machinelearning.apple.com

SlowFast-LLaVA-1.5: LLMs de vídeo eficientes en tokens para comprensión de larga duración

La investigación de Apple ML presenta SlowFast-LLaVA-1.5 (SF-LLaVA-1.5), una familia de LLMs de vídeo con eficiencia de tokens para la comprensión de vídeos largos, usando el mecanismo SlowFast de dos flujos y datos públicos para lograr resultados de vanguardia entre 1B y 7B.

Apple LLM Benchmark

The "Super Weight:" How Even a Single Parameter can Determine a Large Language Model's Behavior

21 ago 2025 machinelearning.apple.com

El 'Super Weight': Cómo un solo parámetro puede determinar el comportamiento de un gran modelo de lenguaje

Investigadores de Apple identifican 'super weights'—un subconjunto extremadamente pequeño de parámetros de LLM—que pueden influir decisivamente en el comportamiento del modelo, con implicaciones de compresión y dinámica interna.

Apple LLM

18 ago 2025 aws.amazon.com

Crea un flujo de trabajo agente para la planificación de viajes con Amazon Nova

Este artículo muestra cómo construir una solución de planificación de viajes con agentes IA usando Amazon Nova y LangGraph en una arquitectura serverless.

Amazon LLM

18 ago 2025 machinelearning.apple.com

Investigar sesgo interseccional en grandes modelos de lenguaje mediante disparidades de confianza en la resolución de correferencias

Un nuevo benchmark, WinoIdentity, expone sesgo interseccional en LLMs al combinar marcadores demográficos con género, e introduce Coreference Confidence Disparity para medir la incertidumbre entre identidades. Cinco LLMs muestran disparidades de confianza de hasta 40%.

Apple LLM Benchmark

15 ago 2025 machinelearning.apple.com

UICoder: Afinación de LLM para Generar Código UI con Retroalimentación Automatizada

UICoder explora el uso de retroalimentación automatizada (compiladores y modelos multimodales) para afinar LLMs que generan código de interfaz de usuario, superando baselines y acercándose a modelos propietarios más grandes.

Apple LLM

14 ago 2025 aws.amazon.com

Citas con Amazon Nova: prompting y evaluación de fuentes en modelos de comprensión Nova

Resumen de cómo indicar a Amazon Nova que cite fuentes y cómo AWS evalúa la precisión de las citas usando LLM-as-a-judge, con ejemplos y pautas prácticas.

Amazon LLM

13 ago 2025 developer.nvidia.com

Dynamo 0.4 ofrece 4x más rendimiento, autoscaling basado en SLO y observabilidad en tiempo real

Dynamo 0.4 introduce servicio desagregado, AIConfigurator, autoscalado basado en SLO y observabilidad en tiempo real para escalar despliegues de LLM con costo eficiente. Benchmark muestran hasta 4x más interactividad y 2.5x más throughput en modelos grandes.

Nvidia LLM Benchmark

13 ago 2025 developer.nvidia.com

Escalando el RL de LLM con Entrenamiento Prolongado usando ProRL v2

Investigación de NVIDIA presenta ProRL v2, la evolución del Prolonged Reinforcement Learning para LLMs, con PPO-Clip, exploración y reinicios periódicos de política de referencia para mejoras continuas.

Nvidia LLM RL

13 ago 2025 aws.amazon.com

Lanza y escala agentes IA de forma segura con Amazon Bedrock AgentCore Runtime

Conoce cómo AgentCore Runtime de Bedrock de AWS ofrece un hosting sin servidor seguro, independiente del marco y del modelo, para agentes IA. Aprende sobre microVM persistentes, ciclo de vida de sesiones, memoria y por qué simplifica la infraestructura.

Amazon LLM

12 ago 2025 huggingface.co

FilBench: ¿Pueden los LLM entender y generar filipino? Un examen de Tagalog y Cebuano

FilBench evalúa el desempeño de LLMs para Tagalog, Filipino y Cebuano en conocimiento cultural, NLP clásico, comprensión de lectura y generación, revelando eficiencia y perspectivas de traducción para modelos SEA y GPT-4o.

Hugging Face LLM NLP

12 ago 2025 huggingface.co

TextQuests: Evaluar LLMs en Juegos de Aventura Basados en Texto

TextQuests es un benchmark que evalúa agentes LLM en 25 juegos clásicos de ficción interactiva, enfatizando razonamiento de contexto largo y exploración autónoma.

Hugging Face LLM Benchmark

12 ago 2025 huggingface.co

FilBench: Suite de evaluación de LLMs para filipino (Tagalog, Filipino y Cebuano)

FilBench es una suite de evaluación integral para medir las capacidades de LLMs en Tagalog, Filipino y Cebuano, abarcando conocimiento cultural, NLP clásico, comprensión de lectura y generación.

Hugging Face LLM NLP

11 ago 2025 developer.nvidia.com

Maximizar el rendimiento robótico con Cosmos Reason de NVIDIA tras el entrenamiento

NVIDIA Cosmos Reason es un VLM de razonamiento abierto y personalizable para IA física y robótica, presentado en GTC 2025. Razona con conocimiento previo y física para entender y actuar en el mundo real, usando tokens de video, un proyector y módulos LLM, reforzados por un fine-tuning supervisado y

Nvidia LLM Robotics

08 ago 2025 machinelearning.apple.com

Optimización del reconocimiento de habla contextual con cuantificación vectorial para recuperación eficiente

Un enfoque propone una recuperación basada en cuantificación vectorial para reemplazar la puntuación de atención cruzada costosa, permitiendo catálogos de sesgo grandes con mejoras de precisión y menores costos de cómputo y memoria.

Apple LLM Research

08 ago 2025 huggingface.co

Hugging Face AI Sheets: herramienta sin código para crear, transformar y enriquecer conjuntos de datos

AI Sheets es una herramienta de código abierto sin necesidad de código para crear, enriquecer y transformar conjuntos de datos con modelos de IA. Se puede desplegar localmente o en el Hub, admite miles de modelos abiertos y permite iterar con prompts, ejemplos de pocos disparos y comparaciones de mo

Hugging Face LLM

06 ago 2025 engineering.fb.com

Diff Risk Score: IA para desarrollo de software con gestión de riesgos en Meta

Diff Risk Score (DRS) usa un Llama ajustado para predecir incidentes en producción a partir de cambios de código y guiar el desarrollo consciente del riesgo a lo largo del ciclo de software.

Fb LLM

05 ago 2025 developer.nvidia.com

Entrega de 1,5M TPS de Inferencia en NVIDIA GB200 NVL72: Modelos gpt-oss de OpenAI Acelerados de la Nube al Edge

NVIDIA y OpenAI optimizan gpt-oss-20b y gpt-oss-120b para inferencia FP4 acelerada en Blackwell, alcanzando hasta 1.5M tokens por segundo en GB200 NVL72 y habilitando despliegue de cloud a edge.

Nvidia LLM Transformers

05 ago 2025 openai.com

Estimación de los riesgos de frontera de peor caso de LLMs de pesos abiertos: Malicious Fine-Tuning y gpt-oss

Análisis detallado de un estudio de OpenAI sobre riesgos de frontera para LLMs de pesos abiertos, que introduce Malicious Fine-Tuning (MFT) y evalúa a gpt-oss en biología y ciberseguridad.

Openai LLM RL

31 jul 2025 huggingface.co

Construye un Asistente de Compras IA con Servidores Gradio MCP

Descubre cómo los servidores Gradio MCP permiten a un LLM llamar modelos externos para navegar tiendas, seleccionar prendas y mostrar probadores virtuales con IDM-VTON, todo integrado mediante VS Code AI Chat.

Hugging Face LLM Release

31 jul 2025 huggingface.co

Construye un asistente de compras IA con Gradio MCP Servers

Descubre cómo los servidores Gradio MCP conectan LLM a modelos de Hugging Face para alimentar un asistente de compras IA que navega por tiendas y realiza probadores virtuales con IDM-VTON.

Hugging Face LLM

23 jul 2025 microsoft.com

Enfoque técnico para clasificar las interacciones humano-IA a gran escala: telemetría semántica, batching y orquestación

Conoce la ingeniería detrás de la Telemetría Semántica para clasificar cómo los usuarios interactúan con la IA a escala, incluyendo trade-offs en batching, optimización de tokens y orquestación para ejecutar LLMs de forma eficiente, confiable y casi en tiempo real.

Microsoft LLM Research

17 jul 2025 huggingface.co

Consilium: Cuando Múltiples LLMs Colaboran para Alcanzar Consenso

Análisis profundo de Consilium, la plataforma multi-LLM que permite a los modelos discutir, debatir y alcanzar consenso mediante servidores MCP y una mesa redonda visual en Gradio.

Hugging Face LLM Benchmark

17 jul 2025 huggingface.co

Cinco mejoras importantes en los servidores Gradio MCP

Resumen de las mejoras de Gradio MCP en la versión 5.38.0: carga de archivos, streaming de progreso en tiempo real, integración de OpenAPI, manejo de encabezados y descripciones de herramientas mejoradas.

Hugging Face LLM

15 jul 2025 microsoft.com

CollabLLM: Enseñar a los LLMs a colaborar con los usuarios — Enfoque premiado en ICML 2025

CollabLLM, ganador del ICML 2025 Outstanding Paper Award, avanza en la colaboración entre LLMs y usuarios al saber cuándo hacer preguntas y adaptar el tono y el estilo según la situación, hacia sistemas IA más centrados en el usuario y confiables.

Microsoft LLM Research

04 jun 2025 thegradient.pub

La AGI No es Multimodal: Encarnación, Modelos del Mundo y los Límites de la Escala

Una perspectiva crítica sostiene que la verdadera AGI requiere una comprensión encarnada del mundo físico, no solo procesamiento multimodal. El artículo advierte que los enfoques multimodales pueden no conducir a una inteligencia de nivel humano y explica por qué la encarnación y la interacción con

Thegradient LLM

11 abr 2025 bair.berkeley.edu

Defendiendo contra la inyección de instrucciones con StruQ y SecAlign: consultas estructuradas y optimización de preferencias

Visión detallada para defender los LLM frente a la inyección de prompts mediante StruQ (Structured Instruction Tuning) y SecAlign (Special Preference Optimization), incluyendo Front-End Seguro, implementaciones y métricas de impacto.

Berkeley LLM

11 abr 2025 bair.berkeley.edu

Defending against Prompt Injection with Structured Queries (StruQ) and Preference Optimization (SecAlign)

Recent advances in Large Language Models (LLMs) enable exciting LLM-integrated applications. However, as LLMs have improved, so have the attacks against them. Prompt injection attack is listed as the #1 threat by OWASP to LLM-integrated applications, where an LLM input contains a trusted prompt (ins

Berkeley LLM

12 nov 2024 bair.berkeley.edu

Anthology: Personas virtuales para LLMs mediante historias de vida ricas

Análisis detallado de Anthology, un método que condiciona modelos de lenguaje mediante narrativas de vida para crear personas virtuales representativas, consistentes y diversas en investigación y aplicaciones sociales.

Berkeley LLM Research

12 nov 2024 bair.berkeley.edu

Anthology: Condicionando LLMs con Backstories Ricas para Personas Virtuales

Un método para guiar a los LLMs hacia personas virtuales representativas y consistentes generando narrativas de vida detalladas y utilizándolas como contexto de condicionamiento, para simulaciones individualizadas y estudios de usuario escalables.

Berkeley LLM

09 sept 2024 thegradient.pub

Qué le falta a los chatbots LLM: un sentido de propósito

Los chatbots basados en LLM siguen mejorando en los benchmarks, pero la experiencia del usuario podría no avanzar al mismo ritmo. Este artículo defiende un diálogo con propósito, multirondas y memoria, y examina su impacto para desarrolladores y empresas.

Thegradient LLM Benchmark

09 sept 2024 thegradient.pub

Qué falta en los chatbots de LLM: un sentido de propósito

Explora el diálogo con propósito en chatbots LLM, argumentando que las interacciones de varias vueltas alinean mejor la IA con los objetivos del usuario y facilitan la colaboración, especialmente en código y asistentes personales.

Thegradient LLM

28 ago 2024 bair.berkeley.edu

Cómo Evaluar Métodos de Jailbreak: Estudio de Caso con el Benchmark StrongREJECT

Análisis basado en evidencia de StrongREJECT, un benchmark de jailbreak de vanguardia. Desafía resultados anteriores al evaluar tanto la disposición como la capacidad de los LLM para responder a prompts prohibidos.

Berkeley LLM Benchmark

28 ago 2024 bair.berkeley.edu

StrongREJECT: Benchmark sólido para evaluar jailbreaks en LLMs

Visión general de un benchmark de jailbreak de alta calidad con dos evaluadores automatizados, un conjunto de 313 prompts prohibidos y hallazgos sobre la brecha entre resultados publicados y evaluaciones rigurosas.

Berkeley LLM Benchmark

20 abr 2024 thegradient.pub

Aplicaciones de LLMs en Mercados Financieros

Análisis de cómo los grandes modelos de lenguaje pueden aplicarse a series temporales financieras, datos multimodales y generación de datos sintéticos, con consideraciones prácticas.

Thegradient LLM

20 abr 2024 thegradient.pub

Aplicaciones de LLMs en mercados financieros — visión general y casos de uso

Visión general de cómo los LLMs pueden aplicarse a los mercados financieros, incluyendo modelado autoregresivo de datos de precios, entradas multimodales, residualización, datos sintéticos y predicciones de múltiples horizontes.

Thegradient LLM

08 abr 2024 thegradient.pub

Breve visión general del sesgo de género en la IA

Resumen sobre cómo el sesgo de género aparece en sistemas de IA, cubriendo embeddings, reconocimiento facial, resolución de anáforas y modelos de lenguaje a gran escala, con ejemplos y mitigaciones.

Thegradient LLM Transformers

08 abr 2024 thegradient.pub

Visión general sobre sesgos de género en IA

Resumen de trabajos clave que miden sesgos de género en IA, abarcando embeddings, co-referencia, reconocimiento facial, benchmarks de QA y generación de imágenes; discusión de mitigación, lagunas y auditoría robusta.

Thegradient LLM Benchmark

08 mar 2024 thegradient.pub

Car-GPT: ¿Podrán los LLMs por fin hacer que los coches autónomos funcionen?

Examina cómo los grandes modelos de lenguaje pueden apoyar la percepción, la planificación y la generación en la conducción autónoma, destacando oportunidades y desafíos clave.

Thegradient LLM

08 mar 2024 thegradient.pub

Car-GPT: ¿Pueden los LLMs hacer realidad los coches autónomos?

Visión general de cómo los grandes modelos de lenguaje pueden mejorar la conducción autónoma en percepción, planificación y generación, con ejemplos y retos.

Thegradient LLM