Defending against Prompt Injection with Structured Queries (StruQ) and Preference Optimization (SecAlign)
Sources: http://bair.berkeley.edu/blog/2025/04/11/prompt-injection-defense, http://bair.berkeley.edu/blog/2025/04/11/prompt-injection-defense/, BAIR Blog
Seeded from: BAIR Blog Recent advances in Large Language Models (LLMs) enable exciting LLM-integrated applications. However, as LLMs have improved, so have the attacks against them. Prompt injection attack is listed as the #1 threat by OWASP to LLM-integrated applications, where an LLM input contains a trusted prompt (ins Read more: http://bair.berkeley.edu/blog/2025/04/11/prompt-injection-defense/
More resources
Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Utilize o swap de memória da GPU (hot-swapping de modelos) para compartilhar GPUs entre múltiplos LLMs, reduzir custos de ociosidade e melhorar o autoscaling mantendo os SLAs.
Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)
Guia de fine-tuning do gpt-oss com SFT + QAT para recuperar a precisão em FP4 mantendo a eficiência, incluindo upcasting para BF16, MXFP4, NVFP4 e implantação com TensorRT-LLM.
Como Modelos de Linguagem Pequenos são a Chave para IA Agentica Escalável
Explora como modelos de linguagem pequenos permitem IA agentica mais barata, flexível e escalável, ao lado de LLMs, com NVIDIA NeMo e Nemotron Nano 2.
Como Escalar seus Agentes LangGraph em Produção de um Único Usuário para 1.000 Colegas
Guia para implantar e escalar agentes baseados em LangGraph em produção usando o NeMo Agent Toolkit, testes de carga e rollout por fases para centenas a milhares de usuários.
NVFP4 Treina com Precisão de 16 Bits e Velocidade e Eficiência de 4 Bits
NVFP4 é um formato de dados de 4 bits que oferece precisão equivalente a FP16 com a vazão e eficiência de memória de 4 bits, estendido ao pré-treinamento de modelos de linguagem grandes. Este perfil aborda experimentos em escala 12B, estabilidade e colaborações.
Apresentando o NVIDIA Jetson Thor: a Plataforma Definitiva para IA Física
Jetson Thor combina computação de IA de ponta, MIG de virtualização e sensores multimodais para robótica flexível em tempo real na borda, com aceleração FP4/FP8 e suporte a Isaac GR00T e a modelos grandes de linguagem/visão.