Saltar al contenido
Etiqueta

#llm

60 notas publicadas

Linux Foundation lanza Akrites contra exploits hallados por IA
Open Source

Linux Foundation lanza Akrites contra exploits hallados por IA

Amazon, Anthropic, OpenAI, NVIDIA, Microsoft, Red Hat y otros 14 actores arman un SIRT compartido y un proceso CVD estandarizado para parchar bugs encontrados por LLM en software crítico.

Phoronix Tests
DFlash: hasta 15x más inferencia LLM en NVIDIA Blackwell
IA

DFlash: hasta 15x más inferencia LLM en NVIDIA Blackwell

El método de speculative decoding por bloques desplaza a EAGLE-3 y libera 20 checkpoints abiertos en Hugging Face para Hopper y Blackwell.

NVIDIA Developer
Sakana AI lanza Fugu, orquestador de LLM que iguala a Anthropic
IA

Sakana AI lanza Fugu, orquestador de LLM que iguala a Anthropic

Sistema japonés coordina modelos como GPT-5.5, Opus 4.8 y Gemini 3.1 Pro vía una API; Fugu Ultra empata con Fable 5 y Mythos Preview en SWE-bench, GPQA y otros.

The Decoder
Altman: una generación de investigadores frenó la IA al subestimar
IA

Altman: una generación de investigadores frenó la IA al subestimar

En una charla en Stanford, el CEO de OpenAI respondió a Yann LeCun y otros críticos de los LLM citando como prueba la reciente refutación de una conjetura matemática hecha por un modelo de la casa.

The Decoder
GPT-5.5 Instant en ChatGPT supera a médicos en respuestas de salud
IA

GPT-5.5 Instant en ChatGPT supera a médicos en respuestas de salud

OpenAI actualizó el modelo gratuito de ChatGPT y reporta una caída del 71% en errores médicos frente a respuestas escritas por doctores.

The Decoder
OpenAI: el RL con rasgos virtuosos blinda a los modelos en 44 benchmarks
IA

OpenAI: el RL con rasgos virtuosos blinda a los modelos en 44 benchmarks

Una pequeña fracción de datos con rasgos como veracidad, humildad epistémica y corregibilidad mejoró 44 de 53 evaluaciones independientes de honestidad, sicofancia y reward hacking.

The Decoder
Claude Fable 5 y Mythos 5 llegan a mitad de precio que el Preview
IA

Claude Fable 5 y Mythos 5 llegan a mitad de precio que el Preview

Anthropic abre su nuevo tope de gama a USD 10 por millón de tokens de entrada y USD 50 de salida, mientras Mythos 5 va a un grupo cerrado vía Project Glasswing.

Anthropic
IEEE lanza programa virtual de cinco cursos sobre LLMs
Robótica

IEEE lanza programa virtual de cinco cursos sobre LLMs

Large Language Models Demystified combina arquitectura transformer, PyTorch, LoRA, RLHF y RAG en cinco módulos online con créditos de desarrollo profesional y un badge digital.

IEEE Spectrum AI
Arduino UNO Q: guía para correr LLMs locales en el edge
Microcontroladores

Arduino UNO Q: guía para correr LLMs locales en el edge

La placa combina Debian Linux con el ecosistema Arduino y ejecuta un Llama 3.2 1B cuantizado a 4 bits con unos 600 a 700 MB en disco y 1 GB de RAM al inferir.

Arduino
GLM-5.2 destrona a Opus en frontend coding y suma IndexShare
IA

GLM-5.2 destrona a Opus en frontend coding y suma IndexShare

Z.ai libera GLM-5.2 con licencia MIT: 744B parámetros con 40B activos por token, ventana de 1M y un truco de sparse attention que baja 2.9× los FLOPs por token.

Latent Space
Microsoft arma red neuronal con cabras en Age of Empires II
IA

Microsoft arma red neuronal con cabras en Age of Empires II

Adrian de Wynter usa el editor de mapas del juego de estrategia para mostrar que más de la mitad de los papers de IA recientes asumen rasgos humanos en los LLM antes incluso de empezar a medir.

The Decoder
Loopcraft: el plan de Satya Nadella para Microsoft post-OpenAI
IA

Loopcraft: el plan de Satya Nadella para Microsoft post-OpenAI

El CEO de Microsoft publicó su primer artículo en X con la teoría del loop cognitivo entre personas y sistemas digitales: la prioridad no es elegir el mejor modelo, sino construir el ecosistema.

Latent Space
Anthropic enfrenta a la Casa Blanca por el jailbreak de Fable 5
IA

Anthropic enfrenta a la Casa Blanca por el jailbreak de Fable 5

Funcionarios de Trump acusan a la firma de liberar Fable 5 sin esperar al clearinghouse previsto en la executive order cyber, mientras 100 expertos en seguridad piden levantar los controles de export.

The Decoder
Anthropic admite sabotaje invisible a rivales en Claude Fable 5
IA

Anthropic admite sabotaje invisible a rivales en Claude Fable 5

Tras críticas duras de la comunidad de investigación, la compañía hará visibles los frenos que aplicaba en secreto a quienes intentaban entrenar modelos competidores con Claude.

Wired
Claude Fable 5: el modelo más inteligente con filtros opacos
IA

Claude Fable 5: el modelo más inteligente con filtros opacos

Nathan Lambert advierte que Anthropic introdujo intervenciones invisibles que degradan el modelo cuando detecta usuarios construyendo competencia de modelos frontera.

Interconnects
Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude
IA

Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude

Moonshot AI libera un modelo de pesos abiertos de un billón de parámetros enfocado en programación a USD 0,95 entrada y USD 4 salida por millón de tokens.

The Decoder
Claude Fable 5 cuesta el doble por solo 5,7% más rendimiento
IA

Claude Fable 5 cuesta el doble por solo 5,7% más rendimiento

El nuevo tope de gama de Anthropic lidera el Artificial Analysis Intelligence Index con 64,9 puntos, pero su corrida completa de benchmarks bordea los USD 10.000, el doble que Opus 4.8.

The Decoder
DiffusionGemma: Google adapta difusión de imágenes al texto
Electrónica

DiffusionGemma: Google adapta difusión de imágenes al texto

El nuevo modelo MoE de pesos abiertos genera párrafos enteros en paralelo mediante denoising, corre con 18 GB de VRAM y entrega hasta 4× más velocidad que Gemma 4 26B en una sola H100.

The Register
MiniMax M3: MoE de 428B con 1M de contexto en Blackwell
IA

MiniMax M3: MoE de 428B con 1M de contexto en Blackwell

Sirve contextos de 1 millón de tokens con costo por token 20 veces menor que M2, y se despliega en NVIDIA Dynamo, TensorRT-LLM, SGLang y vLLM con pesos abiertos en Hugging Face.

NVIDIA Developer
Anthropic libera Claude Fable 5, su Mythos para uso general
IA

Anthropic libera Claude Fable 5, su Mythos para uso general

Llega a la API y a los planes Pro, Max, Team y Enterprise: gratis hasta el 22 de junio, USD 10/50 por millón de tokens y bloqueo automático en ciberseguridad, biología y química.

TechCrunch AI
Simon Willison prueba Claude Fable 5 cinco horas: una bestia lenta
IA

Simon Willison prueba Claude Fable 5 cinco horas: una bestia lenta

El desarrollador con acceso público al modelo lo somete a tareas de coding, conocimiento general y agentes. Veredicto inicial: probablemente el modelo más grande hasta ahora.

Simon Willison
Anthropic libera Claude Fable 5, su primer modelo de clase Mythos
IA

Anthropic libera Claude Fable 5, su primer modelo de clase Mythos

Nuevas salvaguardas permiten desplegar un modelo que la empresa antes consideraba demasiado peligroso para liberar. Precio: USD 10 input y USD 50 output por millón de tokens.

The Verge
Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA
Open Source

Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA

El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.

Phoronix Tests
DiffusionGemma: generación de texto 4 veces más rápida
IA

DiffusionGemma: generación de texto 4 veces más rápida

Google DeepMind publica un modelo experimental MoE de 26B parámetros bajo Apache 2.0 que genera bloques de 256 tokens en paralelo, alcanzando 1.000 tok/s en una NVIDIA H100.

Google DeepMind
Ahorro energético en IA: truco de reloj reduce 14% el consumo
IA

Ahorro energético en IA: truco de reloj reduce 14% el consumo

Investigadores de la Universidad de Twente proponen ajustar la frecuencia de reloj del GPU por kernel para reducir el consumo eléctrico sin perder rendimiento.

IEEE Spectrum AI
OpenCV 5 sube cobertura ONNX al 80% y soporta LLMs y VLMs
Electrónica

OpenCV 5 sube cobertura ONNX al 80% y soporta LLMs y VLMs

El nuevo motor DNN acelera modelos como Qwen 2.5 y Gemma 3 con backends nativos en Intel, Arm, Qualcomm y RISC-V, y supera por hasta 36% al ONNX Runtime en benchmarks.

CNX Software
Entrena modelos de IA más rápido con JAX y NVFP4
IA

Entrena modelos de IA más rápido con JAX y NVFP4

NVIDIA presenta NVFP4, una técnica de entrenamiento de precisión mixta de 4 bits que permite acelerar el despliegue de LLM en plataformas Blackwell sin perder precisión.

NVIDIA Developer
Asistentes de código IA: ¿por qué los usas mal?
Electrónica

Asistentes de código IA: ¿por qué los usas mal?

Tras las críticas por mi primer acercamiento a los asistentes de código por IA, profundizo en modelos, frontends y el arte de la ingeniería de prompts.

Hackaday
Más allá del edge: inteligencia local en Arduino UNO Q
Electrónica

Más allá del edge: inteligencia local en Arduino UNO Q

Arduino plantea agentes locales, LLMs compactos y workflows de IA orquestados sobre el UNO Q, que combina Debian Linux con un STM32 en tiempo real en una misma placa.

Arduino
Despliega agentes de IA autoevolutivos con Hermes y NemoClaw
IA

Despliega agentes de IA autoevolutivos con Hermes y NemoClaw

Aprende a integrar Hermes Agent con NVIDIA NemoClaw para procesar datos privados y públicos de forma segura, permitiendo que tu asistente aprenda nuevas habilidades sin reescribir código.

NVIDIA Developer
Majestic Labs Prometheus: 128 TB de DRAM contra el muro de memoria
IA

Majestic Labs Prometheus: 128 TB de DRAM contra el muro de memoria

El startup de hardware AI promete 60 veces más memoria que el DGX B300 de NVIDIA, con 12 chips Ignite (ARM + RISC-V), bandwidth de 25,6 TB/s y envío previsto para 2027.

IEEE Spectrum AI
JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0
IA

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Hugging Face
IA: Qué es la memoria y cómo configurarla para ser más eficiente
IA

IA: Qué es la memoria y cómo configurarla para ser más eficiente

Entiende la diferencia entre memoria explícita e historial en modelos LLM. Aprende a limpiar, corregir y optimizar el contexto que tu IA utiliza a diario.

Xataka
NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real
IA

NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real

DynoSim corre el stack de servicio de LLM como simulación discreta en Rust y mapea la frontera de Pareto del workload antes de pagar GPUs reales.

NVIDIA Developer
Claude Opus 4.8: más juicio agéntico y menos alucinaciones
IA

Claude Opus 4.8: más juicio agéntico y menos alucinaciones

Anthropic mantiene los precios de Opus 4.7 (USD 5/USD 25 por millón de tokens), suma control de esfuerzo en claude.ai, workflows dinámicos en Claude Code y modo rápido tres veces más barato.

Anthropic
TRL: delta sync baja 1,2 GB a 35 MB por step en RL asincrónico
IA

TRL: delta sync baja 1,2 GB a 35 MB por step en RL asincrónico

Hugging Face liberó un PR en TRL que codifica solo los pesos que cambiaron como safetensors disperso y los sube a un Hub Bucket. El trainer y el rollout dejan de necesitar el mismo data center.

Hugging Face
Reachy Mini ahora conversa 100% offline con tu hardware
IA

Reachy Mini ahora conversa 100% offline con tu hardware

Hugging Face publicó el stack speech-to-speech cascade con Silero, Parakeet-TDT, Qwen3-TTS y llama.cpp para correr el robot sin enviar audio a la nube.

Hugging Face
Blackwell HGX B200 marca récord STAC-AI en finanzas
IA

Blackwell HGX B200 marca récord STAC-AI en finanzas

El benchmark STAC-AI LANG6 con Llama 3.1 8B y 70B muestra hasta 2,8x más rendimiento por GPU frente a Hopper en cargas de inferencia con documentos EDGAR.

NVIDIA Developer
TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU
IA

TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU

El motor open source de LightSeek, escrito desde cero en SPMD con compilacion estatica, ataca workloads agenticos con prefix cache hibrido y disaggregacion prefill-decode para Mamba.

PyTorch Blog
NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes
IA

NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes

El sistema con CRIU mas cuda-checkpoint baja el cold-start de un gpt-oss-120b al limite fisico de memoria, evitando que GPUs facturadas queden ociosas durante el scale-up.

NVIDIA Developer
George Hotz: los agentes de IA serán el error más caro del software
IA

George Hotz: los agentes de IA serán el error más caro del software

Tras seis meses probando coding agents en su proyecto tinygrad, el hacker se alinea con LeCun y Marcus: 'son modelos estadísticos que imitan código, no que lo entienden'.

The Decoder
Los LLM aciertan respuestas pero citan fuentes equivocadas
IA

Los LLM aciertan respuestas pero citan fuentes equivocadas

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

The Decoder
Simon Willison lanza Datasette Agent para chatear con SQLite
IA

Simon Willison lanza Datasette Agent para chatear con SQLite

El asistente conversacional usa Gemini 3.1 Flash-Lite por defecto, suma plugins de gráficos, generación de imágenes y sandbox de código, y también corre contra modelos locales en LM Studio.

Simon Willison
Hassabis ve el inicio de la singularidad; LeCun lo rechaza
IA

Hassabis ve el inicio de la singularidad; LeCun lo rechaza

Tres referentes, tres lecturas: el cofundador de DeepMind cree que la AGI está a cinco años, LeCun niega que los LLM actuales sean inteligentes y el colíder de Gemini propone un punto medio.

The Decoder
ByteDance: preguntar a un LMM enseña mejor que transcribir
IA

ByteDance: preguntar a un LMM enseña mejor que transcribir

MMProLong, un modelo de 7B parámetros, supera a InternVL3-38B y Gemma3-27B en documentos de hasta 512.000 tokens entrenándose con pares pregunta-respuesta en vez de OCR puro.

The Decoder
Copilot en modo Auto inventa diferencias entre países que no existen
IA

Copilot en modo Auto inventa diferencias entre países que no existen

Un experimento del matemático Adam Kucharski mostró que Microsoft Copilot, Gemini Flash y otros modelos rápidos confabulan estereotipos cuando deberían leer los datos reales.

The Decoder
Claude Code descubre algoritmos de scaling con 70% menos compute
IA

Claude Code descubre algoritmos de scaling con 70% menos compute

AutoTTS deja que un agente de código busque por sí mismo las reglas del test-time scaling y produce una estrategia que iguala a self-consistency con un tercio del costo en tokens.

The Decoder
Nueve tecnicas para personalizar agentes IA segun NVIDIA
IA

Nueve tecnicas para personalizar agentes IA segun NVIDIA

Desde prompt engineering y RAG hasta SFT, LoRA y RLVR con GRPO: una guia tecnica para decidir cuando cada metodo agrega valor sin disparar el costo.

NVIDIA Developer
Deepseek prioriza investigacion AGI sobre ganancias rapidas
IA

Deepseek prioriza investigacion AGI sobre ganancias rapidas

El fundador Liang Wenfeng le dijo a inversionistas que la ronda de 13.200 millones de dolares apunta a AGI y modelos open source, no a monetizar rapido.

The Decoder
DeepSeek deja permanente el 75% de descuento: hasta 51x mas barato
IA

DeepSeek deja permanente el 75% de descuento: hasta 51x mas barato

El recorte sobre DeepSeek V4 Pro lleva el output a USD 0,87 por millon de tokens y consolida la guerra de precios que la oferta china abrio contra OpenAI y Anthropic.

The Decoder
Los laboratorios de modelos se transforman en laboratorios de agentes IA
IA

Los laboratorios de modelos se transforman en laboratorios de agentes IA

Un giro narrativo de Greg Brockman, el cierre del equipo de modelos de AI21 y el primer equipo de harness en DeepSeek apuntan al mismo movimiento: el modelo dejó de ser el producto.

Latent Space
Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab
IA

Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

El nuevo modelo del equipo Qwen, exclusivo de la API de Alibaba Cloud, completó 432 tests de kernel y 1.158 tool calls sin intervención humana, logrando un speedup promedio de 10x.

The Decoder
Evaluar agentes IA no es lo mismo que medir un modelo
IA

Evaluar agentes IA no es lo mismo que medir un modelo

NVIDIA detalla cinco prácticas para medir agentes en producción: trayectorias completas, precisión de tool calls y eficiencia, más allá del benchmark estático del modelo base.

NVIDIA Developer
Gemini 3.5 Flash es 5,5 veces más caro que su predecesor
IA

Gemini 3.5 Flash es 5,5 veces más caro que su predecesor

El modelo más rápido en su clase de inteligencia consume tantos tokens en tareas de agentes que supera incluso al Gemini 3.1 Pro en costo total.

The Decoder
Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite
IA

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

Simon Willison desarma el lanzamiento: GA sin preview, USD 1,50 input y USD 9 output por millón de tokens, cerca del 3.1 Pro mientras Google lo regala en sus productos de consumo.

Simon Willison
AMD Lemonade SDK 10.5 declara macOS en GA con ROCm 7.13
Open Source

AMD Lemonade SDK 10.5 declara macOS en GA con ROCm 7.13

El SDK open source de AMD para servir LLMs sobre GPUs y NPUs sube el soporte para Apple Silicon de beta a GA, e integra el ROCm 7.13 Tech Preview en Llama.cpp y Stable-Diffusion.cpp.

Phoronix Tests
Simon Willison resume seis meses de LLMs en cinco minutos
IA

Simon Willison resume seis meses de LLMs en cinco minutos

El developer británico, autor de Datasette, presentó en PyCon US 2026 una lightning talk sobre el punto de inflexión de noviembre de 2025, cuando los agentes de código cruzaron la barrera de calidad.

Simon Willison
Cursor Composer 2.5 iguala a Opus 4.7 con costo 10 veces menor
IA

Cursor Composer 2.5 iguala a Opus 4.7 con costo 10 veces menor

El modelo se construyó sobre el checkpoint Kimi K2.5 y cobra USD 0,50 por millón de tokens de entrada, contra los hasta USD 11 por tarea que cuestan Opus 4.7 y GPT-5.5.

The Decoder
ExecuTorch MLX: PyTorch acelera en GPU de Apple Silicon
IA

ExecuTorch MLX: PyTorch acelera en GPU de Apple Silicon

El nuevo delegado MLX lleva inferencia GPU optimizada a Mac con chips de Apple, con soporte para Llama, Qwen, Gemma, Whisper y cuantización de 2 a 8 bits, además de NVFP4.

PyTorch Blog
SOOHAK revela que los LLMs inventan respuestas a problemas imposibles
IA

SOOHAK revela que los LLMs inventan respuestas a problemas imposibles

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

The Decoder

Etiquetas relacionadas

Otros temas que aparecen junto a #llm en nuestra cobertura editorial.