Etiqueta

#llm

60 notas publicadas

Linux Foundation lanza Akrites contra exploits hallados por IA

Amazon, Anthropic, OpenAI, NVIDIA, Microsoft, Red Hat y otros 14 actores arman un SIRT compartido y un proceso CVD estandarizado para parchar bugs encontrados por LLM en software crítico.

Phoronix Testshace 3 días

DFlash: hasta 15x más inferencia LLM en NVIDIA Blackwell

El método de speculative decoding por bloques desplaza a EAGLE-3 y libera 20 checkpoints abiertos en Hugging Face para Hopper y Blackwell.

NVIDIA Developer23 jun

Sakana AI lanza Fugu, orquestador de LLM que iguala a Anthropic

Sistema japonés coordina modelos como GPT-5.5, Opus 4.8 y Gemini 3.1 Pro vía una API; Fugu Ultra empata con Fable 5 y Mythos Preview en SWE-bench, GPQA y otros.

The Decoder23 jun

Altman: una generación de investigadores frenó la IA al subestimar

En una charla en Stanford, el CEO de OpenAI respondió a Yann LeCun y otros críticos de los LLM citando como prueba la reciente refutación de una conjetura matemática hecha por un modelo de la casa.

The Decoder22 jun

GPT-5.5 Instant en ChatGPT supera a médicos en respuestas de salud

OpenAI actualizó el modelo gratuito de ChatGPT y reporta una caída del 71% en errores médicos frente a respuestas escritas por doctores.

The Decoder22 jun

OpenAI: el RL con rasgos virtuosos blinda a los modelos en 44 benchmarks

Una pequeña fracción de datos con rasgos como veracidad, humildad epistémica y corregibilidad mejoró 44 de 53 evaluaciones independientes de honestidad, sicofancia y reward hacking.

The Decoder21 jun

Claude Fable 5 y Mythos 5 llegan a mitad de precio que el Preview

Anthropic abre su nuevo tope de gama a USD 10 por millón de tokens de entrada y USD 50 de salida, mientras Mythos 5 va a un grupo cerrado vía Project Glasswing.

Anthropic21 jun

Robótica

IEEE lanza programa virtual de cinco cursos sobre LLMs

Large Language Models Demystified combina arquitectura transformer, PyTorch, LoRA, RLHF y RAG en cinco módulos online con créditos de desarrollo profesional y un badge digital.

IEEE Spectrum AI20 jun

Microcontroladores

Arduino UNO Q: guía para correr LLMs locales en el edge

La placa combina Debian Linux con el ecosistema Arduino y ejecuta un Llama 3.2 1B cuantizado a 4 bits con unos 600 a 700 MB en disco y 1 GB de RAM al inferir.

Arduino19 jun

GLM-5.2 destrona a Opus en frontend coding y suma IndexShare

Z.ai libera GLM-5.2 con licencia MIT: 744B parámetros con 40B activos por token, ventana de 1M y un truco de sparse attention que baja 2.9× los FLOPs por token.

Latent Space18 jun

Microsoft arma red neuronal con cabras en Age of Empires II

Adrian de Wynter usa el editor de mapas del juego de estrategia para mostrar que más de la mitad de los papers de IA recientes asumen rasgos humanos en los LLM antes incluso de empezar a medir.

The Decoder18 jun

Loopcraft: el plan de Satya Nadella para Microsoft post-OpenAI

El CEO de Microsoft publicó su primer artículo en X con la teoría del loop cognitivo entre personas y sistemas digitales: la prioridad no es elegir el mejor modelo, sino construir el ecosistema.

Latent Space17 jun

Anthropic enfrenta a la Casa Blanca por el jailbreak de Fable 5

Funcionarios de Trump acusan a la firma de liberar Fable 5 sin esperar al clearinghouse previsto en la executive order cyber, mientras 100 expertos en seguridad piden levantar los controles de export.

The Decoder17 jun

Anthropic admite sabotaje invisible a rivales en Claude Fable 5

Tras críticas duras de la comunidad de investigación, la compañía hará visibles los frenos que aplicaba en secreto a quienes intentaban entrenar modelos competidores con Claude.

Wired14 jun

Claude Fable 5: el modelo más inteligente con filtros opacos

Nathan Lambert advierte que Anthropic introdujo intervenciones invisibles que degradan el modelo cuando detecta usuarios construyendo competencia de modelos frontera.

Interconnects13 jun

Kimi K2.7 Code: modelo abierto 12 veces más barato que Claude

Moonshot AI libera un modelo de pesos abiertos de un billón de parámetros enfocado en programación a USD 0,95 entrada y USD 4 salida por millón de tokens.

The Decoder13 jun

Claude Fable 5 cuesta el doble por solo 5,7% más rendimiento

El nuevo tope de gama de Anthropic lidera el Artificial Analysis Intelligence Index con 64,9 puntos, pero su corrida completa de benchmarks bordea los USD 10.000, el doble que Opus 4.8.

The Decoder13 jun

Electrónica

DiffusionGemma: Google adapta difusión de imágenes al texto

El nuevo modelo MoE de pesos abiertos genera párrafos enteros en paralelo mediante denoising, corre con 18 GB de VRAM y entrega hasta 4× más velocidad que Gemma 4 26B en una sola H100.

The Register13 jun

MiniMax M3: MoE de 428B con 1M de contexto en Blackwell

Sirve contextos de 1 millón de tokens con costo por token 20 veces menor que M2, y se despliega en NVIDIA Dynamo, TensorRT-LLM, SGLang y vLLM con pesos abiertos en Hugging Face.

NVIDIA Developer13 jun

Anthropic libera Claude Fable 5, su Mythos para uso general

Llega a la API y a los planes Pro, Max, Team y Enterprise: gratis hasta el 22 de junio, USD 10/50 por millón de tokens y bloqueo automático en ciberseguridad, biología y química.

TechCrunch AI12 jun

Simon Willison prueba Claude Fable 5 cinco horas: una bestia lenta

El desarrollador con acceso público al modelo lo somete a tareas de coding, conocimiento general y agentes. Veredicto inicial: probablemente el modelo más grande hasta ahora.

Simon Willison11 jun

Anthropic libera Claude Fable 5, su primer modelo de clase Mythos

Nuevas salvaguardas permiten desplegar un modelo que la empresa antes consideraba demasiado peligroso para liberar. Precio: USD 10 input y USD 50 output por millón de tokens.

The Verge11 jun

Open Source

Lemonade 10.7 de AMD suma soporte CUDA para GPU NVIDIA

El servidor local de IA open source de AMD ahora detecta GPU NVIDIA en Windows y Linux vía Llama.cpp y stable-diffusion.cpp, y agrega benchmarks comparables entre runtimes.

Phoronix Tests11 jun

DiffusionGemma: generación de texto 4 veces más rápida

Google DeepMind publica un modelo experimental MoE de 26B parámetros bajo Apache 2.0 que genera bloques de 256 tokens en paralelo, alcanzando 1.000 tok/s en una NVIDIA H100.

Google DeepMind11 jun

Ahorro energético en IA: truco de reloj reduce 14% el consumo

Investigadores de la Universidad de Twente proponen ajustar la frecuencia de reloj del GPU por kernel para reducir el consumo eléctrico sin perder rendimiento.

IEEE Spectrum AI10 jun

Electrónica

OpenCV 5 sube cobertura ONNX al 80% y soporta LLMs y VLMs

El nuevo motor DNN acelera modelos como Qwen 2.5 y Gemma 3 con backends nativos en Intel, Arm, Qualcomm y RISC-V, y supera por hasta 36% al ONNX Runtime en benchmarks.

CNX Software10 jun

Entrena modelos de IA más rápido con JAX y NVFP4

NVIDIA presenta NVFP4, una técnica de entrenamiento de precisión mixta de 4 bits que permite acelerar el despliegue de LLM en plataformas Blackwell sin perder precisión.

NVIDIA Developer9 jun

Electrónica

Asistentes de código IA: ¿por qué los usas mal?

Tras las críticas por mi primer acercamiento a los asistentes de código por IA, profundizo en modelos, frontends y el arte de la ingeniería de prompts.

Hackaday8 jun

Electrónica

Más allá del edge: inteligencia local en Arduino UNO Q

Arduino plantea agentes locales, LLMs compactos y workflows de IA orquestados sobre el UNO Q, que combina Debian Linux con un STM32 en tiempo real en una misma placa.

Arduino5 jun

Despliega agentes de IA autoevolutivos con Hermes y NemoClaw

Aprende a integrar Hermes Agent con NVIDIA NemoClaw para procesar datos privados y públicos de forma segura, permitiendo que tu asistente aprenda nuevas habilidades sin reescribir código.

NVIDIA Developer2 jun

Majestic Labs Prometheus: 128 TB de DRAM contra el muro de memoria

El startup de hardware AI promete 60 veces más memoria que el DGX B300 de NVIDIA, con 12 chips Ignite (ARM + RISC-V), bandwidth de 25,6 TB/s y envío previsto para 2027.

IEEE Spectrum AI2 jun

JetBrains lanza Mellum2: MoE de 12B con licencia Apache 2.0

El modelo activa solo 2,5B parámetros por token, promete inferencia más de 2 veces más rápida que pares de tamaño similar y apunta a routing, RAG, subagentes y despliegues privados.

Hugging Face2 jun

IA: Qué es la memoria y cómo configurarla para ser más eficiente

Entiende la diferencia entre memoria explícita e historial en modelos LLM. Aprende a limpiar, corregir y optimizar el contexto que tu IA utiliza a diario.

Xataka1 jun

NVIDIA DynoSim: gemelo digital de Dynamo a 1.500× tiempo real

DynoSim corre el stack de servicio de LLM como simulación discreta en Rust y mapea la frontera de Pareto del workload antes de pagar GPUs reales.

NVIDIA Developer30 may

Claude Opus 4.8: más juicio agéntico y menos alucinaciones

Anthropic mantiene los precios de Opus 4.7 (USD 5/USD 25 por millón de tokens), suma control de esfuerzo en claude.ai, workflows dinámicos en Claude Code y modo rápido tres veces más barato.

Anthropic30 may

TRL: delta sync baja 1,2 GB a 35 MB por step en RL asincrónico

Hugging Face liberó un PR en TRL que codifica solo los pesos que cambiaron como safetensors disperso y los sube a un Hub Bucket. El trainer y el rollout dejan de necesitar el mismo data center.

Hugging Face28 may

Reachy Mini ahora conversa 100% offline con tu hardware

Hugging Face publicó el stack speech-to-speech cascade con Silero, Parakeet-TDT, Qwen3-TTS y llama.cpp para correr el robot sin enviar audio a la nube.

Hugging Face28 may

Blackwell HGX B200 marca récord STAC-AI en finanzas

El benchmark STAC-AI LANG6 con Llama 3.1 8B y 70B muestra hasta 2,8x más rendimiento por GPU frente a Hopper en cargas de inferencia con documentos EDGAR.

NVIDIA Developer28 may

TokenSpeed alcanza 580 tps con Qwen3.5-397B-A17B en GPU

El motor open source de LightSeek, escrito desde cero en SPMD con compilacion estatica, ataca workloads agenticos con prefix cache hibrido y disaggregacion prefill-decode para Mamba.

PyTorch Blog28 may

NVIDIA Dynamo Snapshot: arranque 21x mas rapido en Kubernetes

El sistema con CRIU mas cuda-checkpoint baja el cold-start de un gpt-oss-120b al limite fisico de memoria, evitando que GPUs facturadas queden ociosas durante el scale-up.

NVIDIA Developer28 may

George Hotz: los agentes de IA serán el error más caro del software

Tras seis meses probando coding agents en su proyecto tinygrad, el hacker se alinea con LeCun y Marcus: 'son modelos estadísticos que imitan código, no que lo entienden'.

The Decoder26 may

Los LLM aciertan respuestas pero citan fuentes equivocadas

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

The Decoder25 may

Simon Willison lanza Datasette Agent para chatear con SQLite

El asistente conversacional usa Gemini 3.1 Flash-Lite por defecto, suma plugins de gráficos, generación de imágenes y sandbox de código, y también corre contra modelos locales en LM Studio.

Simon Willison25 may

Hassabis ve el inicio de la singularidad; LeCun lo rechaza

Tres referentes, tres lecturas: el cofundador de DeepMind cree que la AGI está a cinco años, LeCun niega que los LLM actuales sean inteligentes y el colíder de Gemini propone un punto medio.

The Decoder25 may

ByteDance: preguntar a un LMM enseña mejor que transcribir

MMProLong, un modelo de 7B parámetros, supera a InternVL3-38B y Gemma3-27B en documentos de hasta 512.000 tokens entrenándose con pares pregunta-respuesta en vez de OCR puro.

The Decoder25 may

Copilot en modo Auto inventa diferencias entre países que no existen

Un experimento del matemático Adam Kucharski mostró que Microsoft Copilot, Gemini Flash y otros modelos rápidos confabulan estereotipos cuando deberían leer los datos reales.

The Decoder24 may

Claude Code descubre algoritmos de scaling con 70% menos compute

AutoTTS deja que un agente de código busque por sí mismo las reglas del test-time scaling y produce una estrategia que iguala a self-consistency con un tercio del costo en tokens.

The Decoder24 may

Nueve tecnicas para personalizar agentes IA segun NVIDIA

Desde prompt engineering y RAG hasta SFT, LoRA y RLVR con GRPO: una guia tecnica para decidir cuando cada metodo agrega valor sin disparar el costo.

NVIDIA Developer24 may

Deepseek prioriza investigacion AGI sobre ganancias rapidas

El fundador Liang Wenfeng le dijo a inversionistas que la ronda de 13.200 millones de dolares apunta a AGI y modelos open source, no a monetizar rapido.

The Decoder24 may

DeepSeek deja permanente el 75% de descuento: hasta 51x mas barato

El recorte sobre DeepSeek V4 Pro lleva el output a USD 0,87 por millon de tokens y consolida la guerra de precios que la oferta china abrio contra OpenAI y Anthropic.

The Decoder24 may

Los laboratorios de modelos se transforman en laboratorios de agentes IA

Un giro narrativo de Greg Brockman, el cierre del equipo de modelos de AI21 y el primer equipo de harness en DeepSeek apuntan al mismo movimiento: el modelo dejó de ser el producto.

Latent Space24 may

Qwen3.7-Max corrió 35 horas solo para optimizar el chip propio de Alibab

El nuevo modelo del equipo Qwen, exclusivo de la API de Alibaba Cloud, completó 432 tests de kernel y 1.158 tool calls sin intervención humana, logrando un speedup promedio de 10x.

The Decoder23 may

Evaluar agentes IA no es lo mismo que medir un modelo

NVIDIA detalla cinco prácticas para medir agentes en producción: trayectorias completas, precisión de tool calls y eficiencia, más allá del benchmark estático del modelo base.

NVIDIA Developer23 may

Gemini 3.5 Flash es 5,5 veces más caro que su predecesor

El modelo más rápido en su clase de inteligencia consume tantos tokens en tareas de agentes que supera incluso al Gemini 3.1 Pro en costo total.

The Decoder21 may

Gemini 3.5 Flash sube 6x el precio vs 3.1 Flash-Lite

Simon Willison desarma el lanzamiento: GA sin preview, USD 1,50 input y USD 9 output por millón de tokens, cerca del 3.1 Pro mientras Google lo regala en sus productos de consumo.

Simon Willison20 may

Open Source

AMD Lemonade SDK 10.5 declara macOS en GA con ROCm 7.13

El SDK open source de AMD para servir LLMs sobre GPUs y NPUs sube el soporte para Apple Silicon de beta a GA, e integra el ROCm 7.13 Tech Preview en Llama.cpp y Stable-Diffusion.cpp.

Phoronix Tests19 may

Simon Willison resume seis meses de LLMs en cinco minutos

El developer británico, autor de Datasette, presentó en PyCon US 2026 una lightning talk sobre el punto de inflexión de noviembre de 2025, cuando los agentes de código cruzaron la barrera de calidad.

Simon Willison19 may

Cursor Composer 2.5 iguala a Opus 4.7 con costo 10 veces menor

El modelo se construyó sobre el checkpoint Kimi K2.5 y cobra USD 0,50 por millón de tokens de entrada, contra los hasta USD 11 por tarea que cuestan Opus 4.7 y GPT-5.5.

The Decoder19 may

ExecuTorch MLX: PyTorch acelera en GPU de Apple Silicon

El nuevo delegado MLX lleva inferencia GPU optimizada a Mac con chips de Apple, con soporte para Llama, Qwen, Gemma, Whisper y cuantización de 2 a 8 bits, además de NVFP4.

PyTorch Blog18 may

SOOHAK revela que los LLMs inventan respuestas a problemas imposibles

Un consorcio de 64 matemáticos diseñó 439 tareas para Gemini 3 Pro, GPT-5 y Claude Opus 4.5; ninguno supera el 50% al detectar problemas sin solución.

The Decoder17 may

Etiquetas relacionadas

Otros temas que aparecen junto a #llm en nuestra cobertura editorial.

#Agentes IA40 #Open Source31 #Anthropic27 #Nvidia17 #Claude16 #Openai16 #Coding Agent11 #Benchmarks9