
Los LLM aciertan respuestas pero citan fuentes equivocadas
El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.
Todas las notas publicadas en MechaNoticias. Ordenadas por fecha de publicación, de la más reciente a la más antigua.
1.196 notas · Página 30 de 50

El benchmark CiteVQA de la Universidad de Pekín muestra que hasta el mejor modelo (Gemini 3.1 Pro Preview) saca solo 76/100 cuando se exige que la cita apunte al párrafo correcto del PDF.

La arquitectura apila circuitos lógicos en doble capa y promete 55% más densidad y 41% mejor eficiencia energética sin máquinas EUV restringidas por las sanciones de EE.UU.

El framework combina Gemini 3.1 Pro con el compilador Lean para demostrar conjeturas abiertas hace décadas, a un costo de inferencia de pocos cientos de dólares por problema.

El kit del tamaño de una tarjeta de crédito combina el módulo CM0 Lite con teclado matricial de 46 teclas, LCD de 1,9 pulgadas y salida HDMI desde USD 59 en Kickstarter.

El nuevo proyecto AV Lab arranca con un Hyundai Ioniq 5 manejado por humanos sobre la red ridehail. La meta del CFO Balaji Krishnamurthy: 2 millones de millas al mes hacia fin de año.

El asistente conversacional usa Gemini 3.1 Flash-Lite por defecto, suma plugins de gráficos, generación de imágenes y sandbox de código, y también corre contra modelos locales en LM Studio.

Sudáfrica, Kenia, Nigeria y Egipto admiten depender de Google, Microsoft, Nvidia y Meta. La respuesta del continente: un fondo de USD 60.000 millones y un consejo coordinado.

La Casa Blanca había convocado a CEOs para la firma del jueves; un llamado de último minuto del exasesor de IA convenció al presidente de cancelar el decreto a horas de la ceremonia.

Una nueva categoría experimental llamada Agentic Browsing mide si los sitios exponen llms.txt, accessibility tree y la API WebMCP. Airbnb apenas pasa una de tres pruebas.

Pit711 forkeó el firmware del receptor C-ITS para portarlo al Waveshare ESP32-C5-WIFI6-KIT, agregó streaming BLE y publicó la app móvil bajo licencia MIT en GitHub.

Los jailbreaks evolucionaron de comandos absurdos a conversaciones manipuladoras. Mindgard 'gaslighteó' a Claude, y la nueva clase de hacker viene de psicología, no de programación.

El framework NV-Generate-CTMR genera volúmenes médicos sintéticos a partir del dataset MR-RATE (100.000 estudios MRI cerebrales) y promete acelerar 33× la inferencia frente a difusión tradicional.

La compañía suspendió las rutas freeway en San Francisco, Los Ángeles, Phoenix y Miami después de incidentes en zonas de construcción y semanas de problemas con inundaciones en Atlanta y San Antonio.

El programa Glasswing reúne 50 socios, escaneó más de 1.000 proyectos open source y reporta que el cuello de botella ya no es encontrar vulnerabilidades, sino verificarlas y parcharlas.

Tres referentes, tres lecturas: el cofundador de DeepMind cree que la AGI está a cinco años, LeCun niega que los LLM actuales sean inteligentes y el colíder de Gemini propone un punto medio.

MMProLong, un modelo de 7B parámetros, supera a InternVL3-38B y Gemma3-27B en documentos de hasta 512.000 tokens entrenándose con pares pregunta-respuesta en vez de OCR puro.

El maker rediseñó el inserto de bronce de la V7.0 a broca y escariador manuales; los tests en la Prusa Mk4 muestran buen flujo y bridging sin burbujas de aire.

La unidad de USD 799 mide lluvia con radar Doppler de 60GHz y viento con sensor ultrasónico, sin partes móviles que se atasquen en despliegues remotos prolongados.

La jefa de gabinete Susie Wiles dio el visto bueno: las agencias carecen de Grace Blackwell y el modelo Mythos corre en chips viejos. La cláusula 'cualquier uso legal' quedó fuera.

Mr. More Gooder imprimió en FDM una cámara de combustión y un nozzle de propano y los bañó en agua para sobrevivir las llamas, pero el plástico terminó goteando de la tobera al poco rato.

Un video de Moreiras3D en Instagram muestra una A1 con un lateral fundido hasta el chasis y enciende la discusión sobre si el cambio de hardware del Q3 2025 alcanzó realmente a todas las unidades.

Caídas masivas, brechas de seguridad y éxodo de talento empujan a la compañía a una crisis ocho años después del deal de USD 7.500 millones, con Cursor y Claude Code presionando por coding agents.

Elliot Andal del canal ALTco perfeccionó una técnica casera de fotorresistencia y grabado con cloruro férrico para fabricar placas con trazos curvos imposibles en cualquier CAD comercial.

Dave Ferguson, cofundador de Nuro, defiende su pivot desde delivery con un acuerdo Uber-Lucid que pondrá decenas de miles de Lucid Gravity autónomos en EE.UU., empezando por San Francisco este año.