Compilado el 3 de julio de 2026
Vulkan dobla a ROCm en AMD, un modelo local de 7B escribe y ejecuta su propio código C++ dentro del runtime, y un harness de 3 críticos demuestra que la orquestación importa más que el modelo. Esta semana no va de anuncios: va de ingeniería real desde el garaje digital.
🔝 Lo más importante de la semana
1. MiMo-V2.5 escribe una herramienta de ejecución C++ dentro de llama.cpp
Qué ha pasado: Un usuario de r/LocalLLaMA logró que MiMo-V2.5-GGUF (modelo de ~7B) escribiera desde cero una herramienta integrada en llama.cpp para ejecutar código C++ y usar los resultados. El modelo no solo generó código correcto — diseñó la interfaz, manejó errores de compilación, y produjo una tool funcional que se comunica con el runtime.
Por qué importa: Un modelo local pequeño escribiendo herramientas para el propio runtime que lo ejecuta. Esto es meta al cuadrado: la IA mejorando la infraestructura que la sirve. Además demuestra que los modelos pequeños bien destilados pueden hacer ingeniería de sistemas real, no solo completar código.
Para quién importa: Quienes trabajan con llama.cpp, desarrolladores de tooling para modelos locales, y cualquiera interesado en el borde entre IA generativa e ingeniería de software real.
2. Vulkan en llama.cpp dobla a ROCm en AMD: Qwen3.6-35B-A3B a velocidad de vértigo
Qué ha pasado: Un usuario con Radeon 7900 XTX publica su configuración completa de llama.cpp con backend Vulkan. Los números son contundentes: Qwen3.6-35B-A3B IQ4_XS corre al doble de velocidad que con ROCm 7.14 optimizado, consumiendo menos VRAM (~22 GB). La clave está en el nuevo scheduler de llama.cpp que reduce sincronizaciones.
Por qué importa: Si tienes GPU AMD para IA local, probablemente estás usando el backend equivocado. Vulkan — tradicionalmente el patito feo frente a CUDA y ROCm — se perfila como la opción real para inference en hardware no-NVIDIA. Esto cambia la ecuación para quien esté planeando su próximo rig de IA.
Para quién importa: Usuarios de AMD (RX 7000/9000), builders de rigs multi-GPU para IA local, y cualquiera que haya sufrido con ROCm.
🔗 Reddit — configuración completa
3. Qwen3.6-27B bajo un harness de 3 críticos: la orquestación multiplica la calidad
Qué ha pasado: Un desarrollador somete a Qwen3.6-27B (8-bit) a un pipeline con 3 críticos independientes — code review, test review, y Playwright e2e — cada uno con contexto fresco antes de aceptar el output. La conclusión: el harness importa más que el modelo. Con suficientes capas de validación, un modelo de 27B compite con modelos mucho mayores.
Por qué importa: No necesitas el modelo más grande ni el más caro. Necesitas un buen sistema de verificación. Esto es arquitectura de agentes aplicada a generación de código: multiple pairs of eyes sobre el mismo output.
Para quién importa: Desarrolladores montando pipelines de código con IA, equipos evaluando si usar modelos locales o APIs cloud, y cualquiera diseñando sistemas multi-agente.
🧭 Radar rápido
– Squish: LLMs locales a máxima velocidad en Apple Silicon — Un nuevo runtime optimizado para chips M-series promete ser la forma más rápida de correr modelos locales en Mac. Primeros benchmarks prometedores. 🔗 squish.run
– Ornith-1.0-35B GGUF con speculative decoding nativo — MTP (Multi-Token Prediction) injertado directamente en el GGUF. Sin parches, sin forks. TTFT y long-context numbers incluidos. 🔗 Reddit
– From Local LLM to Tool-Using Agent — Tutorial completo: Gemma 4 + Ollama + OpenAI Agents SDK + Tavily MCP para montar un agente de investigación con herramientas, 100% local. 🔗 Towards Data Science
– Llama.cpp vs Ollama: comparativa a fondo — Alex Ziskind desglosa diferencias reales de rendimiento entre el servidor de llama.cpp y Ollama para uso diario. 🔗 YouTube
– OpenClaw + Ollama + Hermes: agente 100% local y gratuito — Julian Goldie SEO monta un agente completo usando OpenClaw con Ollama y modelos Hermes. Sin APIs, sin coste mensual. 🔗 YouTube
– llama.cpp: PR #25051 hace viable Tensor Parallelism en Vulkan — TP (antes solo práctico en CUDA) llega a Vulkan. Multi-GPU con AMD se vuelve una opción real. 🔗 GitHub PR #25051
– CUDA toolkit de Ubuntu va siglos por detrás — Un usuario con RTX 5060 Ti descubre que el paquete CUDA de apt usa la versión 12.0 cuando la actual es 13.3. Su Blackwell funcionaba a medio gas. Solución: instalar desde el repo de NVIDIA, no desde apt. 🔗 Reddit
– Qwen3.6-35B-A3B reemplaza Google Vision en pipeline de recibos — Un usuario migra su pipeline de extracción de datos de recibos desde Google Vision a un modelo local Qwen3.6 corriendo en una RTX 3060. ¿El resultado? Igual de bueno, cero coste recurrente, y los datos nunca salen de casa. 🔗 Reddit
– Personaje autónomo con memoria creciente en LLM local — Un usuario mantiene un personaje de IA con Qwen 3.6 27B Heretic que evoluciona sin límite de ventana de contexto, usando memoria externa. La personalidad sobrevive a reinicios. 🔗 Reddit
– Hardware Guide 2026 para IA Local — Guía actualizada de configuraciones: NVIDIA vs AMD vs Apple Silicon, qué VRAM necesitas realmente, y qué esperar de cada presupuesto. 🔗 YouTube
🎯 Mi lectura de la semana
Esta semana la narrativa es clara: el software está alcanzando al hardware en IA local. No necesitas una H100 ni la última GPU de $2,000. Necesitas el backend correcto (Vulkan en vez de ROCm), la configuración correcta (llama.cpp bien compilado), y la arquitectura correcta (harness multi-crítico en vez de un solo prompt). MiMo-V2.5 escribiendo herramientas C++ dentro de llama.cpp es poesía ingenieril: modelos pequeños, bien destilados, haciendo trabajo de sistemas que hace un año requería un equipo de developers. La comunidad local LLM sigue siendo el lugar donde ocurre la innovación real — no en los press releases, sino a las 3 AM en un Reddit con un snippet de bash y un «mira lo que he conseguido».
¿Tienes algún comentario o quieres profundizar en algo? Respóndeme.
Si te ha gustado, suscríbete al blog en elmonomudo.com.