Los benchmarks publicados por los fabricantes de modelos de IA suelen mostrar sus versiones más grandes corriendo en hardware de servidor. Pero, ¿qué pasa cuando los pruebas en tu propio equipo, con una GPU de consumo y condiciones reales de uso?
Esto es exactamente lo que hice: tomé ocho de los modelos más relevantes disponibles hoy en Ollama, los corrí en el mismo hardware, con las mismas preguntas, y medí no solo la velocidad de generación sino también el retraso por pensamiento, el consumo de VRAM, el overflow a RAM y el uso de CPU. Los resultados me obligaron a revisar mis opiniones más de una vez — este artículo refleja la tercera y definitiva ronda de evaluación.
El foco especial está en Gemma 4 de Google DeepMind, un modelo que en las comparativas publicadas aparece por debajo de otros competidores, pero que en mis pruebas reales demostró ser consistentemente el mejor para uso cotidiano en hardware de 12 GB.
Hardware usado para las pruebas
- CPU: AMD Ryzen 7 5700G (8 núcleos, arquitectura Zen 3)
- RAM: 32 GB DDR4 a 3200 MHz
- GPU: Gigabyte GeForce RTX 3060 12 GB GDDR6
- Almacenamiento de modelos: HDD 1.8 TB
- Sistema operativo: Debian 12 Bookworm
- Motor de inferencia: Ollama en Docker con CUDA
La RTX 3060 de 12 GB representa el punto de entrada más sensato para IA local en 2026: suficiente VRAM para correr modelos de 14B parámetros completamente en GPU, con una relación precio/rendimiento difícil de superar en el mercado de segunda mano.
Una métrica que nadie menciona: el retraso por pensamiento
Antes de entrar en los datos, hay una métrica que define la experiencia de uso más que cualquier otra y que rara vez aparece en las comparativas: el retraso por pensamiento.
Los modelos modernos con capacidad de razonamiento generan un proceso interno de análisis antes de producir la respuesta visible. Durante ese tiempo, el usuario ve una pantalla en blanco o un indicador de carga. Dependiendo del modelo y la complejidad de la pregunta, ese retraso puede ir de segundos a más de un minuto.
En la práctica, un modelo que genera a 45 tokens por segundo pero tarda 60 segundos en empezar puede sentirse más lento que uno que genera a 30 t/s con 6 segundos de retraso. Evaluar modelos únicamente por velocidad de generación es engañoso.
Tabla comparativa completa
| Modelo | Velocidad (t/s) | VRAM usada | Overflow RAM | CPU | Arranque frío | Retraso thinking |
|---|---|---|---|---|---|---|
| gemma4:e4b | 73.06 | ~10 GB | 0 GB | ~0% | ~90 seg | ~6 seg |
| qwen3.5:9b | 45.22 | 8.8 GB | 0 GB | ~0% | ~60 seg | hasta 60 seg |
| qwen3.5:9b (/nothink) | 45.22 | 8.8 GB | 0 GB | ~0% | ~60 seg | ~10 seg |
| phi4-reasoning:14b | 21.28 | ~12 GB | ~2 GB | ~3% | ~90 seg | ~120 seg |
| mistral-nemo:12b | 46.12 | 7.7 GB | 0 GB | ~0% | ~30 seg | 0 seg |
| deepseek-r1:14b | 33.54 | ~10 GB | 0 GB | ~0% | ~60 seg | ~20 seg |
| qwen3:14b | 32.58 | 10 GB | 0 GB | ~0% | ~20 seg | ~13 seg |
| mistral-small3.2:24b | 6.58 | ~12 GB | ~5 GB | 31% | ~170 seg | 0 seg |
| gemma4:26b | 18 | 12 GB | 8 GB | 41% | ~240 seg | ~50 seg |
Ranking final por calidad de respuesta
- 🥇 gemma4:e4b — Mejor calidad general, más rápido, multimodal
- 🥈 qwen3.5:9b — Buen contenido, excelente formato, thinking lento
- 🥉 phi4-reasoning:14b — Contenido similar a Qwen3.5, formato menos pulido
- 4️⃣ mistral-nemo:12b — Sólido, rápido, sin esperas
- 5️⃣ deepseek-r1:14b — Razonamiento profundo y visible
- 6️⃣ qwen3:14b — Competente pero superado por la nueva generación
- 7️⃣ mistral-small3.2:24b — No escala bien en 12 GB de VRAM
- 8️⃣ gemma4:26b — Descartado en este hardware
Análisis detallado por modelo
1. Gemma 4 E4B — El mejor modelo para hardware de 12 GB
Gemma 4 es la familia de modelos open source más reciente de Google DeepMind, lanzada en abril de 2026. La variante E4B es el punto dulce de la familia para GPUs de 12 GB: cabe completamente en VRAM, no toca la RAM del sistema y no genera carga en el CPU.
¿Qué tiene de especial Gemma 4?
- Multimodal nativo: procesa texto, imágenes y audio en el mismo modelo, sin herramientas adicionales
- Thinking mode con mínimo retraso: solo 6 segundos antes de la primera respuesta — el más bajo del grupo
- 128K tokens de contexto: suficiente para proyectos de código extensos o documentos largos
- Arquitectura MoE eficiente: 4.5B parámetros efectivos en un paquete de 9.6 GB
Datos reales medidos
- Velocidad: 73.06 tokens por segundo
- VRAM: ~10 GB, sin overflow
- CPU: ~0% durante generación
- Arranque en frío: ~90 segundos
- Retraso por thinking: ~6 segundos
A 73 tokens por segundo, el modelo genera texto mucho más rápido de lo que puedes leerlo. Es la experiencia de uso más fluida que he tenido con un modelo local en hardware de consumo.
En las comparativas publicadas, Gemma4 aparece un poco por debajo de modelos como Qwen3.5 en los rankings generales. Sin embargo, en mis pruebas reales la calidad percibida de las respuestas supera a todos los demás del grupo. Hay una brecha clara entre los benchmarks de laboratorio con versiones cloud y la experiencia de uso real con versiones locales en hardware de consumo.
La capacidad multimodal añade una dimensión completamente nueva: pasar una captura de pantalla de un error, un diagrama de arquitectura o un documento y recibir análisis inmediato es algo que ningún otro modelo de esta comparativa ofrece de forma tan integrada.
Veredicto: primer lugar en calidad de respuesta y primer lugar en velocidad. La mejor opción para hardware de 12 GB sin discusión.
2. Qwen 3.5 9B — Buen formato, contenido sobrevalorado por los benchmarks
Qwen3.5 es la familia más reciente de Alibaba. En las comparativas de su versión cloud (Qwen3.5-Plus) aparece al nivel de GPT-5.2 o Claude Opus 4.5. La versión local de 9B es una historia diferente.
Las respuestas tienen muy buen formato y presentación: estructura clara, uso apropiado de listas y encabezados, organización visual cuidada. Sin embargo, el contenido en sí no está a la altura de lo que sugieren los benchmarks de sus versiones cloud. La apariencia de calidad que da el formato puede crear una primera impresión mejor de la que merece el fondo de las respuestas.
El thinking mode introduce el mayor retraso del grupo: hasta 60 segundos antes de la primera respuesta en preguntas complejas. Desactivarlo con /nothink reduce ese tiempo a unos 10 segundos, haciendo el modelo mucho más usable en el día a día, aunque sacrificando parte de su capacidad de razonamiento.
Veredicto: segundo lugar en calidad. Mejor con /nothink para uso cotidiano. Los benchmarks de su versión cloud no reflejan el rendimiento real de la versión local de 9B.
3. Phi4 Reasoning 14B — Potencial sin pulir
Phi4-reasoning es el modelo de razonamiento de Microsoft, parte de la familia Phi4. Con 14B parámetros genera a 21.28 t/s con un ligero overflow de 2 GB a RAM y apenas 3% de uso de CPU.
La calidad del contenido es comparable a Qwen3.5:9b — buen nivel de análisis técnico y respuestas bien razonadas. La diferencia está en el formato: donde Qwen3.5 presenta respuestas visualmente organizadas, Phi4-reasoning tiende a entregar el mismo nivel de contenido de forma más cruda, sin la estructuración visual que facilita la lectura.
Es un modelo prometedor que probablemente mejore con versiones futuras. Para quien prioriza el contenido sobre la presentación, es una alternativa válida en el rango de 14B.
Veredicto: tercer lugar en calidad. Mismo nivel de contenido que Qwen3.5:9b, presentación menos cuidada.
4. Mistral Nemo 12B — El equilibrado que nadie menciona
Mistral Nemo es un modelo que suele quedar fuera de los titulares pero que en las pruebas resulta ser una opción muy práctica. Con solo 7.7 GB de VRAM cabe en GPUs de 8 GB, genera a 46.12 t/s sin ningún retraso por thinking y sin overflow a RAM.
Su valor principal es la consistencia: el arranque más rápido del grupo (~30 segundos), respuesta inmediata sin pausa de pensamiento y compatibilidad con hardware más modesto. La calidad de sus respuestas es competente aunque no destaca especialmente frente a los primeros tres modelos del ranking.
Veredicto: cuarto lugar. La mejor opción para GPUs de 8 GB y para quien necesita respuesta inmediata sin ninguna configuración adicional.
5. DeepSeek R1 14B — El especialista en razonamiento visible
DeepSeek R1 está diseñado específicamente para razonamiento profundo y transparente. Su proceso de pensamiento es visible paso a paso, lo que permite entender no solo la respuesta sino el camino para llegar a ella. Esto tiene valor real en debugging complejo, análisis de sistemas o decisiones arquitectónicas donde el proceso importa tanto como el resultado.
A 33.54 t/s sin overflow a RAM, el rendimiento es sólido. El retraso de ~20 segundos por thinking es aceptable dado el nivel de análisis que produce. Quinto lugar en calidad de respuesta del grupo.
Veredicto: quinto lugar en calidad general. Recomendado cuando el razonamiento visible y trazable es un requisito.
6. Qwen3 14B — Superado por la nueva generación
Qwen3:14b fue durante meses una referencia sólida para tareas de código y arquitectura. A 32.58 t/s sin overflow, sigue siendo competente, y el modo /think activa razonamiento paso a paso cuando se necesita.
El problema es que modelos más nuevos y en algunos casos más pequeños lo superan en calidad. Qwen3.5:9b entrega mejor resultado siendo más pequeño. Phi4-reasoning ofrece análisis comparable con reasoning más explicado. Qwen3:14b ya no es la primera opción en ninguna categoría de esta comparativa.
Veredicto: sexto lugar. Todavía funcional pero sin ventaja frente al resto del grupo.
7. Mistral Small 3.2 24B — No escala bien en 12 GB de VRAM
Mistral Small 3.2 tiene buenas credenciales: 24B parámetros, arquitectura MoE, sin retraso por thinking. En hardware con 24 GB de VRAM probablemente brillaría. En una GPU de 12 GB los números son difíciles de defender.
6.58 t/s de generación, 5 GB de overflow a RAM, 31% de CPU constante y casi 3 minutos de arranque en frío. Para obtener una respuesta comparable a la de los modelos del top 3, el tiempo de espera total es varias veces mayor. La ausencia de retraso por thinking no compensa la lentitud general del modelo en este hardware.
Veredicto: séptimo lugar. Necesita 24 GB de VRAM para ser competitivo. No recomendado en 12 GB.
8. Gemma4 26B — La versión grande que decepciona en este hardware
Con 8 GB de overflow a RAM, 41% de CPU constante, 4 minutos de arranque y ~50 segundos de retraso por thinking, el Gemma4:26b ofrece la peor experiencia de uso del grupo en este hardware. Su versión pequeña, el E4B, es superior en todos los aspectos prácticos cuando la VRAM disponible es de 12 GB.
La mejora de calidad frente al E4B no justifica en ningún caso la penalización de rendimiento. Para este modelo se necesita idealmente una GPU de 24 GB donde pueda correr completamente en VRAM.
Veredicto: último lugar. Usar gemma4:e4b en su lugar para este nivel de hardware.
¿Cuándo usar cada modelo?
Para el día a día y consultas cotidianas: gemma4:e4b. Velocidad, calidad y soporte multimodal. Sin competencia en este hardware.
Para análisis de imágenes, diagramas o documentos: gemma4:e4b. Es el único modelo del grupo con soporte multimodal real integrado.
Para análisis técnico con buen formato: qwen3.5:9b con /nothink. Respuestas bien estructuradas visualmente para documentación o explicaciones.
Para razonamiento trazable paso a paso: deepseek-r1:14b. Cuando el proceso importa tanto como la respuesta.
Para GPUs de 8 GB o menos: mistral-nemo:12b. Cabe cómodo, responde sin esperas y no requiere configuración.
Para autocomplete en el editor: deepcoder:1.5b o phi4-mini:3.8b. Modelos ultraligeros que se quedan cargados en background sin impactar el rendimiento de los modelos principales.
El stack que uso actualmente
- gemma4:e4b — modelo principal para todo el trabajo cotidiano y análisis de imágenes
- qwen3.5:9b — para cuando necesito respuestas bien formateadas o análisis con thinking activado
- deepseek-r1:14b — para debugging complejo y razonamiento técnico profundo
- mistral-nemo:12b — para consultas rápidas sin ninguna espera
- deepcoder:1.5b — autocomplete permanente en VS Code y Visual Studio
Lo que viene en esta serie
Este análisis de modelos es el segundo artículo de una serie sobre IA local. Los próximos temas que planeo cubrir:
- Integración con clientes de codificación: Claude Code, Codex y OpenCode — cómo conectarlos a tu servidor Ollama local y qué diferencias hay entre ellos para el trabajo diario de desarrollo
- Compatibilidad con GitHub Copilot: ¿es posible usar tus modelos locales como backend de Copilot?
- Implementación de un sistema RAG: cómo conectar tu propia base de documentos a los modelos para obtener respuestas basadas en tu conocimiento privado, sin que nada salga de tu red
Si quieres recibir notificación cuando salgan esos artículos, suscríbete al blog.
Conclusiones
Tres lecciones que me llevé de estas pruebas después de tres rondas de evaluación:
1. Los benchmarks de laboratorio no predicen la experiencia real en hardware de consumo. Gemma4 aparece por debajo de Qwen3.5 en muchas comparativas publicadas. En hardware real, Gemma4:e4b gana en calidad percibida, velocidad y experiencia de uso. La versión cloud de un modelo y su versión local de 9B son productos muy distintos.
2. El retraso por thinking puede arruinar un modelo perfectamente capaz. Qwen3.5:9b tiene buenas respuestas pero su retraso de hasta 60 segundos por thinking lo hace frustrante para uso cotidiano. Desactivarlo con /nothink es la solución práctica, aunque implica sacrificar parte de su capacidad de razonamiento.
3. Con una RTX 3060 de 12 GB ya se puede hacer trabajo serio con IA local. Gemma4:e4b a 73 t/s con soporte multimodal, completamente en local, sin suscripciones y sin que tus datos salgan de tu red. Eso habría parecido imposible hace dos años en hardware de consumo.
¿Has probado alguno de estos modelos? ¿Tu experiencia coincide con la mía o llegaste a conclusiones diferentes? Los comentarios están abiertos.