---
title: "Ejecutar OpenClaw con Ollama: Guía de Modelos Locales"
description: "Cómo ejecutar OpenClaw con Ollama gratis, con privacidad e inferencia LLM local. Cubre requisitos de hardware, modelos recomendados por nivel de GPU/RAM, Nanbeige4.1-3B para máquinas modestas, configuración completa y estrategias de fallback."
date: 2026-02-24
categories: ["AI"]
tags: ["ai-tools","openclaw","self-hosted"]
---

import Notice from "@components/widgets/Notice.astro";
import ListCheck from "@components/widgets/ListCheck.astro";
import Accordion from "@components/widgets/Accordion.astro";
import Tabs from "@components/widgets/Tabs.astro";
import Tab from "@components/widgets/Tab.astro";
import Button from "@components/widgets/Button.astro";

Llevo un tiempo usando OpenClaw con proveedores de API, y las facturas se acumulan. Incluso modelos baratos como GLM-5 y MiniMax M2.5 cuestan algo, y cada mensaje pasa por el servidor de otra persona. Así que configuré Ollama en la misma máquina y apunté OpenClaw hacia él. Cero coste por token, privacidad total, y la latencia es bastante decente si eliges el modelo adecuado para tu hardware.

Esta guía cubre cómo hacer que OpenClaw se comunique con Ollama, qué modelos funcionan bien para diferentes niveles de hardware, y qué hacer cuando tu máquina no puede con los modelos más grandes. Respuesta corta a esto último: Nanbeige4.1-3B es sorprendentemente bueno para ser un modelo de 3B.

<Notice type="info" title="Lo Que Necesitarás">
<ListCheck>
<ul>
<li>OpenClaw instalado y funcionando ([guía de configuración aquí](/es/guia-configuracion-openclaw/))</li>
<li>Una máquina con al menos 8GB de RAM (16GB+ recomendado para buenos modelos)</li>
<li>Ollama instalado (un solo comando en Linux/macOS)</li>
<li>No se necesitan API keys — todo se ejecuta localmente</li>
</ul>
</ListCheck>
</Notice>

## Por Qué Ejecutar Modelos Locales con OpenClaw

Tres razones para molestarse con esto en lugar de simplemente usar una API:

<ListCheck>
<ul>
<li>**$0 por token** — Ollama es gratis. Sin facturas de API, sin límites de velocidad, sin topes de uso</li>
<li>**Privacidad** — las conversaciones nunca salen de tu máquina. Sin logging de terceros, sin políticas de retención de datos que leer</li>
<li>**Sin dependencia de internet** — funciona en una red aislada, durante cortes, en un avión</li>
</ul>
</ListCheck>

La contrapartida es real: los modelos locales son más lentos y menos capaces que Claude Opus o GPT-5. Pero para las tareas cotidianas de OpenClaw como responder mensajes y ejecutar trabajos programados, un modelo local decente lo maneja bien.

## Requisitos de Hardware

Esta es la parte que la mayoría de guías se equivocan. Te dicen el tamaño del modelo y se olvidan de la experiencia real. Esto es lo que he encontrado ejecutando diferentes niveles.

### La VRAM Es Lo Que Importa

Los modelos se ejecutan en la VRAM de la GPU cuando está disponible. Si el modelo no cabe en la VRAM, se desborda a la RAM del sistema y se vuelve mucho más lento. La inferencia solo con CPU funciona, pero espera respuestas 5-10x más lentas.

| Nivel de Hardware | VRAM / RAM | Mejor Tamaño de Modelo | Velocidad de Respuesta |
|---|---|---|---|
| **Gama baja** (sin GPU, 8GB RAM) | 8GB sistema | Modelos 1B-3B | Lenta (5-15 tok/s) |
| **Gama media** (sin GPU, 16-32GB RAM) | 16-32GB sistema | Modelos 7B-8B | Moderada (10-25 tok/s) |
| **GPU básica** (RTX 3060 12GB / M1 16GB) | 12-16GB | Modelos 7B-14B | Buena (30-60 tok/s) |
| **GPU media** (RTX 4070 Ti 16GB / M2 Pro 32GB) | 16-32GB | Modelos 14B-32B | Buena (40-80 tok/s) |
| **GPU alta** (RTX 4090 24GB / M4 Max 128GB) | 24-128GB | Modelos 32B-70B | Rápida (50-100+ tok/s) |

<Notice type="warning" title="Nota sobre Apple Silicon">
Los Mac con M1/M2/M3/M4 comparten memoria unificada entre CPU y GPU, así que Ollama puede usar toda la RAM del sistema como VRAM. Un Mac Mini M4 con 32GB de RAM puede ejecutar cómodamente modelos de 14B-32B. Por eso los Mac Mini son populares para configuraciones de OpenClaw.
</Notice>

### Configuraciones Recomendadas

<Tabs>
<Tab name="Económico ($50-100/mes VPS)">

**Hetzner CAX31 o similar**
- 8 vCPU (ARM), 32GB RAM, sin GPU
- Ejecuta modelos 7B-8B a velocidades usables
- Mejor modelo: `qwen3:8b` o `gpt-oss:20b`
- Coste: ~€15/mes en Hetzner

Suficiente para un asistente personal que gestione mensajes y tareas simples. No esperes respuestas rápidas en problemas complejos de programación.

</Tab>
<Tab name="Gama media (Mac Mini)">

**Mac Mini M4 con 32GB RAM**
- La memoria unificada actúa como VRAM
- Ejecuta modelos 14B-32B cómodamente
- Mejor modelo: `qwen2.5-coder:32b` o `qwen3:32b`
- Coste: ~$800 único

El punto ideal para la mayoría de personas. Los modelos de 32B manejan bien programación, escritura y tool calls. Esto es lo que compraría si empezara de cero.

</Tab>
<Tab name="Gama alta (Servidor GPU)">

**RTX 4090 24GB o configuración dual GPU**
- 24GB de VRAM para un solo modelo 70B cuantizado
- Mejor modelo: `llama3.3:70b` o `deepseek-r1:70b`
- Coste: ~$2000+ único por la GPU

Los modelos de 70B se acercan a la calidad de respuesta de las API. Merece la pena si estás reemplazando un gasto de $100+/mes en API.

</Tab>
<Tab name="Mínimo (8GB RAM)">

**Cualquier máquina con 8GB RAM**
- Inferencia solo CPU, lenta pero funciona
- Mejor modelo: `nanbeige4.1-3b` (ver sección más abajo)
- Alternativa: `qwen3:1.7b` o `llama3.2:3b`

Sorprendentemente usable para conversaciones simples y tareas básicas. No es ideal para programación.

</Tab>
</Tabs>

---

## Instalar Ollama

Un solo comando:

```bash
curl -fsSL https://ollama.ai/install.sh | sh
```

En macOS, descarga desde [ollama.ai](https://ollama.ai) o usa Homebrew:

```bash
brew install ollama
```

Verifica que está funcionando:

```bash
ollama --version
ollama list
```

Si `ollama list` funciona, estás listo.

---

## Elegir el Modelo Correcto

No todos los modelos funcionan bien con OpenClaw. Necesitas **soporte de tool calling** (para que el agente pueda usar sus herramientas) e idealmente **buen seguimiento de instrucciones**. Aquí están los modelos que he probado, ordenados por nivel de hardware.

### Mejores Modelos por Nivel

| Modelo | Tamaño | VRAM Necesaria | Tool Calling | Mejor Para |
|---|---|---|---|---|
| `qwen2.5-coder:32b` | 32B | ~20GB | Sí | Programación, tareas complejas |
| `qwen3:32b` | 32B | ~20GB | Sí | General + razonamiento |
| `gpt-oss:20b` | 20B | ~14GB | Sí | General, uso de herramientas |
| `qwen3:8b` | 8B | ~6GB | Sí | Propósito general |
| `llama3.3:70b` | 70B | ~42GB | Sí | Mejor calidad local |
| `qwen2.5-coder:14b` | 14B | ~10GB | Sí | Programación en gama media |
| `deepseek-r1:14b` | 14B | ~10GB | Sí | Tareas de razonamiento |
| `mistral-small3.2:24b` | 24B | ~16GB | Sí | Visión + herramientas |
| `qwen3:4b` | 4B | ~3GB | Sí | General económico |
| `nanbeige4.1-3b`* | 3B | ~2.5GB | Sí | Económico, ver abajo |

\* Subida comunitaria en Ollama — ver sección de Nanbeige más abajo.

### Mis Recomendaciones

- **Mac Mini 32GB o GPU de 16GB+**: `qwen2.5-coder:32b` como principal, `qwen3:8b` como fallback
- **16GB RAM, sin GPU**: `qwen3:8b` como principal, `qwen3:4b` como fallback
- **8GB RAM**: `nanbeige4.1-3b` o `qwen3:4b`

Descarga tu modelo elegido:

```bash
ollama pull qwen2.5-coder:32b
# o para hardware más modesto:
ollama pull qwen3:8b
# o para hardware mínimo:
ollama pull tomng/nanbeige4.1
```

---

## Nanbeige4.1-3B: La Sorpresa Económica

Este modelo me pilló desprevenido. Nanbeige4.1-3B es un modelo de 3B parámetros de Nanbeige Lab (un equipo de Kanzhun/BOSS Zhipin) que rinde muy por encima de su categoría. Mira estos números:

| Benchmark | Nanbeige4.1-3B | Qwen3-4B | Qwen3-8B | Qwen3-32B |
|---|---|---|---|---|
| **LiveCodeBench-V6** | **76.9** | 57.4 | 49.4 | 55.7 |
| **AIME 2026 I** (matemáticas) | **87.4** | 81.5 | 70.4 | 75.8 |
| **GPQA** (ciencia) | **83.8** | 65.8 | 62.0 | 68.4 |
| **Arena-Hard-v2** (alineación) | **73.2** | 34.9 | 26.3 | 56.0 |
| **BFCL-V4** (uso de herramientas) | **56.5** | 44.9 | 42.2 | 47.9 |

Un modelo de 3B superando a Qwen3-32B en benchmarks de programación. Obtiene 56.5 en BFCL-V4 (uso de herramientas), lo cual importa porque OpenClaw depende del tool calling. También puede manejar más de 500 rondas de invocaciones de herramientas para tareas de búsqueda profunda. No conozco otro modelo de menos de 4B que pueda hacer eso.

### Cuándo Usarlo

- Tu máquina tiene 8GB de RAM y no tiene GPU
- Quieres un modelo de respaldo que use recursos mínimos
- Estás ejecutándolo en un Raspberry Pi 5 o placa ARM similar
- Necesitas un fallback de emergencia cuando tu modelo principal es demasiado lento

### Cuándo NO Usarlo

- Tienes hardware para modelos más grandes — los de 8B+ seguirán dando mejores resultados en tareas complejas
- Necesitas escritura creativa extensa o conversación con matices
- Estás haciendo refactorización pesada de código en múltiples archivos

### Instalar Nanbeige4.1-3B

El modelo está disponible a través de subidas comunitarias en Ollama. La versión más popular con soporte de herramientas:

```bash
ollama pull tomng/nanbeige4.1
```

También puedes importar el GGUF desde HuggingFace si quieres una cuantización específica:

```bash
# Download the Q4_K_M quantization (smallest useful size, ~2.3GB)
# From: huggingface.co/Edge-Quant/Nanbeige4.1-3B-Q4_K_M-GGUF

# Create a Modelfile
cat > Modelfile << 'EOF'
FROM ./Nanbeige4.1-3B-Q4_K_M.gguf
PARAMETER temperature 0.6
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0
TEMPLATE """{{- if .System }}{{ .System }}{{ end }}
{{- range .Messages }}
{{- if eq .Role "user" }}
{{ .Content }}
{{- else if eq .Role "assistant" }}
{{ .Content }}
{{- end }}
{{- end }}"""
EOF

ollama create nanbeige4.1-3b -f Modelfile
```

---

## Configurar OpenClaw para Ollama

### Paso 1: Habilitar Ollama

Establece la variable de entorno que le dice a OpenClaw que busque Ollama:

```bash
export OLLAMA_API_KEY="ollama-local"
```

O añádelo permanentemente a tu entorno de OpenClaw:

```bash
# Add to ~/.openclaw/.env
echo 'OLLAMA_API_KEY=ollama-local' >> ~/.openclaw/.env
```

El valor no importa (Ollama no lo verifica), pero OpenClaw lo necesita configurado para habilitar el proveedor de Ollama.

### Paso 2: Verificar el Descubrimiento

OpenClaw descubre automáticamente los modelos de Ollama con soporte de herramientas. Comprueba lo que encontró:

```bash
openclaw models list --local
```

Deberías ver tus modelos descargados listados. Si un modelo no aparece, puede que no reporte soporte de herramientas. Aún puedes usarlo añadiendo configuración explícita (ver Paso 3).

### Paso 3: Establecer Tu Modelo

Para una configuración sencilla con un solo modelo:

```bash
openclaw models set ollama/qwen2.5-coder:32b
```

O edita tu archivo de configuración (`~/.openclaw/openclaw.json`):

```json
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b"
      }
    }
  }
}
```

### Paso 4: Configurar Fallbacks

Los fallbacks importan más con modelos locales porque un solo modelo puede ser demasiado lento o quedarse sin contexto. Configura una cadena:

```json
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b",
        "fallbacks": [
          "ollama/qwen3:8b",
          "ollama/tomng/nanbeige4.1"
        ]
      }
    }
  }
}
```

Si el modelo de 32B se atasca con un contexto largo, OpenClaw pasa al de 8B, y luego a Nanbeige.

### Ejemplo de Configuración Completa (Hardware de Gama Media)

Aquí tienes una configuración completa para un Mac Mini de 32GB:

```json
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b",
        "fallbacks": ["ollama/qwen3:8b"]
      },
      "imageModel": {
        "primary": "ollama/mistral-small3.2:24b"
      }
    }
  }
}
```

### Ejemplo de Configuración Completa (Hardware de Gama Baja)

Para una máquina con 8GB de RAM o Raspberry Pi:

```json
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/tomng/nanbeige4.1",
        "fallbacks": ["ollama/qwen3:1.7b"]
      }
    }
  }
}
```

---

## Configuración Explícita del Proveedor (Ollama Remoto)

Si Ollama se ejecuta en una máquina diferente (por ejemplo, un servidor GPU en tu LAN), necesitas configuración explícita en lugar del descubrimiento automático:

```json
{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://192.168.1.50:11434",
        "apiKey": "ollama-local",
        "api": "ollama",
        "models": [
          {
            "id": "qwen2.5-coder:32b",
            "name": "Qwen 2.5 Coder 32B",
            "reasoning": false,
            "input": ["text"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 32768,
            "maxTokens": 8192
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b"
      }
    }
  }
}
```

<Notice type="warning" title="Recordatorio de Seguridad">
Si estás exponiendo Ollama a través de la red, asegúrate de que sea en una red de confianza (Tailscale, LAN detrás de firewall). Ollama no tiene autenticación integrada. Consulta la [guía de seguridad de OpenClaw](/es/guia-seguridad-openclaw/) para proteger tu configuración.
</Notice>

---

## Configuración Híbrida: Local + API como Fallback

La configuración que realmente recomiendo es híbrida. Modelo local como principal, API económica como fallback para cuando el modelo local no da abasto. Obtienes privacidad y coste cero para el 90% de los mensajes, y la calidad de la API está ahí cuando la necesitas.

```json
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b",
        "fallbacks": [
          "ollama/qwen3:8b",
          "zai/glm-5"
        ]
      }
    }
  }
}
```

Con esta configuración, OpenClaw prueba primero el modelo local de 32B. Si el contexto es demasiado largo o el modelo da error, pasa al de 8B local. Si ese también falla, recurre a la API de GLM-5 (que es barata). Puedes configurar GLM-5 o MiniMax M2.5 como tu fallback de API siguiendo la [guía de mejores modelos open source](/es/mejores-modelos-opensource-openclaw/).

---

## Cambiar de Modelo Sobre la Marcha

No tienes que reiniciar OpenClaw para cambiar de modelo. Usa el comando `/model` en el chat:

```
/model                        # Show available models
/model list                   # Full list with providers
/model ollama/qwen3:8b        # Switch to a different model
/model status                 # Check current model + auth
```

Útil para probar: descarga un nuevo modelo con `ollama pull`, y aparece automáticamente en `/model list` (con el descubrimiento automático habilitado).

---

## Ajuste de Rendimiento

### Ventana de Contexto

Ollama reporta la ventana de contexto desde los metadatos del modelo. Puedes sobreescribirla en la configuración explícita:

```json
{
  "models": {
    "providers": {
      "ollama": {
        "models": [{
          "id": "qwen2.5-coder:32b",
          "contextWindow": 65536,
          "maxTokens": 16384
        }]
      }
    }
  }
}
```

Las ventanas de contexto más grandes usan más VRAM. Si estás alcanzando los límites de memoria, reduce `contextWindow`.

### Ejecutar Múltiples Modelos

Ollama puede mantener múltiples modelos cargados si tienes suficiente VRAM. Configura `OLLAMA_NUM_PARALLEL` para controlar la concurrencia:

```bash
OLLAMA_NUM_PARALLEL=2 ollama serve
```

Con suficiente VRAM, puedes ejecutar un modelo de programación y uno general simultáneamente, alternando entre ellos con `/model` en OpenClaw.

### Capas de GPU

Si tienes una GPU pero no suficiente VRAM para el modelo completo, Ollama descarga automáticamente algunas capas a la CPU. Puedes controlar esto:

```bash
OLLAMA_GPU_LAYERS=35 ollama serve
```

Más capas en GPU = más rápido pero más VRAM. Experimenta para encontrar tu punto ideal.

---

## Solución de Problemas

<Accordion label="Problemas Comunes" group="troubleshooting" expanded="true">

**El modelo no aparece en `openclaw models list`**

El descubrimiento automático de OpenClaw solo muestra modelos con soporte de herramientas. Descarga un modelo compatible con herramientas o defínelo explícitamente en `models.providers.ollama`. Verifica con:
```bash
ollama list
curl http://localhost:11434/api/tags
```

**Las respuestas son extremadamente lentas**

Tu modelo probablemente se está ejecutando en CPU. Comprueba si el modelo cabe en tu VRAM/RAM disponible. Soluciones:
- Cambia a un modelo más pequeño (`qwen3:8b` en lugar de `qwen3:32b`)
- En Mac: cierra otras aplicaciones para liberar memoria unificada
- En Linux con GPU: comprueba `nvidia-smi` para ver el uso de VRAM

**Errores de "Connection refused"**

Ollama no está ejecutándose. Inícialo:
```bash
ollama serve
```
O en macOS, abre la aplicación Ollama. Verifica que la API es accesible:
```bash
curl http://localhost:11434/api/tags
```

**Las tool calls fallan o son ignoradas**

Puede que el modelo no soporte bien el tool calling. Cambia a un modelo que maneje bien las herramientas: `qwen2.5-coder`, `qwen3`, `gpt-oss`, o `llama3.3`. Evita modelos antiguos como `llama2` o `codellama` para OpenClaw.

**Crashes por falta de memoria**

El modelo es demasiado grande. Opciones:
- Descarga una cuantización más pequeña: `ollama pull qwen3:8b-q4_0`
- Cambia a un modelo más pequeño
- Añade más RAM/swap (no es ideal pero funciona)

**Nanbeige4.1-3B no encontrado**

Es una subida comunitaria, no está en la biblioteca oficial. Descárgalo con el namespace:
```bash
ollama pull tomng/nanbeige4.1
```

</Accordion>

---

## Consideraciones de Seguridad

Ejecutar modelos localmente es inherentemente más privado que las llamadas a API, pero no te saltes lo básico:

- **Ollama no tiene autenticación**: cualquiera en tu red que pueda alcanzar el puerto 11434 puede usar tus modelos. Vincúlalo a localhost o usa un firewall.
- **Descargas de modelos**: Ollama descarga modelos desde ollama.com. Si te preocupa la seguridad, verifica los checksums de los modelos o usa instalaciones sin conexión.
- **Seguridad de OpenClaw**: los modelos locales no cambian el modelo de amenazas de OpenClaw. Sigue la [guía de hardening de seguridad](/es/guia-seguridad-openclaw/) para la configuración del gateway, modo sandbox y revisión de skills.

---

## Guías Relacionadas

- [Guía de Configuración de OpenClaw](/es/guia-configuracion-openclaw/) — instalación completa en VPS de Hetzner o Mac Mini
- [Mejores Modelos Open Source para OpenClaw](/es/mejores-modelos-opensource-openclaw/) — modelos basados en API (GLM-5, MiniMax M2.5) para cuando lo local no es suficiente
- [Búsqueda DuckDuckGo para OpenClaw](/es/busqueda-duckduckgo-openclaw/) — búsqueda web gratuita que combina bien con modelos locales
- [Guía de Seguridad de OpenClaw](/es/guia-seguridad-openclaw/) — proteger tu instancia, especialmente relevante cuando se ejecuta en una LAN
- [Mejores Dashboards de OpenClaw](/es/mejores-dashboards-openclaw/) — dashboards que muestran uso de modelos y coste (útil para rastrear el uso local a $0 vs gasto en fallback de API)
- [Alternativas a OpenClaw](/es/alternativas-openclaw/) — otras plataformas con su propio soporte de modelos locales

---

<Accordion label="Preguntas Frecuentes" group="faq" expanded="true">

**¿Puedo ejecutar OpenClaw completamente offline con Ollama?**

Sí, una vez que los modelos estén descargados y OpenClaw esté instalado. No se necesita internet para la inferencia. No tendrás búsqueda web ni integraciones de canales (Telegram, WhatsApp), pero la CLI y las sesiones locales funcionan perfectamente.

**¿Qué modelo ofrece la mejor calidad por dólar?**

No hay dólares involucrados — Ollama es gratis. La pregunta es calidad por hardware. En un Mac Mini de 32GB, `qwen2.5-coder:32b` da los mejores resultados que he visto. Con 8GB de RAM, `nanbeige4.1-3b` es el mejor equilibrio entre velocidad y capacidad.

**¿Cómo se compara Nanbeige4.1-3B con modelos de API como GLM-5?**

GLM-5 sigue siendo mejor para tareas complejas, especialmente programación en múltiples pasos. Nanbeige4.1-3B es competitivo en benchmarks, pero el uso real de OpenClaw implica contextos largos y conversaciones de múltiples turnos donde los modelos más grandes tienen ventaja. Usa Nanbeige para tareas rápidas y mensajes, modelos de API para lo pesado.

**¿Puedo usar Ollama y proveedores de API al mismo tiempo?**

Sí, y lo recomiendo. Configura un modelo de Ollama como principal y un modelo de API económico como fallback. OpenClaw gestiona el cambio automáticamente cuando un modelo falla o no puede manejar el contexto.

**¿Funciona el tool calling con todos los modelos de Ollama?**

No. El descubrimiento automático de OpenClaw solo muestra modelos que reportan soporte de herramientas. Los modelos más antiguos y algunos más pequeños no lo soportan. Los modelos listados en esta guía todos soportan tool calling. Puedes verificarlo con `ollama show <modelo>` y buscar `tools` en las capacidades.

**¿Qué hay de ejecutar Ollama en un Raspberry Pi?**

Un Raspberry Pi 5 con 8GB de RAM puede ejecutar modelos de 1B-3B. Nanbeige4.1-3B o `qwen3:1.7b` son tus mejores opciones. Las respuestas serán lentas (2-5 tokens/segundo) pero funcionales para tareas simples. No esperes que maneje preguntas de programación.

**¿Es vLLM mejor que Ollama para OpenClaw?**

vLLM ofrece mejor throughput en configuraciones multi-GPU y cargas de trabajo en producción. Ollama es más sencillo de configurar y mejor para escenarios de un solo usuario. Para una instancia personal de OpenClaw, Ollama es la elección correcta. Si estás ejecutando múltiples agentes o necesitas inferencia concurrente, considera vLLM.

**¿Cuánta RAM necesito realmente para el modelo X?**

Fórmula aproximada: parámetros del modelo × 0.6GB para cuantización Q4. Así que un modelo de 7B necesita ~4.2GB, uno de 14B necesita ~8.4GB, uno de 32B necesita ~19.2GB. Añade 2-4GB de margen para el sistema y la sobrecarga de Ollama. Estos son mínimos — más RAM significa ventanas de contexto más grandes.

</Accordion>

Los modelos locales con Ollama no van a reemplazar a Claude Opus para trabajo complejo. Pero cubren el 80-90% de lo que uso OpenClaw: responder mensajes, ejecutar cron jobs, búsquedas, automatizaciones. La configuración híbrida (local como principal + API como fallback) significa privacidad y coste cero la mayor parte del tiempo, con calidad de API cuando realmente la necesitas.

Empieza con el modelo que se ajuste a tu hardware. Si tienes un Mac Mini, ve directo a `qwen2.5-coder:32b`. Si estás en un VPS económico con 8GB de RAM, descarga Nanbeige4.1-3B y sorpréndete.

Para el resto del stack de OpenClaw: [guía de configuración](/es/guia-configuracion-openclaw/), [recomendaciones de modelos de API](/es/mejores-modelos-opensource-openclaw/), [búsqueda web gratuita](/es/busqueda-duckduckgo-openclaw/), [hardening de seguridad](/es/guia-seguridad-openclaw/), [dashboards](/es/mejores-dashboards-openclaw/) y [plataformas alternativas](/es/alternativas-openclaw/).