Caveman · el plugin que hace que Claude Code ahorre 75% de tokens

01 · Vistazo

¿Qué es Caveman? · brain still big, mouth small

Caveman es un skill/plugin open source que obliga a tu agente de IA a responder con sintaxis telegráfica estilo cavernícola en vez de inglés conversacional. Misma respuesta técnica. 65% menos tokens en promedio. 100% de precisión. ~3x más rápido.

Fue creado por Julius Brussee (github.com/JuliusBrussee/caveman), tiene licencia MIT y funciona en 30+ agentes: Claude Code, Cursor, Codex, Gemini CLI, Windsurf, Cline, GitHub Copilot y 23 más.

La frase de cabecera del repo lo dice todo: "why use many token when few do trick".

Decorative atmospheric background for booking section

100+ marcas ya operan con el sistema

¿Querés el stack de IA correcto operando en tu negocio?

Sin demos infinitas. Sin contratar consultor. Sin elegir mal.

thrivevenice.Californiathrivevenice.California

02 · Antes vs después

¿Mismo fix con 75% menos palabras? · antes vs después

Los dos ejemplos canónicos del README de Julius. Misma respuesta técnica, fracción de los tokens.

× Claude normal · 69 tokens

"The reason your React component is re-rendering is likely because you're creating a new object reference on each render cycle. When you pass an inline object as a prop, React's shallow comparison sees it as a different object every time, which triggers a re-render. I'd recommend using useMemo to memoize the object."

✓ Caveman Claude · 19 tokens

"New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo."

× Claude normal

"Sure! I'd be happy to help you with that. The issue you're experiencing is most likely caused by your authentication middleware not properly validating the token expiry. Let me take a look and suggest a fix."

✓ Caveman Claude

"Bug in auth middleware. Token expiry check use < not <=. Fix:"

03 · Instalación

¿Cómo instalo Caveman en 30 segundos? · una sola línea

Una sola línea auto-detecta los treinta agentes que tengas instalados en tu máquina y los configura todos. Escogé uno de los dos caminos según tu sistema.

Camino 1 · macOS / Linux / WSL / Git Bash

Pegá este comando en la terminal:

caveman · install macOS/Linux

❯curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

✓TDetectando agentes…

✓A✓ Claude Code · skill instalado

✓A✓ Cursor · rule file con --with-init

✓A✓ Codex · skill instalado

✓A✓ Gemini CLI · extension instalada

✓A✓ Windsurf · rule file con --with-init

✓E~30s · safe to re-run · skipea agentes no instalados

Para quien usa una Mac o Linux y ya abrió la terminal alguna vez.

Camino 2 · Windows (PowerShell 5.1+)

Pegá este comando en PowerShell:

irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex

Para quien usa Windows y PowerShell. Si no sabés qué versión tenés, escribí $PSVersionTable.PSVersion y dale enter.

Requisitos: Node 18 o superior. Si el install falla, abrí el agente y pedile "Read CLAUDE.md and INSTALL.md, install caveman for me" — el propio agente repara el setup.

Para opciones avanzadas (un agente específico, instalación manual, los otros 25 agentes), ver INSTALL.md del repo.

04 · Activar

¿Cómo activo el modo cavernícola?

Adentro de cualquier sesión de Claude Code, Cursor, Codex o el agente que uses, pegá este slash command:

claude-code · session

❯/caveman

✓A🪨 caveman mode ON · level: full

✓Tsay "normal mode" to exit

También funciona en lenguaje natural: decile "talk like caveman". Para salir, "normal mode".

Garantía: en Claude Code, Codex y Gemini CLI, Caveman se auto-activa cada sesión (el skill queda registrado). En Cursor, Windsurf, Cline y Copilot se carga siempre porque el instalador escribe un rule file con --with-init. Los demás agentes lo activan por sesión con /caveman.

05 · Niveles

¿Cuáles son los 4 niveles de compresión? · de filler-clean a wenyan

Caveman trae cuatro modos. Cambiás entre ellos con un solo comando. El nivel queda fijo hasta fin de sesión o hasta que digas "normal mode".

lite · Filler-clean

Recorta saludos, disculpas, conclusiones — pero conserva oraciones gramaticales completas.

/caveman lite

Para reviews de PR donde otros humanos tienen que leer la respuesta. Para docs internas que después vas a copiar a Notion.

full · Default cavernícola (activo por defecto al correr /caveman sin argumentos)

Sujeto omitido, sintaxis telegráfica, máximo grunt. El modo que viste en los ejemplos de arriba.

/caveman full

Para coding del día a día. Refactor, fix de bug claro, code review interno.

ultra · Telegráfico extremo

Salta artículos, conectores, lo que sea redundante. Casi puras keywords técnicas.

/caveman ultra

Para cuando solo vos vas a leer el output y querés máxima velocidad / mínimo gasto.

wenyan · Chino clásico

Cada carácter de 文言 lleva más información semántica que una palabra inglesa promedio — los modelos modernos entienden y producen wenyan sin problema, así que es viable usarlo como formato de compresión máxima.

/caveman wenyan

Para nerds de la compresión que ya probaron los otros tres y quieren ver el límite.

06 · Comandos

¿Cuáles son los 7 comandos del plugin? · /caveman y sus seis acompañantes

Estos son los siete comandos que vas a usar en el día a día. /caveman es el principal — los otros atacan otros vectores de gasto de tokens.

Comando	Qué hace	Cuándo usarlo
`/caveman [nivel]`	Activa el modo cavernícola al nivel indicado (lite/full/ultra/wenyan). Persiste hasta fin de sesión.	Al arrancar cualquier sesión de coding.
`/caveman-commit`	Genera mensajes Conventional Commit ≤50 chars en el subject. Why over what.	Cada commit. Sirve también con co-author Claude.
`/caveman-review`	Comments de PR de una línea: `L42: 🔴 bug: user null. Add guard.`	Al revisar PRs de otros devs.
`/caveman-stats`	Tokens consumidos en la sesión + lifetime savings + equivalente USD. Flag `--share` devuelve tweet listo.	Cuando querés validar que la instalación está activa o mostrarle a tu CTO el ROI.
`/caveman-compress <archivo>`	Reescribe `CLAUDE.md` u otro memory file en caveman-speak. Ahorra ~46% input tokens cada sesión.	Al optimizar un proyecto. Código, URLs y paths se preservan byte a byte.
`caveman-shrink`	Middleware MCP que envuelve cualquier servidor MCP y comprime las tool descriptions. Publicado en npm.	Si usás muchos MCPs y querés atacar el otro lado del gasto.
`cavecrew-*`	Subagentes Caveman (investigator, builder, reviewer). ~60% menos tokens que vanilla — el contexto principal dura más.	Para flows agénticos multi-step donde el contexto es escaso.

07 · Comprimir memory

¿Cuál es el truco under-rated? · comprimir tu CLAUDE.md

Este es el comando que casi nadie usa y que más ahorra: comprimir el CLAUDE.md del proyecto para que pese menos en input cada vez que arranca una sesión.

claude-code · compress memory

❯/caveman-compress CLAUDE.md

✓TReading CLAUDE.md (4.2k tokens)…

✓ACompressed → 2.3k tokens (-45%)

✓ACode blocks, URLs, paths preserved byte-for-byte

✓ESave as CLAUDE.md? (y/n)

Garantía: el código entre backticks, las URLs y los paths absolutos se preservan byte a byte. Lo único que se comprime es la prosa explicativa.

Si todavía no tenés un buen CLAUDE.md, primero ajustalo siguiendo las ocho reglas para ahorrar 80% en tokens con CLAUDE.md. Después comprimilo. Doble combo.

08 · Medir ahorro

¿Cómo veo cuánto ahorré? · `/caveman-stats`

Es el medidor de ahorro real. Te muestra los números de la sesión actual + el acumulado lifetime + el equivalente en USD.

claude-code · stats

❯/caveman-stats

✓A📊 Session: 14,231 tokens used

✓A Without caveman: ~38,420 tokens

✓A Saved: 24,189 tokens (63%) · ~$0.36

✓T🏆 Lifetime: 1.2M tokens saved · ~$18.47

✓EAdd --share to copy tweet

Además, Claude Code te setea un badge persistente en la statusline que muestra [CAVEMAN] ⛏ 1.2M con tu lifetime actualizado en tiempo real.

Si te molesta visualmente: silenciar el badge con CAVEMAN_STATUSLINE_SAVINGS=0 en tu env. El plugin lo respeta.

09 · Benchmarks

¿Cuáles son los números reales? · medidos contra la API de Anthropic

Promedio sobre diez prompts representativos del README oficial:

Métrica	Valor
Reducción promedio output tokens	65%
Rango	22% – 87%
Precisión técnica	100% (intacta)
Aumento de velocidad	~3x
Reducción input tokens (con `/caveman-compress`)	~46% por sesión

El "75%" viral del reel es el caso típico cuando el agente normalmente daría párrafos. En tareas que ya eran concisas, el delta es menor. En tareas conversacionales largas, llega al 87%.

10 · Cuándo NO usar

¿Cuándo NO conviene Caveman? · contraindicaciones

Caveman no es para todo. Tres casos donde no aplica:

× No usar cuando…

Estás onboardeando un dev junior que necesita las explicaciones largas. La respuesta del agente va a quedar pegada en un doc público / blog post / Notion compartido. Estás debug-eando un bug que ni vos sabés cómo describir y necesitás que el agente piense en voz alta para destrabarte.

✓ Sí usar cuando…

Estás pair-programmeando con vos mismo: refactor, fix de bug claro, code review interno. Tenés contexto cargado en CLAUDE.md y querés respuestas accionables sin explicación. Querés que tu suscripción Claude Pro o tu API budget rinda el doble.

Si dudás, arrancá con lite (solo recorta filler pero mantiene gramática completa). Si te gusta cómo va, subí a full.

11 · Combo final

¿Cuál es el stack completo para extraer todo el jugo?

Caveman solo da el 65%. Combinado con otras dos prácticas, podés llegar al 85%.

Instalar Caveman (este post) — curl ... | bash → ahorra output tokens.
Optimizar tu CLAUDE.md con las ocho reglas — ahorra input tokens por estructura.
Comprimir el CLAUDE.md con /caveman-compress CLAUDE.md — ahorra input tokens por densidad.
Activar caveman-shrink si usás muchos MCPs — ataca el último vector.

Tu suscripción rinde el doble. Tu agente responde más rápido. Vos terminás el día con menos fricción.

Brain still big. Mouth small.

📦 Repo: github.com/JuliusBrussee/caveman

100+ marcas ya operan con el sistema

¿Querés el stack de IA correcto operando en tu negocio?

Sin demos infinitas. Sin contratar consultor. Sin elegir mal.

thrivevenice.Californiathrivevenice.California

Preguntas frecuentes sobre plugin Caveman para Claude Code

Caveman es un skill/plugin open source creado por Julius Brussee que reescribe el comportamiento de Claude Code, Cursor, Codex, Gemini CLI, Windsurf, Cline, Copilot y veinticinco agentes más para que respondan con sintaxis telegráfica estilo cavernícola en vez de inglés conversacional. La frase de cabecera del repo es brutalmente honesta: "why use many token when few do trick". La idea técnica es que los modelos siguen razonando con el mismo cerebro de siempre, pero emiten solo la palabra mínima necesaria para transmitir el fix, eliminando saludos, disculpas, contexto innecesario y resúmenes redundantes. El proyecto vive en github.com/JuliusBrussee/caveman, tiene licencia MIT y se viralizó cuando creators como Midudev lo cubrieron en Instagram. Si querés más contexto sobre cómo afinar Claude Code en general, mirá el diccionario de Claude Code con 8 conceptos clave.

El README del repo Caveman publica benchmarks contra la API real de Anthropic sobre diez prompts representativos y reporta una reducción promedio del 65% de output tokens, con casos de hasta 87% según el tipo de respuesta. El número viral del 75% es el caso típico cuando el agente normalmente daría un párrafo de explicación: en vez de sesenta y nueve tokens explicando por qué un componente de React re-renderiza, Caveman te devuelve diecinueve tokens diciendo "New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo". El ahorro real depende de cuánto te hablaba antes el agente: si lo usabas para tareas conversacionales largas, vas a ver picos de 75-87%; si ya tenías un CLAUDE.md ajustado, el delta es más cerca de 22-40%. Para traducir esos porcentajes a USD reales, mirá el pricing oficial de Anthropic y multiplicalo por tu volumen mensual. Combiná Caveman con un buen CLAUDE.md siguiendo las ocho reglas de la guía de CLAUDE.md para maximizar el ahorro en input tokens también, y revisá las 5 herramientas para ahorrar 80% de tokens en Claude para atacar el problema desde varios ángulos.

Los benchmarks del proyecto y la experiencia de la comunidad coinciden en que la precisión técnica se mantiene intacta porque Caveman no toca el razonamiento interno del modelo, solo el formato del output final. El LLM sigue analizando tu código línea por línea exactamente igual que antes; lo único que cambia es que en vez de devolver tres párrafos de prosa, devuelve dos líneas con la solución. De hecho, varios desarrolladores reportan que Caveman reduce alucinaciones porque al forzar brevedad, el modelo no tiene espacio para inventar bibliotecas inexistentes o divagar sobre soluciones tentativas. La accuracy técnica medida queda en 100% mientras los tokens caen 65% en promedio y la velocidad sube ~3x. Si tu workflow depende de explicaciones largas (onboarding de un dev junior, debug de un problema mental que no sabés ni cómo describir), podés bajar al nivel lite que solo recorta filler sin volverse telegráfico, o salir del modo con "normal mode" cuando lo necesites. Para entender los modelos detrás de esto y cómo razonan, leé Claude Opus 4.7, el nuevo modelo más fuerte del mundo, la documentación oficial de Claude Code y los 6 tips de Boris Cherny para dominar Claude Opus 4.7.

Instalación una sola línea que auto-detecta los treinta agentes que tengas instalados en tu máquina. En macOS, Linux, WSL o Git Bash corré curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash y el script instala el skill para Claude Code, Codex, Gemini CLI, Cursor, Windsurf, Cline, Copilot y todos los demás agentes que detecte. En Windows con PowerShell 5.1+ el equivalente es irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex. El proceso completo tarda alrededor de treinta segundos, requiere Node 18 o superior, es seguro re-correr para actualizar y skipea automáticamente los agentes que no tengas. Después de instalar, activá Caveman tipeando /caveman o diciendo "talk like caveman". Para volver al modo normal, decí "normal mode". Si tu install falla, abrí el agente y pedile "Read CLAUDE.md and INSTALL.md, install caveman for me" y el propio agente repara el setup. Para opciones avanzadas como instalar solo en un agente específico o los 25 agentes menos comunes, revisá el INSTALL.md oficial del repo. Si recién estás arrancando con Claude Code y nunca configuraste el agente, leé primero las 3 cosas que hacer antes de abrir Claude Code y cómo armar tu carpeta Claude desde cero.

Es el medidor de ahorro real de la sesión. Cuando lo corrés, te muestra cuántos tokens consumió tu sesión actual, cuántos te habrías gastado en modo normal según los benchmarks, el ahorro acumulado de toda tu historia con Caveman instalado y el equivalente en USD según el precio oficial de la API de Anthropic. Si le pasás el flag --share, te devuelve una línea lista para tuitear con tu ahorro lifetime. Además, Caveman setea un badge persistente en la statusline de Claude Code que muestra [CAVEMAN] ⛏ 12.4k con tu contador histórico actualizado en tiempo real. Si te molesta visualmente, podés silenciarlo con CAVEMAN_STATUSLINE_SAVINGS=0 en tu env. El comando es ideal para validar que la instalación está activa y para mostrarle a tu CTO el ROI tangible del cambio antes de pedirle plan Max. Para más herramientas que atacan el mismo problema desde otro ángulo, mirá las 5 herramientas para ahorrar 80% de tokens en Claude y la guía sobre 5 herramientas pro para Claude Code que cubren observabilidad y optimización avanzada.

Caveman trae cuatro modos que vas cambiando con un solo comando según cuánto extremismo quieras. Lite simplemente recorta filler conversacional (saludos, disculpas, resúmenes) pero conserva oraciones gramaticales completas; es el modo recomendado para reviews de PRs donde otros humanos tienen que leer la respuesta. Full es el default cavernícola: sujeto omitido, sintaxis telegráfica, máximo grunt. Ultra lleva la brevedad al límite saltando incluso artículos y conectores, usando casi puras keywords técnicas. Wenyan usa chino clásico, que es aún más compacto que el cavernícola inglés —cada carácter chino lleva más información semántica que una palabra inglesa promedio— y es viable porque los modelos modernos entienden y producen 文言 sin problemas. Activás cualquiera tipeando /caveman lite, /caveman full, /caveman ultra o /caveman wenyan. El nivel queda fijo hasta el fin de la sesión o hasta que digas "normal mode". Si querés sacarle más jugo a Claude Code en general más allá de la compresión, mirá los 5 proyectos gratis para mejorar Claude, las 3 formas de usar Claude y cuál vale la pena y los tipos de comandos en la documentación oficial de Claude Code.

Sí, y este es el truco más under-rated del paquete. Caveman incluye el comando /caveman-compress <archivo> que toma un archivo de memoria (típicamente tu CLAUDE.md o cualquier system prompt grande) y lo reescribe en caveman-speak preservando byte a byte el código, las URLs y los paths absolutos. La compresión promedio es del 46% de input tokens cada vez que arrancás una sesión, lo cual se acumula muy rápido si tenés un CLAUDE.md largo cargándose en cada call. Para usuarios más avanzados existe caveman-shrink, un middleware MCP publicado en npm que envuelve cualquier servidor MCP y comprime las descripciones de las tools en tiempo real, atacando otro vector de gasto de input tokens que casi nadie optimiza. Si todavía no tenés un CLAUDE.md armado o querés mejorarlo antes de comprimirlo, te conviene revisar el template de CLAUDE.md para tu marca primero, y para input tokens en general la guía sobre ahorrar tokens en Claude Code con un archivo CLAUDE.md es el complemento natural.

Fuentes e inspiración

Mirá los posts originales donde desarrollamos estas ideas en redes.

Fuente

📦 caveman — repo oficial (Julius Brussee)

Fuente

📖 INSTALL.md — guía completa de los 30+ agentes soportados

Fuente

📦 caveman-shrink — MCP middleware que comprime tool descriptions

Instagram

📸 Reel de Midudev que lo viralizó

Caveman · el plugin que hace que Claude Code ahorre 75% de tokens

¿Qué es Caveman? · brain still big, mouth small

¿Querés el stack de IA correcto operando en tu negocio?

¿Mismo fix con 75% menos palabras? · antes vs después

¿Cómo instalo Caveman en 30 segundos? · una sola línea

¿Cómo activo el modo cavernícola?

¿Cuáles son los 4 niveles de compresión? · de filler-clean a wenyan

¿Cuáles son los 7 comandos del plugin? · /caveman y sus seis acompañantes

¿Cuál es el truco under-rated? · comprimir tu CLAUDE.md

¿Cómo veo cuánto ahorré? · `/caveman-stats`

¿Cuáles son los números reales? · medidos contra la API de Anthropic

¿Cuándo NO conviene Caveman? · contraindicaciones

¿Cuál es el stack completo para extraer todo el jugo?

¿Querés el stack de IA correcto operando en tu negocio?

Preguntas frecuentes sobre plugin Caveman para Claude Code

¿Qué es Caveman y de dónde salió?

¿Cuánto se ahorra en tokens de verdad?

¿Pierdo calidad técnica usando Caveman?

¿Cómo se instala en mi setup actual?

¿Qué hace el comando `/caveman-stats`?

¿Qué son los cuatro niveles de compresión?

¿Funciona también para reducir tokens de input?

Fuentes e inspiración

Genie 3 + Street View: el simulador del mundo real de Google

Higgsfield Supercomputer: el agente que arma campañas completas

Cómo predecir si un video va a ser viral con Higgsfield + Claude MCP

Las mejores herramientas de IA para tu negocio en 2026

Kimi K2 — La IA china que superó a OpenAI con el 0.1% del presupuesto

Google AI Overviews: 3 movidas para no perder tráfico orgánico

¿Qué es Caveman? · brain still big, mouth small

¿Querés el stack de IA correcto operando en tu negocio?

¿Mismo fix con 75% menos palabras? · antes vs después

¿Cómo instalo Caveman en 30 segundos? · una sola línea

¿Cómo activo el modo cavernícola?

¿Cuáles son los 4 niveles de compresión? · de filler-clean a wenyan

¿Cuáles son los 7 comandos del plugin? · /caveman y sus seis acompañantes

¿Cuál es el truco under-rated? · comprimir tu CLAUDE.md

¿Cómo veo cuánto ahorré? · /caveman-stats

¿Cuáles son los números reales? · medidos contra la API de Anthropic

¿Cuándo NO conviene Caveman? · contraindicaciones

¿Cuál es el stack completo para extraer todo el jugo?

¿Querés el stack de IA correcto operando en tu negocio?

Preguntas frecuentes sobre plugin Caveman para Claude Code

¿Qué es Caveman y de dónde salió?

¿Cuánto se ahorra en tokens de verdad?

¿Pierdo calidad técnica usando Caveman?

¿Cómo se instala en mi setup actual?

¿Qué hace el comando `/caveman-stats`?

¿Qué son los cuatro niveles de compresión?

¿Funciona también para reducir tokens de input?

Fuentes e inspiración

Más herramientas de IA para tu negocio

Genie 3 + Street View: el simulador del mundo real de Google

Higgsfield Supercomputer: el agente que arma campañas completas

Cómo predecir si un video va a ser viral con Higgsfield + Claude MCP

Las mejores herramientas de IA para tu negocio en 2026

Kimi K2 — La IA china que superó a OpenAI con el 0.1% del presupuesto

Google AI Overviews: 3 movidas para no perder tráfico orgánico

¿Cómo veo cuánto ahorré? · `/caveman-stats`