¿Qué es Claude Opus 4.7?
Anthropic acaba de lanzar Claude Opus 4.7, su modelo más capaz hasta el momento. Es la evolución directa de Opus 4.6 y viene con mejoras fuertes en tres frentes: coding agéntico, razonamiento y uso de herramientas.
Si ya venías usando Claude en Cursor, Claude Code o en la app, Opus 4.7 es el modelo que más te va a mover la aguja. La empresa lo posiciona como el mejor modelo del mercado para programar, debuggear y ejecutar tareas largas de agentes. Para sacarle el máximo en la terminal, leé los 6 tips de Boris Cherny para dominar Claude Code. Y si querés entender los conceptos técnicos clave, el diccionario de Claude Code es el punto de partida.
A diferencia de otros lanzamientos, Anthropic subió la vara en benchmarks agénticos reales (no solo en trivia o matemáticas), que es donde se nota si un modelo sirve para producir trabajo de verdad.

¿Querés que Claude ahorre 100+ horas a tu equipo cada mes?
Sin curva técnica. Sin migración. Sin que el equipo se trabe.
¿Por qué importa?
- Es el modelo más fuerte del mundo en coding agéntico medido por SWE-bench Verified (93.9%), el estándar de la industria.
- Rompe el techo histórico en razonamiento científico con 94.2% en GPQA Diamond, el test de preguntas nivel PhD.
- Mejora significativamente en uso autónomo de computadora (OSWorld) y búsqueda en web (BrowseComp), dos áreas clave para agentes reales.
- Anthropic está mostrando por primera vez previews de un próximo modelo ("Mythos") que lo supera — la competencia con OpenAI y Google se pone brutal.
Benchmarks — los números
Estos son los puntajes oficiales publicados por Anthropic para Opus 4.7 en los benchmarks más importantes:
| Benchmark | Qué mide | Opus 4.7 |
|---|---|---|
| SWE-bench Verified | Coding agéntico real | 93.9% |
| SWE-bench Pro | Coding agéntico difícil | 77.8% |
| Terminal-Bench 2.0 | Operar una terminal | 82.0% |
| GPQA Diamond | Razonamiento nivel PhD | 94.2% |
| MMMLU | Conocimiento multilingüe | 91.5% |
| OSWorld-Verified | Usar la computadora | 78.0% |
| BrowseComp | Búsqueda en web agéntica | 79.3% |
| MCP-Atlas | Uso escalado de tools | 77.3% |
| Finance Agent r11 | Análisis financiero | 64.4% |
| CyberGym | Ciberseguridad | 73.1% |
| CharXiv-Reasoning | Razonamiento visual (con tools) | 91.0% |
| Humanity's Last Exam | Razonamiento multidisciplinario (con tools) | 54.7% |
Las métricas agénticas son las que importan. Humanity's Last Exam mide preguntas tan difíciles que se diseñaron para que ningún modelo pase. SWE-bench Verified usa bugs reales de repos de GitHub — casi 94% significa que Opus 4.7 resuelve la enorme mayoría de los issues que un dev junior tardaría horas en resolver.
¿Qué puede hacer? Casos de uso
1. Programar features completas sin supervisión
Con 93.9% en SWE-bench Verified y 82.0% en Terminal-Bench 2.0, Opus 4.7 puede tomar un issue, abrir la codebase, escribir el código, correr tests y hacer el PR. No son ejemplos de juguete — son bugs reales de proyectos en producción.
2. Hacer research serio en internet
79.3% en BrowseComp significa que puede navegar, abrir múltiples fuentes, comparar información y devolver un reporte con citas. Sirve para research de mercado, due diligence, análisis competitivo.
3. Operar tu computadora como un agente
Con 78.0% en OSWorld-Verified, Opus 4.7 puede abrir apps, navegar UIs, llenar formularios y completar tareas como si fuera un humano frente a la pantalla. Ideal para automatizar flujos que no tienen API.
4. Análisis financiero con data real
64.4% en Finance Agent r11: levanta estados financieros, calcula ratios, compara empresas y arma análisis que antes requerían un analista junior.
5. Razonamiento científico y técnico
94.2% en GPQA Diamond (preguntas nivel doctorado en física, biología, química) lo hace un aliado real para investigación técnica, no solo para consultas triviales.
Cómo probarlo
Opción 1 — Claude.ai
- Entrar a claude.ai con tu cuenta
- Seleccionar el modelo "Claude Opus 4.7" en el dropdown superior
- Plan Pro o superior para acceso ilimitado
Opción 2 — Claude Code (terminal)
- Instalar Claude Code desde claude.com/claude-code
- El modelo por default ya es Opus 4.7 si tenés plan Max
- Ideal si programás y querés un agente que toque tu código
Opción 3 — API
- Model ID: claude-opus-4-7
- Integrarlo en Cursor, Zed, tus propios agentes o apps
- Precio más alto que Sonnet, pero vale para tareas complejas
Opción 4 — Cursor / Windsurf / IDEs
- La mayoría de los IDEs con IA agregan Opus 4.7 en las primeras 48 horas post-lanzamiento
- Cambiar el modelo en settings
Opus 4.7 vs Sonnet 4.6 — ¿cuál uso?
Sonnet 4.6 sigue siendo la mejor opción para la mayoría de los casos: es rápido, barato y muy capaz. Usá Opus 4.7 cuando:
- Necesitás la mejor calidad posible y el costo es secundario
- La tarea es larga, compleja o requiere varios pasos de razonamiento
- Estás corriendo agentes autónomos que ejecutan código o usan tools
- Trabajás en problemas de research, investigación o análisis profundo
Regla práctica: arrancá con Sonnet. Si no alcanza, escalá a Opus.
¿Qué significa para vos?
- Si programás: tu productividad acaba de subir otro escalón. Un agente que cierra 9 de cada 10 issues reales cambia cómo se trabaja.
- Si automatizás: los agentes dejan de ser "prototipos que casi funcionan" y pasan a ser workers confiables.
- Si investigás: tenés un asistente que lee, compara y sintetiza a nivel PhD — con fuentes.
- Si sos founder o PM: este es el modelo para evaluar qué features antes imposibles ahora son viables.
La frontera se movió otra vez. Los que experimenten antes van a sacar ventaja real.
Links útiles
- Anuncio oficial de Anthropic: https://www.anthropic.com/news
- Probar Claude: https://claude.ai
- Claude Code: https://claude.com/claude-code
- Documentación de la API: https://docs.claude.com/
- Post original en Instagram: https://www.instagram.com/p/DXMq9hmkbtL/
Claude for Legal es la suite open source de Anthropic para abogados: revisa contratos en Word, hace due diligence de M&A y se integra con Westlaw e iManage.

¿Querés que Claude ahorre 100+ horas a tu equipo cada mes?
Sin curva técnica. Sin migración. Sin que el equipo se trabe.
Preguntas frecuentes sobre Claude Opus 4.7
Claude Opus 4.7 mejora en tres frentes clave: coding agéntico (saltó a 93.9% en SWE-bench Verified, el estándar de la industria), razonamiento científico (94.2% en GPQA Diamond, preguntas nivel PhD) y uso autónomo de herramientas (78.0% en OSWorld-Verified y 79.3% en BrowseComp). Eso lo posiciona como el mejor modelo del mercado para programar, debuggear y ejecutar tareas largas con agentes. La diferencia con Opus 4.6 se nota especialmente en tareas multi-step que antes requerían supervisión humana cada 10-15 minutos — ahora se completan end-to-end. Un caso típico: cerrar issues reales de GitHub que llevarían 2-4 horas a un dev junior, en menos de 30 minutos sin intervención. Leé el anuncio oficial de Anthropic o la doc oficial de modelos para todos los detalles técnicos, y revisá los 6 tips de Boris Cherny.
Opus 4.7 destaca en benchmarks agénticos reales, no solo en trivia. Los números clave: SWE-bench Verified 93.9% (bugs reales de repos GitHub), SWE-bench Pro 77.8% (coding difícil), Terminal-Bench 2.0 82.0% (operar una terminal), GPQA Diamond 94.2% (razonamiento PhD en física, biología, química), OSWorld-Verified 78.0% (usar la computadora como un humano) y BrowseComp 79.3% (búsqueda web agéntica). Humanity's Last Exam quedó en 54.7% — un benchmark diseñado para que ningún modelo pase, así que cualquier número arriba de 50% es histórico. Estos números importan porque miden capacidad de cerrar trabajo end-to-end, no solo conocimiento enciclopédico. Para los detalles técnicos completos, leé el anuncio oficial de Anthropic y la doc de modelos. Para ver cómo se compara con otros modelos del mercado, revisá las mejores herramientas de IA en 2026.
Tenés cuatro vías de acceso. Primera, claude.ai en el navegador: seleccionás "Claude Opus 4.7" en el dropdown superior con un plan Pro (USD 20/mes) o superior. Segunda, en Claude Code desde la terminal — si tenés plan Max, el modelo por default ya es Opus 4.7. Tercera, vía API con el model ID claude-opus-4-7; lo integrás en Cursor, Zed, tus propios agentes o apps custom. El precio es más alto que Sonnet pero vale para tareas complejas. Cuarta, en IDEs como Cursor o Windsurf, que suelen agregar Opus 4.7 dentro de las primeras 48 horas post-lanzamiento. La regla práctica: arrancá con Sonnet 4.6 para iteración rápida; si no alcanza, escalá a Opus 4.7. Revisá la doc oficial de modelos y los 6 tips de Boris Cherny.
Usá Opus 4.7 en cuatro escenarios concretos. Primero, cuando necesités la mejor calidad posible y el costo es secundario (por ejemplo, auditorías legales, propuestas estratégicas, código de producción crítico). Segundo, en tareas largas que requieren múltiples pasos de razonamiento — escribir un feature completo con tests y review, hacer due diligence sobre una empresa, analizar un dataset multi-tabla. Tercero, cuando corrés agentes autónomos que ejecutan código o usan tools sin supervisión humana. Cuarto, en research profundo con fuentes múltiples. Sonnet 4.6 es ideal para el 80% restante: rápido, barato (USD 3/M tokens input vs USD 15/M de Opus) y muy capaz para chat, drafting y tareas single-step. La regla práctica: arrancá con Sonnet, escalá a Opus si no alcanza. Para tips concretos, leé los 6 tips de Boris Cherny, la doc oficial de modelos y la doc de Claude Code.
Opus 4.7 cierra 9 de cada 10 issues reales medidos en SWE-bench Verified — eso se traduce en gains medibles según el rol. Un programador junior que antes resolvía 2-3 tickets por día ahora puede cerrar 6-8 con Claude Opus 4.7 como agente principal. Para automatizadores, los agentes que antes eran "prototipos que casi funcionan" pasan a ser workers confiables que corren en producción sin supervisión cada 15 minutos. Para investigadores, 79.3% en BrowseComp significa que puede navegar múltiples fuentes, comparar información y devolver un reporte con citas en minutos — un research junior tarda 3-5 horas en lo mismo. Para founders y PMs, este es el modelo para evaluar qué features antes imposibles ahora son viables. La frontera se movió: los que experimenten antes sacan ventaja real. Para integrarlo en tu flujo de trabajo, configurá un archivo CLAUDE.md para ahorrar tokens, leé los 6 tips de Boris Cherny y la doc oficial de Anthropic.
Fuentes e inspiración
Mirá los posts originales donde desarrollamos estas ideas en redes.
Llevate el próximo en tu inbox
NewsletterUn mail al mes con el próximo recurso.







