Anthropic lanza un nuevo modelo de IA que 'piensa' todo el tiempo que quieras

Anthropic está lanzando un nuevo modelo de inteligencia artificial de frontera llamado Claude 3.7 Sonnet, que la compañía diseñó para “pensar” en preguntas durante el tiempo que los usuarios quieran.
Anthropic llama a Claude 3.7 Sonnet el primer “modelo de razonamiento de IA híbrido” de la industria, porque es un modelo único que puede dar respuestas en tiempo real y respuestas más meditadas y “pensadas” a las preguntas. Los usuarios pueden elegir si activar las capacidades de “razonamiento” del modelo de IA, que incitan a Claude 3.7 Sonnet a “pensar” durante un período de tiempo corto o largo.
El modelo representa el esfuerzo más amplio de Anthropic por simplificar la experiencia del usuario en torno a sus productos de IA. La mayoría de los chatbots de IA actuales tienen un selector de modelos complicado que obliga a los usuarios a elegir entre varias opciones diferentes que varían en costo y capacidad. Los laboratorios como Anthropic prefieren que no tengas que pensar en ello: lo ideal es que un modelo haga todo el trabajo.
Anthropic dijo que Claude 3.7 Sonnet estará disponible para todos los usuarios y desarrolladores el lunes, pero solo los usuarios que paguen por los planes premium de chatbot Claude de Anthropic tendrán acceso a las funciones de razonamiento del modelo. Los usuarios gratuitos de Claude obtendrán la versión estándar, sin razonamiento, de Claude 3.7 Sonnet, que según Anthropic supera a su modelo de IA de vanguardia anterior, Claude 3.5 Sonnet . (Sí, la compañía se saltó un número).
Claude 3.7 Sonnet cuesta 3 dólares por millón de tokens de entrada (lo que significa que podrías ingresar aproximadamente 750.000 palabras, más palabras que toda la serie de El Señor de los Anillos, en Claude por 3 dólares) y 15 dólares por millón de tokens de salida. Eso lo hace más caro que o3-mini de OpenAI (1,10 dólares por 1 millón de tokens de entrada/4,40 dólares por 1 millón de tokens de salida) y R1 de DeepSeek (0,55 dólares por 1 millón de tokens de entrada/2,19 dólares por 1 millón de tokens de salida), pero ten en cuenta que o3-mini y R1 son modelos estrictamente de razonamiento, no híbridos como Claude 3.7 Sonnet.

Claude 3.7 Sonnet es el primer modelo de IA de Anthropic que puede “razonar”, una técnica a la que han recurrido muchos laboratorios de IA a medida que los métodos tradicionales para mejorar el rendimiento de la IA disminuyen .
Los modelos de razonamiento como o3-mini, R1, Gemini 2.0 Flash Thinking de Google y Grok 3 (Think) de xAI utilizan más tiempo y potencia de cálculo antes de responder a las preguntas. Los modelos dividen los problemas en pasos más pequeños, lo que tiende a mejorar la precisión de la respuesta final. Los modelos de razonamiento no piensan ni razonan como lo haría un ser humano, necesariamente, pero su proceso se modela a partir de la deducción.
Con el tiempo, a Anthropic le gustaría que Claude descubra cuánto tiempo debería "pensar" en las preguntas por sí solo, sin necesidad de que los usuarios seleccionen controles de antemano, dijo la directora de productos e investigación de Anthropic, Diane Penn, a TechCrunch en una entrevista.
“De manera similar a cómo los humanos no tienen dos cerebros separados para las preguntas que pueden responderse inmediatamente en comparación con aquellas que requieren pensamiento”, escribió Anthropic en una publicación de blog compartida con TechCrunch, “consideramos el razonamiento simplemente como una de las capacidades que un modelo de frontera debería tener, para integrarse sin problemas con otras capacidades, en lugar de algo que se proporcione en un modelo separado”.
Anthropic dice que está permitiendo que Claude 3.7 Sonnet muestre su fase de planificación interna a través de un "bloc de notas visible". Lee le dijo a TechCrunch que los usuarios verán el proceso de pensamiento completo de Claude para la mayoría de las indicaciones, pero que algunas partes pueden ser censuradas por razones de confianza y seguridad.

Anthropic afirma que ha optimizado los modos de pensamiento de Claude para tareas del mundo real, como problemas de codificación difíciles o tareas de agencia. Los desarrolladores que aprovechan la API de Anthropic pueden controlar el "presupuesto" para el pensamiento, intercambiando velocidad y costo por calidad de la respuesta.
En una prueba para medir tareas de codificación en palabras reales, SWE-Bench, Claude 3.7 Sonnet tuvo una precisión del 62,3 %, en comparación con el modelo o3-mini de OpenAI, que obtuvo un 49,3 %. En otra prueba para medir la capacidad de un modelo de IA para interactuar con usuarios simulados y API externas en un entorno minorista, TAU-Bench, Claude 3.7 Sonnet obtuvo un 81,2 %, en comparación con el modelo o1 de OpenAI, que obtuvo un 73,5 %.
Anthropic también afirma que Claude 3.7 Sonnet se negará a responder preguntas con menos frecuencia que sus modelos anteriores, afirmando que el modelo es capaz de hacer distinciones más matizadas entre indicaciones dañinas y benignas. Anthropic dice que redujo los rechazos innecesarios en un 45% en comparación con Claude 3.5 Sonnet. Esto llega en un momento en que otros laboratorios de IA están repensando su enfoque para restringir las respuestas de su chatbot de IA .
Además de Claude 3.7 Sonnet, Anthropic también está lanzando una herramienta de codificación de agentes llamada Claude Code. Esta herramienta, que se lanzó como una versión preliminar para investigación, permite a los desarrolladores ejecutar tareas específicas a través de Claude directamente desde su terminal.
En una demostración, los empleados de Anthropic mostraron cómo Claude Code puede analizar un proyecto de codificación con un comando simple como “ Explique la estructura de este proyecto”. Al usar un lenguaje sencillo en la línea de comandos, un desarrollador puede modificar una base de código. Claude Code describirá sus ediciones a medida que realiza cambios e incluso probará un proyecto para detectar errores o lo enviará a un repositorio de GitHub.
Claude Code estará disponible inicialmente para un número limitado de usuarios por orden de llegada, dijo un portavoz de Anthropic a TechCrunch.
Anthropic lanza Claude 3.7 Sonnet en un momento en el que los laboratorios de IA están lanzando nuevos modelos de IA a un ritmo vertiginoso. Históricamente, Anthropic ha adoptado un enfoque más metódico y centrado en la seguridad, pero esta vez, la empresa busca liderar el grupo.
La pregunta es cuánto durará. OpenAI podría estar cerca de lanzar su propio modelo de IA híbrida ; el director ejecutivo de la empresa, Sam Altman, ha dicho que llegará en "meses".
techcrunch