Minimalismo de modelos: la nueva estrategia de IA que ahorra millones a las empresas

Este artículo forma parte del número especial de VentureBeat, «El coste real de la IA: rendimiento, eficiencia y retorno de la inversión a gran escala». Lea más en este número especial.
La llegada de los modelos de lenguaje grandes (LLM) ha hecho que sea más fácil para las empresas visualizar los tipos de proyectos que pueden emprender, lo que ha provocado un aumento de programas piloto que ahora están en transición hacia la implementación.
Sin embargo, a medida que estos proyectos ganaron impulso, las empresas se dieron cuenta de que los LLM que habían utilizado anteriormente eran difíciles de manejar y, lo que es peor, costosos.
Se introducen los modelos de lenguaje pequeños y la destilación. Modelos como la familia Gemma de Google , Phi de Microsoft y Small 3.1 de Mistral permitieron a las empresas elegir modelos rápidos y precisos que funcionan para tareas específicas. Las empresas pueden optar por un modelo más pequeño para casos de uso específicos, lo que les permite reducir el coste de ejecución de sus aplicaciones de IA y, potencialmente, obtener un mejor retorno de la inversión.
Karthik Ramgopal, ingeniero destacado de LinkedIn, dijo a VentureBeat que las empresas optan por modelos más pequeños por algunas razones.
“Los modelos más pequeños requieren menos computación, memoria y tiempos de inferencia más rápidos, lo que se traduce directamente en menores gastos operativos y de capital (OPEX) de infraestructura, considerando los costos de la GPU, la disponibilidad y los requisitos de energía”, afirmó Ramgoapl. “Los modelos específicos para cada tarea tienen un alcance más limitado, lo que hace que su comportamiento sea más coherente y fácil de mantener a lo largo del tiempo sin necesidad de ingeniería rápida y compleja”.
Los desarrolladores de modelos fijan el precio de sus modelos pequeños en consecuencia. El o4-mini de OpenAI cuesta 1,1 dólares por millón de tokens para las entradas y 4,4 dólares por millón de tokens para las salidas, en comparación con los 10 dólares de la versión completa de o3 para las entradas y 40 dólares para las salidas.
Hoy en día, las empresas disponen de una mayor variedad de modelos pequeños, específicos para cada tarea y simplificados . Actualmente, la mayoría de los modelos insignia ofrecen una variedad de tamaños. Por ejemplo, la familia de modelos Claude de Anthropic incluye Claude Opus, el modelo más grande; Claude Sonnet, el modelo multiusos ; y Claude Haiku, la versión más pequeña. Estos modelos son lo suficientemente compactos como para funcionar en dispositivos portátiles, como portátiles o teléfonos móviles.
Sin embargo, al hablar del retorno de la inversión (ROI), la pregunta siempre es: ¿Cómo se ve el ROI? ¿Debería ser el retorno de los costos incurridos o el ahorro de tiempo que, en última instancia, se traduce en ahorros de dinero a largo plazo? Los expertos consultados por VentureBeat afirmaron que el ROI puede ser difícil de calcular, ya que algunas empresas creen haberlo alcanzado al reducir el tiempo dedicado a una tarea, mientras que otras esperan el ahorro real en dólares o la captación de más clientes para determinar si las inversiones en IA realmente han funcionado.
Normalmente, las empresas calculan el ROI mediante una fórmula sencilla, como la descrita por Ravi Naarla, director de tecnología de Cognizant , en una publicación : ROI = (Beneficios-Costo)/Costos. Sin embargo, con los programas de IA, los beneficios no son evidentes de inmediato. Naarla sugiere que las empresas identifiquen los beneficios que esperan obtener, los estimen con base en datos históricos, sean realistas respecto al costo total de la IA, incluyendo la contratación, la implementación y el mantenimiento, y comprendan que deben asumir un compromiso a largo plazo.
Los expertos argumentan que con modelos pequeños se reducen los costos de implementación y mantenimiento, especialmente al ajustar los modelos para brindarles más contexto para su empresa.
Arijit Sengupta, fundador y director ejecutivo de Aible , afirmó que la forma en que las personas contextualizan los modelos determina el ahorro que pueden obtener. Para quienes requieren contexto adicional para las indicaciones, como instrucciones largas y complejas, esto puede resultar en un mayor costo de tokens.
“Hay que contextualizar los modelos de una forma u otra; nada es gratis. Pero con modelos grandes, eso suele hacerse incluyéndolo en el mensaje”, dijo. “Piensa en el ajuste y el postentrenamiento como una forma alternativa de contextualizar los modelos. Podría incurrir en costos de postentrenamiento de $100, pero no es una cifra astronómica”.
Sengupta afirmó que han visto reducciones de costos de aproximadamente 100 veces solo con la capacitación posterior, disminuyendo a menudo el costo de uso del modelo "de millones de un solo dígito a aproximadamente $30,000". Señaló que esta cifra incluye los gastos operativos del software y el costo continuo de las bases de datos de modelos y vectores.
“En términos de costo de mantenimiento, si lo haces manualmente con expertos humanos, puede ser costoso de mantener porque los modelos pequeños necesitan entrenamiento posterior para producir resultados comparables a los modelos grandes”, dijo.
Los experimentos que realizó Aible demostraron que un modelo ajustado a una tarea específica funciona bien para algunos casos de uso, al igual que los LLM, lo que demuestra que implementar varios modelos específicos para casos de uso en lugar de grandes modelos para hacer todo es más rentable.
La empresa comparó una versión de Llama-3.3-70B-Instruct con un modelo más pequeño, con parámetros 8B, del mismo modelo. El modelo 70B, con un coste de 11,30 $, obtuvo una precisión del 84 % en evaluaciones automatizadas y del 92 % en evaluaciones manuales. Una vez ajustado a un coste de 4,58 $, el modelo 8B alcanzó una precisión del 82 % en la evaluación manual, lo que sería adecuado para casos de uso más pequeños y específicos.
Ajustar el tamaño de los modelos no tiene por qué ir en detrimento del rendimiento. Hoy en día, las organizaciones comprenden que elegir un modelo no se limita a elegir entre GPT-4o o Llama-3.1; se trata de saber que algunos casos de uso, como el resumen o la generación de código, se atienden mejor con un modelo pequeño .
Daniel Hoske, director de tecnología del proveedor de productos de inteligencia artificial para centros de contacto Cresta , dijo que comenzar el desarrollo con LLM informa mejor sobre los posibles ahorros de costos.
“Debes comenzar con el modelo más grande para ver si lo que estás imaginando funciona, porque si no funciona con el modelo más grande, no significa que funcione con modelos más pequeños”, dijo.
Ramgopal dijo que LinkedIn sigue un patrón similar porque la creación de prototipos es la única forma en que estos problemas pueden comenzar a surgir.
“Nuestro enfoque habitual para casos de uso de agentes comienza con LLM de propósito general, ya que su amplia generalización nos permite crear prototipos rápidamente, validar hipótesis y evaluar la adecuación del producto al mercado”, afirmó Ramgopal de LinkedIn. “A medida que el producto madura y encontramos limitaciones de calidad, coste o latencia, realizamos la transición a soluciones más personalizadas”.
En la fase de experimentación, las organizaciones pueden determinar qué valoran más de sus aplicaciones de IA. Descubrir esto permite a los desarrolladores planificar mejor en qué quieren ahorrar y seleccionar el tamaño del modelo que mejor se adapte a su propósito y presupuesto.
Los expertos advirtieron que, si bien es importante construir con modelos que se adapten mejor a lo que están desarrollando, los LLM de altos parámetros siempre serán más costosos. Los modelos grandes siempre requerirán una potencia de procesamiento considerable.
Sin embargo, el uso excesivo de modelos pequeños y específicos para cada tarea también plantea problemas. Rahul Pathak, vicepresidente de datos e IA de GTM en AWS , afirmó en una entrada de blog que la optimización de costos no se basa únicamente en el uso de un modelo con bajos requisitos de potencia de procesamiento, sino en la adecuación de un modelo a las tareas. Los modelos más pequeños pueden no tener una ventana de contexto lo suficientemente amplia como para comprender instrucciones más complejas, lo que genera una mayor carga de trabajo para los empleados y mayores costos.
Sengupta también advirtió que algunos modelos destilados podrían ser frágiles, por lo que su uso a largo plazo podría no resultar en ahorros.
Independientemente del tamaño del modelo, los actores del sector destacaron la flexibilidad para abordar cualquier problema potencial o nuevos casos de uso. Por lo tanto, si comienzan con un modelo grande y uno más pequeño con un rendimiento similar o superior y un costo menor, las organizaciones no pueden dudar del modelo elegido.
Tessa Burg, directora de tecnología y directora de innovación de la empresa de marketing de marca Mod Op , dijo a VentureBeat que las organizaciones deben comprender que todo lo que construyan ahora siempre será reemplazado por una versión mejor.
Empezamos con la mentalidad de que la tecnología subyacente a los flujos de trabajo que creamos, los procesos que hacemos más eficientes, van a cambiar. Sabíamos que cualquier modelo que usemos será la peor versión de un modelo.
Burg afirmó que los modelos más pequeños ayudaron a su empresa y a sus clientes a ahorrar tiempo en la investigación y el desarrollo de conceptos. Este ahorro de tiempo, afirmó, se traduce en un ahorro presupuestario a largo plazo. Añadió que es recomendable desglosar los casos de uso de alto costo y alta frecuencia para los modelos ligeros.
Sengupta señaló que los proveedores ahora están facilitando el cambio automático entre modelos, pero advirtió a los usuarios que busquen plataformas que también faciliten el ajuste, para no incurrir en costos adicionales.
venturebeat