Técnico

A veces, menos es más: el auge de los modelos lingüísticos pequeños

December 4th, 2025

Santiago Robaina

Data Scientist

Introducción

Imagine ejecutar un modelo lingüístico en su portátil. Sin llamadas a la API. Sin cuotas de suscripción. No se preocupe de que sus datos abandonen sus servidores. Solo inferencia de IA pura y sin restricciones que se ejecuta localmente.

Acceder a modelos lingüísticos potentes siempre ha significado pagar por las API en la nube, las facturas recurrentes y la necesidad de enviar los datos a servidores externos. Sin embargo, existe una alternativa posible. Los modelos de lenguaje pequeño (SLM) permiten a las organizaciones ejecutar sistemas de IA capaces completamente en su propia infraestructura.

Para ciertos casos de uso, los SLM locales son necesarios: son privados, rápidos y no dependen de los proveedores de la nube. Funcionan sin conexión. Son baratos a gran escala. Tanto si se trata de un bufete de abogados que procesa documentos confidenciales, de un hospital que analiza historias clínicas o de un robot que navega por una fábrica, las SLM ofrecen funciones que antes eran imposibles sin tener que disponer de enormes presupuestos informáticos o sin aceptar concesiones en materia de privacidad.

En esta publicación, exploraremos qué son los SLM, los diferentes enfoques para construirlos, por qué son importantes y qué modelos están liderando esta revolución.

¿Qué son los SLM?

Tamaño y rendimiento

Los SLM se definen mediante el recuento de parámetros. Por lo general, más parámetros significan más capacidad, pero también se requiere más memoria, potencia de cálculo y energía para ejecutar el modelo. No existe un consenso claro, pero los SLM suelen oscilar entre 1 000 y 15 000 millones de parámetros, modelos como el PHI-3-mini (3,8 B) de Microsoft, el Llama 3 (8B) de Meta y el Mistral 7B. Este tamaño más pequeño significa que pueden funcionar en hardware de consumo, como ordenadores portátiles, en lugar de necesitar una infraestructura de centro de datos.

Lo que hace que los SLM modernos sean interesantes no es el hecho de que sean «pequeños», sino su eficiencia. El PHI-3-mini ofrece un rendimiento cercano al GPT-3.5 (estimado en 175 mil millones de parámetros) a pesar de ser 46 veces más pequeño [3]. El Mistral 7B supera a los modelos más antiguos de 13 mil millones de parámetros en todos los puntos de referencia [4].

Cómo llegamos aquí

Fase 1: La Fundación (2019-2020) El GPT-2 (1,5 mil millones de parámetros) demostró que los modelos lingüísticos podían generar un texto coherente. Era impresionante, pero limitado. El camino a seguir parecía claro: ampliar la escala.

Fase 2: Cuanto más grande, mejor (2020-2022) El GPT-3 (parámetros 175B) demostró la hipótesis de escalamiento [7]. Más parámetros y más datos equivalían a un mejor rendimiento. La industria siguió el ejemplo: los modelos crecieron hasta alcanzar los 70 000 millones, 175 000 millones e incluso billones de parámetros. Pero paralelamente a esta carrera, los investigadores empezaron a explorar la compresión, transformando modelos grandes en modelos «estudiantiles» más pequeños. Estos primeros SLM, como DisTilbert [6], se dedicaban a tareas básicas, pero nunca superaban a sus profesores.

Fase 3: Caminos paralelos (2023-presente) Los modelos grandes continuaron creciendo (GPT-4, Claude, Gemini), pero surgió una dirección de investigación paralela centrada en la eficiencia. En lugar de limitarse a comprimir los modelos existentes, los investigadores descubrieron varias maneras de crear modelos pequeños capaces desde cero: datos pedagógicos sintéticos, innovaciones arquitectónicas, selección de datos a gran escala y métodos de formación híbridos. La idea clave: la eficiencia proviene de múltiples caminos, no de una solución única.

Hitos clave

Desde mediados de 2023 hasta 2025, una serie de publicaciones demostraron que todos los caminos hacia la eficiencia podrían funcionar. Cada modelo demostró tener un enfoque diferente:‍

‍junio de 2023: Microsoft publica Phi-1 (parámetros 1.3B), lo que demuestra que formación basada en el plan de estudios (enseñar conceptos de forma progresiva como un libro de texto) supera a la escala [1]‍
septiembre de 2023: Se introdujo Mistral 7B (parámetros 7B), que demuestra innovación arquitectónica puede duplicar la eficiencia [4]‍
diciembre de 2023: Phi-2 (2,7 000 millones de parámetros) coincide con 70 000 millones de modelos de parámetros en cuanto al razonamiento, la primera vez con un modelo pequeño beats 10 veces más grandes competidores [2]‍
diciembre de 2023: TinyGPT-V (parámetros 2.8B) debuta como el primer pequeño modelo de lenguaje de visión (puede procesar tanto imágenes como texto) aportando capacidades multimodales a dispositivos con recursos limitados [35]‍
enero de 2024: Lanzamiento de Llama 3 (8B parámetros), entrenado con 15,6 billones de fichas, mostrando curación masiva de datos obras [5]‍
abril de 2024: lanzamientos de la familia Phi-3 (parámetros de 3,8 B), acercándose a GPT-3.5 nivel de rendimiento con 46 veces menos parámetros [3]

Cronología del desarrollo del SLM: evolución de los modelos de lenguaje sencillo (2019 - 2025)

Estos hitos sientan las bases para los principales modelos actuales, cada uno de los cuales demuestra que diferentes enfoques de eficiencia pueden tener éxito.

Modelos clave en el panorama del SLM

El ecosistema de la ordenación sostenible de las tierras ha madurado rápidamente, y varios modelos han emergido como líderes en diferentes ámbitos. A continuación se muestra un resumen de los modelos más influyentes en noviembre de 2025, que representan diferentes enfoques para lograr la eficiencia y el rendimiento.

Modelos de uso general

Phi-3 (Microsoft): Utiliza datos pedagógicos sintéticos. El PHI-3-mini (3,8 B) se acerca al rendimiento del GPT-3.5 (175 B) en comparación con los conocimientos generales (el 68,8% frente al 70,0% de MMLU) y se destaca en el razonamiento matemático (el 82,5% en el GSM8K), lo que permite lograr un rendimiento comparable con 46 veces menos parámetros [3]. Excepcional en matemáticas y codificación, débil en escritura creativa.

Mistral 7B (Mistral AI): Eficiencia arquitectónica mediante la atención de consultas agrupadas. Ofrece un rendimiento dos veces mejor que los modelos 13B anteriores en tareas de razonamiento y comprensión sin añadir parámetros [4]. Optimizado para un despliegue rápido.

Llama 3.1 8B (Meta): Se entrenó con 15,6 billones de fichas de datos seleccionados con una ventana de contexto de 128 000, 16 veces mayor que la de 8 000 de Llama 3, lo que permite el análisis de documentos completos. Supera a PHI-3-mini en conocimientos generales (69,4% frente al 68,8% en MMLU) y razonamiento matemático (84,5% frente al 82,5% en GSM8K), a la vez que destaca en escritura creativa y amplios conocimientos [5]. Se utiliza ampliamente como base para realizar ajustes.

Qwen 3 (Nube de Alibaba): Una familia de modelos que van desde 0,6 mil millones a 235 mil millones de parámetros, entrenados en 36 billones de tokens en 119 idiomas. Los modelos más pequeños (0.6B-7B) se destacan en tareas multilingües y pueden procesar hasta 128 000 tokens en una sola conversación, unas 4 veces más que el límite de 32 000 establecido por GPT-4o, lo que permite analizar documentos más largos [34].

Smoll M3 (Cara abrazada): Un modelo 3B que se entrenó con 11,2 billones de tokens y logró un rendimiento de vanguardia en la escala 3B: supera a Llama 3.2 3B y Qwen2.5 3B, sin dejar de ser competitivo con alternativas de 4 B millones. Cuenta con razonamiento en modo dual (puede cambiar entre respuestas rápidas y pensamiento extendido), una ventana contextual de 128 KB y soporte multilingüe para 6 idiomas. Ofrece de forma exclusiva la receta completa de formación abierta, por lo que es ideal para investigadores y desarrolladores que crean modelos personalizados [36].

Modelos especializados: por qué es importante el ajuste fino

Los modelos de uso general se pueden ajustar para tareas específicas y, a menudo, superar a los modelos mucho más grandes:

Wizard Coder: Un modelo especializado de 15 000 millones supera a ChatGPT-3.5 en las tareas de generación de código y se acerca a las capacidades de codificación del GPT-4 [31, 32], lo que demuestra que la formación específica para cada tarea permite que un modelo de 15 000 millones compita con el GPT-4 (estimado en 1,7 billones de parámetros [32]) a una fracción del coste.

Medicamentos (John Snow Labs): Un modelo médico 8B supera al GPT-4o en resumen clínico, extracción de información y respuesta a preguntas médicas [33]. Logra una mayor precisión fáctica y casi el doble de preferencia por parte de los expertos médicos en comparación con el GPT-4o. Permite que el soporte para la toma de decisiones clínicas que cumple con la HIPAA se ejecute de forma totalmente local, algo imposible con las API en la nube que transmiten los datos de los pacientes de forma externa.

Por qué son importantes los SLM

Los SLM son importantes por tres razones: economía, capacidad offline y privacidad. Vamos a desglosar cada una de ellas.

La economía de la propiedad frente a la suscripción

Los SLM ofrecen un modelo de costos fundamentalmente diferente en comparación con los LLM en la nube:

Descargar un modelo base de código abierto como Phi-3 o Llama 3 8B (0$)
Afinar en datos propietarios utilizando una sola GPU (De 3 a 5 000$ una sola vez) [Opcional]
Despliegue in situ con coste de inferencia cero por consulta
Punto de equilibrio en un plazo de 2 a 3 meses para aplicaciones de gran volumen frente a tarifas perpetuas de API en la nube

Esto hace que su IA pase de ser un gasto recurrente a convertirse en un activo propio que usted controla y audita.

Capacidad sin conexión:

Los LLM en la nube requieren una conectividad a Internet constante. Los SLM se ejecutan completamente sin conexión.

Considere estos escenarios en los que el acceso a Internet no es confiable o es imposible:

Sistemas de navegación integrados en el automóvil en áreas con cobertura celular deficiente
Robots de fábrica en instalaciones industriales con acceso restringido a la red
Dispositivos médicos en clínicas remotas sin internet confiable

Para estos casos de uso, los SLM son la única opción. Un PHI-3-mini local puede funcionar en hardware de consumo (MacBook M2, RTX 3060) sin depender de servicios externos, lo que genera respuestas de forma inmediata sin esperar a las llamadas de red.

Privacidad:

Esta puede ser la razón más importante. En muchos sectores, no es posible enviar datos a una API en la nube:

Asistencia sanitaria: La transmisión del historial médico del paciente (PHI) a una API pública infringe la HIPAA
Finanzas: Compartir algoritmos comerciales patentados o datos financieros de clientes infringe la GLBA
Jurídico: El envío de comunicaciones con clientes privilegiados a un servicio externo rompe la confidencialidad entre abogado y cliente
Europa: Cualquier transferencia de PII fuera de la UE se enfrenta a un estricto escrutinio del GDPR

Para estos sectores, las SLM locales se convierten en la opción práctica. Los requisitos normativos y de privacidad hacen que los modelos locales sean la opción natural para sectores como el sanitario, el financiero, el jurídico y el de defensa.

‍Paradigmas clave de entrenamiento: múltiples caminos hacia la eficiencia

La revolución de la eficiencia no surgió de un solo avance. En cambio, diferentes equipos de investigación descubrieron distintos enfoques para hacer que los modelos más pequeños fueran más capaces. Comprender estos paradigmas es útil tanto si estás entrenando un modelo desde cero como si estás ajustando uno existente para tus necesidades específicas.

Paradigma 1: Datos pedagógicos sintéticos (Microsoft Phi)

Filosofía: Un currículo de calidad supera a la cantidad de datos.

La serie Phi de Microsoft trata la formación de modelos como la educación, utilizando datos sintéticos «al estilo de un libro de texto» diseñados para enseñar conceptos de forma progresiva en lugar de cantidades masivas de texto sin procesar de Internet.

Resultados: El PHI-3-mini se acerca al rendimiento del GPT-3.5 (68,8% frente al 70,0% de MMLU) con 46 veces menos parámetros [3].

Compensación: Excepcional en razonamiento académico, matemáticas y código. Es débil en el conocimiento de la cultura pop y la escritura creativa.

Paradigma 2: Eficiencia arquitectónica (Mistral)

Filosofía: Una arquitectura más inteligente permite un mejor rendimiento por parámetro.

Mistral AI innovó en la forma en que el modelo procesa la información internamente. En lugar de hacer que todas las partes del modelo analicen todos los datos por igual (atención tradicional), utilizan la atención de consultas agrupadas, en la que grupos de unidades de procesamiento comparten la información de manera más eficiente, y la atención de ventana deslizante, en la que el modelo se centra en el contexto cercano en lugar de en todo a la vez. Esto permite un procesamiento de la información más eficaz con menos parámetros.

Resultados: El Mistral 7B ofrece un rendimiento dos veces mejor que los modelos 13B anteriores sin añadir parámetros [4].

Compensación: Requiere una amplia experiencia técnica para su implementación. Los beneficios aparecen principalmente en el momento de la implementación, no durante el desarrollo.

Paradigma 3: Escala y curación (Meta Llama 3)

Filosofía: La escala masiva funciona si seleccionas de forma inteligente.

Llama 3 de Meta adopta la escala con un filtrado inteligente y se basa en 15,6 billones de fichas de datos del mundo real cuidadosamente seleccionados, en lugar de datos sintéticos o rediseño arquitectónico.

Resultados: Llama 3 8B se acerca al GPT-3.5 en cuanto al conocimiento general (69,4% frente al 70,0% de MMLU) y sobresale en el razonamiento matemático (84,5% de GSM8K) [5]. Sobresale en escritura creativa y amplios conocimientos.

Compensación: Requiere enormes recursos computacionales para la capacitación. Menos especializado que Phi en tareas académicas, pero más versátil en general.

El paradigma correcto depende del caso de uso: datos pedagógicos para el razonamiento y las matemáticas, eficiencia arquitectónica para la velocidad de implementación o escalabilidad y selección para una versatilidad de uso general. Estos enfoques son importantes tanto si estás seleccionando un modelo previamente entrenado como si estás decidiendo cómo ajustarlo a tu aplicación específica.

Conclusiones clave

Cuándo usar SLM en lugar de LLM en la nube

Considere los SLM cuando necesite capacidad sin conexión, privacidad de datos o control de costos a escala. Si está procesando documentos confidenciales, trabajando en entornos de baja conectividad o realizando inferencias de gran volumen en las que los costos de las API aumentan rápidamente, los SLM locales proporcionan las capacidades necesarias y, al mismo tiempo, mantienen los datos y los costos bajo su control.

Ajústese a su tarea específica

Si tiene un caso de uso bien definido y datos de dominio de calidad, es probable que ajustar un modelo pequeño tenga un mejor rendimiento con un LLM de uso general. WizardCoder (15B) supera a ChatGPT-3.5 en la generación de código. MedS (8B) supera al GPT-4o en tareas clínicas. El patrón es constante: descarga un modelo base como Llama 3 8B, ajusta tus datos de propiedad exclusiva e impleméntalo localmente sin comisiones por consulta. Este enfoque funciona cuando la tarea es específica y repetible.

Haga coincidir el modelo con su caso de uso

Los diferentes modelos se destacan en diferentes tareas:

Tareas matemáticas y de razonamiento: Utilice Phi-3-mini, su formación pedagógica ofrece un sólido rendimiento en problemas lógicos y matemáticos
Implementación e inferencia rápidas: Utilice Mistral 7B, su eficiencia arquitectónica optimiza la velocidad
Aplicaciones de uso general: Usa Llama 3 8B, su amplio entrenamiento proporciona versatilidad y se usa ampliamente como base de ajuste
Aplicaciones multilingües: Utilice Qwen 3, entrenado en 119 idiomas con sólidas capacidades multilingües

Comience con un modelo previamente entrenado para las tareas generales. Para aplicaciones especializadas, ajuste con precisión los datos de su dominio. La clave está en adaptar los puntos fuertes del modelo a sus requisitos específicos.