La empresa tecnológica estadounidense, Microsoft, presentó un nuevo modelo de lenguaje pequeño, Phi-3 mini. Diseñado para su ejecución en un smartphone moderno, y que ofrece un rendimiento similar a GPT 3.5 de OpenAI.
La nueva iteración del modelo de lenguaje más ligero ha sido entrenado con 3.3 billones de tokens procedentes de conjuntos de datos más grandes y más avanzados que los utilizados en el modelo anterior, Phi-2, el cual fue entrenado por 1.4 billones de tokens.
El nuevo modelo de lenguaje se presenta con un tamaño de tres mil 800 millones parámetros, suficiente para su uso en un smartphone moderno, debido a que ocupa entorno a 1.8 GB de memoria y puede cuantificar a 4 bits, como señalan en el texto publicado en Arvix.org.
De hecho para las pruebas los investigadores han utilizado un iPhone 14 con un chip A16 Bionic, en el que aseguran “se ejecuta de forma nativa y de forma completa offline logrando más de 12 tokens por segundo”. Según refiere Europa Press, el rendimiento general de este modelo “rivaliza” con el de otros más grandes, como es el caso de Mixtral 8x7B y GPT-3.5.
Microsoft empleó una arquitectura de decodificador de transformador que admite una longitud de texto de 4K, y al basarse en una estructura de bloque similar a la de Llama 2 de Meta, no sólo beneficia a la comunidad de código abierto, señala el medio, sino también admite todos los paquetes desarrollados para Llama 2.
Según el texto de la investigación, este modelo admite un modelo conversacional de chat y está alineado con los valores de robustez y seguridad de Microsoft.
Junto a Phi-3 mini, la tecnológica estadounidense también entrenó a dos modelos adicionales de la misma familia (Phi-3 medium de 14 millones de parámetros y Phi-3 small con siete millones de parámetros) ambos entrenados con cuatro mil 800 millones de tokens.
Fuente: Europa Press.