Los modelos de lenguaje han recorrido un largo camino desde GPT-2 y los usuarios ahora pueden implementar rápida y fácilmente LLM altamente sofisticados con aplicaciones fáciles de usar como LM Studio. Junto con AMD, herramientas como estas hacen que la IA sea accesible para todos sin necesidad de conocimientos técnicos ni de codificación.
LM Studio se basa en el proyecto llama.cpp, que es un marco muy popular para implementar rápidamente modelos de lenguaje. No tiene dependencias y se puede acelerar usando sólo la CPU, aunque tiene aceleración por GPU disponible. LM Studio utiliza instrucciones AVX2 para acelerar los LLM modernos para CPU basadas en x86.
los LLM en general son muy sensibles a las velocidades de la memoria.
AMD Ryzen AI acelera estas cargas de trabajo de última generación y ofrece un rendimiento líder en aplicaciones basadas en llama.cpp como LM Studio para portátiles x86. Vale la pena señalar que los LLM en general son muy sensibles a las velocidades de la memoria.
En la comparación, la computadora portátil Intel en realidad tenía una RAM más rápida a 8533 MT/s, mientras que la computadora portátil AMD tiene 7500 MT/s de RAM. A pesar de esto, el procesador AMD Ryzen AI 9 HX 375 logra un rendimiento hasta un 27% más rápido que su competencia cuando se analizan tokens por segundo. Como referencia, tokens por segundo o tk/s es la métrica que denota la rapidez con la que un LLM puede generar tokens (que corresponde aproximadamente a la cantidad de palabras impresas en pantalla por segundo).
El procesador AMD Ryzen AI 9 HX 375 puede alcanzar hasta 50,7 tokens por segundo en Meta Llama 3.2 1b Instruct (cuantización de 4 bits).
Otra métrica para comparar modelos de lenguajes grandes es el «tiempo hasta el primer token«, que mide la latencia entre el momento en que envía un mensaje y el tiempo que tarda el modelo en comenzar a generar tokens. Aquí vemos que en modelos más grandes, el procesador Ryzen AI HX 375 basado en AMD “Zen 5” es hasta 3,5 veces más rápido que un procesador comparable de la competencia.
Uso de la memoria de gráficos variable (VGM) para acelerar el rendimiento del modelo en Windows
Cada uno de los tres aceleradores presentes en una CPU AMD Ryzen AI tiene su propia especialización en cargas de trabajo y escenarios en los que destacan. Mientras que las NPU basadas en la arquitectura AMD XDNA 2 brindan una eficiencia energética increíble para una IA persistente mientras ejecutan cargas de trabajo Copilot+, y las CPU brindan una amplia cobertura y compatibilidad para herramientas y marcos, es la iGPU la que a menudo maneja tareas de IA bajo demanda.
Activar la descarga de GPU (GPU offload) en LM Studio resultó en un aumento promedio del rendimiento del 31 % de Meta Llama 3.2 1b Instruct, en comparación con el modo solo de CPU
LM Studio presenta un port de llama.cpp que puede acelerar el framework utilizando la API Vulkan independiente del proveedor. La aceleración aquí suele depender de una combinación de capacidades de hardware y optimizaciones de controladores para la API de Vulkan. Activar la descarga de GPU (GPU offload) en LM Studio resultó en un aumento promedio del rendimiento del 31 % de Meta Llama 3.2 1b Instruct, en comparación con el modo solo de CPU. Los modelos más grandes como Mistral Nemo 2407 12b Instruct, que tienen un ancho de banda limitado en la fase de generación de tokens, experimentaron un aumento promedio del 5,1%.
Observamos que al usar la versión de llama.cpp basada en Vulkan en LM Studio y activar la descarga de GPU, el procesador de la competencia vio significativamente menor rendimiento promedio en todos menos uno de los modelos probados en comparación con su modo solo CPU. Por esta razón y en un esfuerzo por mantener la comparación justa, no incluyeron el rendimiento de descarga de GPU del Intel Core Ultra 7 258V en el back-end Vulkan basado en Llama.cpp de LM Studio.
Los procesadores AMD Ryzen AI serie 300 también incluyen una función llamada Memoria de gráficos variable (VGM). Normalmente, los programas utilizarán el bloque de 512 MB de asignación dedicada para una iGPU más el segundo bloque de memoria alojado en la porción «compartida» de la RAM del sistema. VGM permite al usuario ampliar la asignación «dedicada» del 512 hasta un 75% de la RAM disponible del sistema. La presencia de esta memoria contigua aumenta significativamente el rendimiento en aplicaciones sensibles a la memoria.
Después de activar VGM (16 GB), hay un aumento promedio adicional del 22 % en el rendimiento en Meta Llama 3.2 1b Instruct para un total neto de velocidades promedio 60 % más rápidas, en comparación con la CPU, usando aceleración iGPU cuando se combina con VGM. Incluso modelos más grandes como Mistral Nemo 2407 12b Instruct experimentaron un aumento de rendimiento de hasta un 17 % en comparación con el modo solo CPU.
Comparación lado a lado: Mistral 7b Instruct 0.3
Si bien la computadora portátil de la competencia no ofreció una aceleración usando la versión de Llama.cpp basada en Vulkan en LM Studio, comparamos el rendimiento de la iGPU usando la aplicación Intel AI Playground propia (que se basa en IPEX-LLM y LangChain), con la Su objetivo es hacer una comparación justa entre la mejor experiencia de LLM disponible para el consumidor y amigable para el consumidor.
Utilizaron los modelos proporcionados con Intel AI Playground, que son Mistral 7b Instruct v0.3 y Microsoft Phi 3.1 Mini Instruct. Utilizando una cuantificación comparable en LM Studio, vimos que el AMD Ryzen AI 9 HX 375 es un 8,7 % más rápido en Phi 3.1 y un 13 % más rápido en Mistral 7b Instruct 0.3.
AMD cree en hacer avanzar la frontera de la IA y hacer que la IA sea accesible para todos. Esto no puede suceder si los últimos avances en IA se esconden detrás de una barrera muy alta de habilidades técnicas o de codificación, razón por la cual aplicaciones como LM Studio son tan importantes. Además de ser una forma rápida e sencilla de implementar LLM localmente, estas aplicaciones permiten a los usuarios experimentar modelos de última generación prácticamente tan pronto como se inician (suponiendo que el proyecto llama.cpp admita la arquitectura).
Los aceleradores de IA AMD Ryzen ofrecen un rendimiento increíble y activar funciones como la memoria de gráficos variable puede ofrecer un rendimiento aún mejor para los casos de uso de IA. Todo esto se combina para ofrecer una experiencia de usuario increíble para modelos de lenguaje en una computadora portátil x86.