Intel lanzó la actualización de noviembre de 2023 de sus resultados de MLPerf Training 3.1 y obtuvo un aumento de rendimiento del 103 % en comparación con su proyección del 90 % en junio.
Actualmente, solo hay tres aceleradores que están enviando resultados de GPT-3 en MLPerf: Intel, NVIDIA y Google, lo que hace que Gaudi 2 de Intel sea actualmente la única alternativa viable a las GPU de NVIDIA para cargas de trabajo de IA de MLPerf.
Como se puede ver, el equipo Gaudí de Intel proyectó inicialmente una ganancia de rendimiento del 90 % en el FP8, pero pudo lograr una ganancia del 103 % en el punto de referencia de la industria GPT-3, reduciendo su tiempo para entrenar en minutos (en 384 aceleradores) de 311,94 minutos o 5,2 horas hasta poco más de 2 horas o 153,58 minutos.
Intel también presentó varias diapositivas para ayudar en la toma de decisiones basadas en el TCO (costo total de propiedad), mostrando que el chip Gaudi 2 ofrece un rendimiento similar al NVIDIA H100 y al mismo tiempo tiene un menor costo de servidor, lo que lo hace competitivo en precio/rendimiento.
En GPTJ-99, Gaudi 2 brilla aún más: queda ligeramente por detrás de los nuevos chips Hopper de NVIDIA. Si bien la discusión en junio fue acerca de que Gaudi 2 era simplemente una alternativa viable a los chips de NVIDIA y estaba significativamente por detrás del H100 (solo intercambiando golpes con el modelo A100 anterior), ahora el chip Gaudi 2 está ligeramente por detrás de las configuraciones H100 y GH200-96G.
El H100 es sólo un 9 % más rápido, mientras que el GH200-96G es sólo un 12 % más rápido que Gaudi 2 en las pruebas comparativas de rendimiento del servidor. Esta ventaja se extiende al 28% en los puntos de referencia fuera de línea. Gaudí 2 superó al A100 casi el doble en ambos casos.