Tokyo Tech, la Universidad de Tohoku, Fujitsu y RIKEN inician una colaboración para desarrollar el entrenamiento distribuido de grandes modelos lingüísticos de IA

Fujitsu Europe

A finales de este mes de mayo se inicia este proyecto en el ordenador Fugaku y tiene previsto finalizar el 31 de marzo de 2024, con el objetivo de aportar los recursos informáticos necesarios para procesar gran cantidad de datos de forma eficiente.
Se prevé que un gran número de ingenieros participen en el proyecto para crear modelos de IA eficientes, que conduzcan a la próxima generación de investigadores e impulsando grandes avances tanto en la economía como en el desarrollo de la sociedad 5.0.

Madrid, June 01, 2023

El Instituto Tecnológico de Tokio (Tokyo Tech), la Universidad de Tohoku, Fujitsu Limited y RIKEN han anunciado que se embarcarán en la investigación y el desarrollo de un entrenamiento distribuido de grandes modelos lingüísticos (LLM) (1) en el superordenador Fugaku en mayo de 2023, dentro del ámbito de las iniciativas para el uso de Fugaku.

Los LLM son modelos de IA para el aprendizaje profundo que sirven como núcleo de la IA generativa, incluido ChatGPT (2). Las cuatro organizaciones pretenden mejorar el entorno para la creación de LLM que puedan ser ampliamente utilizados por el mundo académico y las empresas, contribuir a mejorar las capacidades de investigación de la IA en Japón y aumentar el valor de la utilización de Fugaku tanto en el ámbito académico como en el industrial mediante la divulgación de los resultados de esta I+D en el futuro.

Antecedentes
Aunque muchos prevén que los LLM y la IA generativa desempeñarán un papel fundamental en la investigación y el desarrollo de tecnologías para la seguridad, la economía y la sociedad en general, el avance y el perfeccionamiento de estos modelos requerirá recursos informáticos de alto rendimiento que puedan procesar de forma eficiente grandes cantidades de datos.

Tokyo Tech, la Universidad de Tohoku, Fujitsu y RIKEN están llevando a cabo una iniciativa con este fin que se centrará en la investigación y el desarrollo para la formación distribuida de LLM.

Periodo de implementación
Del 24 de mayo de 2023 al 31 de marzo de 2024 *Periodo de la iniciativa de uso de Fugaku para las políticas japonesas.

Funciones de cada organización y empresa
La tecnología utilizada en esta iniciativa permitirá a las organizaciones llevar a cabo de forma eficiente el entrenamiento de modelos lingüísticos a gran escala en el entorno de computación paralela a gran escala del superordenador Fugaku. Las funciones de cada organización y empresa son las siguientes:

Instituto Tecnológico de Tokio: Supervisión de los procesos generales, paralelización y aceleración de los LLM.
Universidad de Tohoku: Recopilación de datos de aprendizaje, selección de modelos
Fujitsu: Aceleración de los LLM
RIKEN: paralelización distribuida y aceleración de la comunicación de los LLM, aceleración de los LLM

Planes de futuro
Para ayudar a los investigadores e ingenieros japoneses a desarrollar LLM en el futuro, las cuatro organizaciones tienen previsto publicar en GitHub (3) y Hugging Face (4) los resultados de investigación obtenidos en el ámbito de las iniciativas de uso de Fugaku definidas por la política japonesa en el ejercicio 2024. También se prevé que muchos investigadores e ingenieros participen en la mejora del modelo básico y en nuevas investigaciones aplicadas para crear métodos eficientes que conduzcan a la próxima generación de investigaciones innovadoras y resultados empresariales.

Las cuatro organizaciones estudiarán además la posibilidad de colaborar con la Universidad de Nagoya, que desarrolla métodos de generación de datos y aprendizaje para aplicaciones multimodales en campos industriales como la fabricación, y CyberAgent, Inc, que proporciona datos y tecnología para construir LLM.

Comentario de Toshio Endo, profesor del Centro Global de Información Científica y Computación del Instituto Tecnológico de Tokio: "La colaboración integrará la paralelización y aceleración de modelos lingüísticos a gran escala utilizando el superordenador "Fugaku" de Tokyo Tech y RIKEN, el desarrollo por parte de Fujitsu de software de infraestructura informática de alto rendimiento para Fugaku y el ajuste del rendimiento de los modelos de IA, y la tecnología de procesamiento del lenguaje natural de la Universidad de Tohoku. En colaboración con Fujitsu, también utilizaremos el pequeño laboratorio de investigación que establecimos con el nombre de "Fujitsu Collaborative Research Center for Next Generation Computing Infrastructure". Estamos deseando trabajar junto a nuestros colegas para contribuir a la mejora de las capacidades de investigación en IA de Japón, aprovechando las capacidades de aprendizaje profundo distribuido a gran escala que ofrece "Fugaku".

Comentario de Kentaro Inui, profesor de la Escuela de Posgrado de Ciencias de la Información de la Universidad de Tohoku: "Nuestro objetivo es construir un modelo lingüístico a gran escala que sea de código abierto, disponible para uso comercial y basado principalmente en datos japoneses, con transparencia en sus datos de entrenamiento. Al permitir la trazabilidad de los datos de aprendizaje, prevemos que esto facilitará una investigación lo suficientemente sólida como para verificar científicamente cuestiones relacionadas con el problema de la caja negra, el sesgo, la desinformación y los denominados fenómenos de "alucinación" comunes a la IA. Aprovechando los conocimientos adquiridos con el aprendizaje profundo del procesamiento del lenguaje natural japonés desarrollado en la Universidad de Tohoku, construiremos modelos a gran escala. Esperamos contribuir a la mejora de las capacidades de investigación de la IA en nuestro país y fuera de él, compartiendo los resultados de la investigación que obtengamos a través de la iniciativa para investigadores y desarrolladores."

Comentario de Seishi Okamoto, EVP, director de Fujitsu Research, Fujitsu Limited: "Estamos entusiasmados con la oportunidad de aprovechar los potentes recursos de computación paralela del superordenador Fugaku para impulsar la investigación en IA y avanzar en la investigación y el desarrollo de LLMS. De cara al futuro, nuestro objetivo es incorporar los frutos de esta investigación a la nueva plataforma de IA de Fujitsu, cuyo nombre en clave es "Kozuchi", para ofrecer aplicaciones que cambien los paradigmas y contribuyan a la consecución de una sociedad sostenible".

Comentario de Satoshi Matsuoka, director del Centro RIKEN de Ciencia Computacional: "La CPU A64FX (5) está equipada con una función de aceleración de IA conocida como SVE.

Sin embargo, el desarrollo y la optimización del software son esenciales para maximizar sus capacidades y utilizarla en aplicaciones de IA. Creemos que esta investigación conjunta desempeñará un papel importante al reunir a expertos en LLM y ciencias de la computación de Japón, incluidos los investigadores e ingenieros del R-CCS de RIKEN, para avanzar en las técnicas de construcción de LLM en el superordenador "Fugaku". Junto con nuestros colaboradores, contribuimos a la realización de la Sociedad 5.0".

Nombre del proyecto
Entrenamiento distribuido de grandes modelos lingüísticos en Fugaku (Número de proyecto: hp230254)

Notas
- [1] Grandes modelos lingüísticos: Redes neuronales con cientos de millones a miles de millones de parámetros que se han aprendido previamente utilizando grandes cantidades de datos. Recientemente, GPT en el procesamiento del lenguaje y ViT en el procesamiento de imágenes son conocidos como modelos representativos de aprendizaje a gran escala.
- [2] ChatGPT: Modelo lingüístico a gran escala para el procesamiento del lenguaje natural desarrollado por OpenAI que admite tareas como los sistemas interactivos y la generación automática de frases con gran precisión.
- [3] GitHub: Plataforma utilizada para publicar software de código abierto en todo el mundo.
- [4] Hugging Face : Plataforma utilizada para publicar conjuntos de datos de IA en todo el mundo.

- [5] A64FX: Una CPU basada en ARM desarrollada por Fujitsu e instalada en el superordenador Fugaku.

Acerca de Fujitsu

Fujitsu es la compañía japonesa líder en Tecnologías de la Información y Comunicación (TIC), que ofrece una gama completa de productos, soluciones y servicios tecnológicos. Su alrededor de 126.000 empleados dan soporte a clientes en más de 100 países. Utilizamos nuestra experiencia y el poder de las TIC para modelar el futuro de la sociedad con nuestros clientes. Fujitsu Limited (TSE: 6702) registró ingresos consolidados de 3,6 billones de yenes (34.000 millones de US$) para el año fiscal finalizado el 31 de marzo de 2021. Para obtener más información, consulte www.fujitsu.com.

José Manuel Rodríguez Gil

Phone: 685 838 332
E-mail: josemanuel.rodriguezgil@fujitsu.com
Company: Fujitsu

Maria José Álvarez

Phone: 630 074 039
E-mail: mj@gpscom.com
Company: GPS Imagen y Comunicación

Date: June 01, 2023
City: Madrid