PRESS RELEASE
Kawasaki, May 10, 2024
富士通發佈「Fugaku-LLM」— 基於超級電腦「富岳」上訓練的大型語言模型
增強日語能力,適用於研究與商業用途
東京工業大學、東北大學、 富士通株式會社(Fujitsu)、理化學研究所(RIKEN)、名古屋大學、 CyberAgent Inc.、Kotoba Technologies Inc.
概要
- 利用日本超級電腦技術開發並公開具備優秀日語能力的大型語言模型
- 優化超級電腦「富岳」的效能,實現分散式並行訓練
- 引領創新研究與商業應用,例如人工智能驅動的科學研究
摘要
日本研究團隊發佈了Fugaku-LLM,藉由理化學研究所的超級電腦「富岳」開發而公開具有出色日語能力的大型語言模型(1) 。該團隊由東京工業大學的横田理央教授、東北大學的坂口慶祐副教授、富士通株式會社的人工智慧研究所資深專案總監白幡晃一、理化學研究所的團隊負責人Mohamed Wahib、名古屋大學的西口浩司副教授、CyberAgent Inc.的研究員佐佐木翔大和Kotoba Technologies Inc.的CEO小島熙之所組成。
為了在「富岳」上訓練大型語言模型,研究人員開發了分散式學習方法,包括將深度學習框架Megatron-DeepSpeed移植到「富岳」,以優化Transformer在「富岳」上的效能。其加速了Transformer的密集矩陣乘法庫,並透過結合三種組合的並行技術以及加速Tofu Interconnect D上的集體通訊,來優化「富岳」的通訊效能。
Fugaku-LLM擁有130億個參數 (2) ,比日本廣泛開發的70億個參數模型具有更高的效能。Fugaku-LLM具有卓越的日語能力,在日語MT-Bench (3) 測試中的平均得分為5.5,為使用日本原始數據訓練的開放模型中效能最高的。特別是在人文社會科學相關任務中表現出相當高的基準測試表現,其得分高達9.18。
Fugaku-LLM的訓練是藉由CyberAgent收集的獨特日語學習數據與英語數據,以確保透明度和安全性的同時也能提供了出色的日語表現。Fugaku-LLM的原始碼可透過 GitHub (4) 獲取,且模型可於 Hugging Face (5) 上獲得。只須遵循許可即可用於研究與商業目的。
未來,隨著許多研究人員與工程師參與改進模型及其應用研究,推動下一代創新研究與商業應用的效率將大幅提升,例如科學模擬和生成式AI的協作,以及數千個AI虛擬化模擬。
背景
近年來,大型語言模型(LLM)在美國積極發展。尤其是OpenAI開發的 (6) 的迅速普及,進一步影響了研究開發、經濟體系和國家安全等方面的發展。除了美國之外,其他國家也在投入大量人力與運算資源來開發各國的LLM。日本同樣也需要確保AI研究的運算資源持續發展,以免在這場全球競爭中落後。人們對於日本超級電腦「富岳」寄予厚望,富士通正積極優化「富岳」上的大型分散式訓練的運算環境以滿足這些期望。
因此,東京工業大學、東北大學、 富士通株式會社(Fujitsu)、理化學研究所(RIKEN)、名古屋大學、 CyberAgent Inc.、Kotoba Technologies Inc. 聯合展開了一項關於大型語言模型開發的聯合研究項目。
各機構/公司的角色
東京工業大學: 整體監督、大型語言模型的並行化與通訊加速(透過結合三種組合的並行技術以優化通訊效能,加速Tofu Interconnect D 上的集體通訊)。
東北大學: 蒐集訓練數據和模型選擇。
富士通株式會社(Fujitsu): 加速運算與提高通訊速度(加速Tofu Interconnect D 上的集體通訊,優化管道並行效能)及訓練前後的微調。
理化學研究所(RIKEN): 大型語言模型的分散式並行化與通訊加速(加速Tofu Interconnect D 上的集體通訊)。
名古屋大學: 研究 Fugaku-LLM 在 3D 生成式AI中的應用方法。
CyberAgent: 提供訓練數據。
Kotoba Technologies: 將深度學習框架移植到「富岳」。
研究成果
1. 超級電腦「富岳」上大型語言模型訓練的運算效能顯著提升
GPUs (7) 常用於訓練大型語言模型,許多國家大量投資於訓練LLM,從而導致全球GPU短缺,使得大型語言模型的訓練變得困難。在這種情況下,利用富士通生產的國產CPU作為中央處理單元的「富岳」超級電腦進行大型語言模型的訓練為一項重要的成就,不僅從日本半導體技術的應用角度來看,從經濟安全保障的角度來看皆為如此。
透過充分發揮「富岳」的潛力,這項研究成功地將矩陣乘法的運算速度提高6倍,通訊速度提高3倍。為了優化「富岳」上的分散式訓練效能,研究人員將深度學習框架Megatron-DeepSpeed移植到「富岳」,並加速了Transformer的密集矩陣乘法庫。為了加速通訊,研究人員透過組合三種並行化技術以優化「富岳」的通訊效能,並加速Tofu Interconnect D 上的集體通訊。從這些工作中獲得的知識可用於設計「富岳」之後的下一代運算基礎設施,並將有助於增強日本在人工智慧領域的未來優勢。
2. 130億參數的大型語言模型,確保透明性、安全性且易於使用。
2023年許多日本企業開發了大型語言模型,但大多數模型的參數數量少於70億。由於大型語言模型的效能通常隨著參數數量的增加而提升,因此本次開發的130億參數Fugaku-LLM相對於其他日本模型顯得更高效。儘管在日本以外已經開發過更大規模的模型,但大型語言模型仍需要大量運算資源,導致參數過多的模型變得難以使用。與2024年的當前電腦相比,Fugaku-LLM具有高性能且維持參數均衡的表現。
此外,大多數由日本企業開發的模型使用的是持續學習 (8),其中日語資料是從海外開發的開放模型中進一步學習的。相較之下,Fugaku-LLM是使用團隊自己的數據從零開始訓練,因此整個學習過程可被精確掌握,在透明度與安全性方面也顯得更有優勢。
Fugaku-LLM使用「富岳」的13,824個運算節點學習約在3800億個標記上進行訓練,其中約60%的訓練數據為日語內容,並結合了英語、數學和程式碼。Fugaku-LLM 並非基於其他語言的學習後再進行日語的持續學習,而是從一開始就使用大量日語訊息進行學習。Fugaku-LLM是日本生產並使用原始數據訓練的開放模型中最好的模型。尤其是在人文和社會科學任務中的基準測試中,該模型展現了9. 18分的高標準表現。預計該模型將能夠進行基於敬語等日語特色的自然對話。
未來計劃
該計畫的研究成果正透過GitHub與Hugging Face公開,以便其他研究人員與工程師可以利用它們進一步開發大型語言模型。任何人都可以在許可證規定的條件下將其用於研究與商業目的。從2024年5月10日起,Fugaku-LLM還將透過富士通研究入口網站向用戶提供Fugaku-LLM,用戶將可免費試用富士通的尖端技術。
藉由使用公開發布的模型,許多研究人員與技術人員將參與基礎模型的改進與新的應用研究,從而創造出更高效的學習方法及語言模型。例如,利用科學模擬與生成式AI的聯動來實現科學研究循環的自動化,以及由數千個AI組成的虛擬社區的社會模擬等,預計將帶來下一代創新性的研究與商業成果。
備註
本研究為「富岳」政策應變計畫"使用富岳開發大型語言模型的分散式並行訓練"(提案號:hp230254)。
- [1]大型語言模型:
對文本的出現概率進行建模,並能夠根據給定的上下文(問題)預測後續文本(回應)。 - [2]參數:
代表大型語言模型等神經網路規模的指標之一。參數越多,模型效能越高,但訓練時所需的數據量也越多。 - [3]日語MT-Bench:
由Stability AI提供的日本基準測試。 - [4]GitHub :
用於發布開源軟體的平台。 - [5]Hugging Face :
用於發布AI數據集的平台。 - [6]ChatGPT :
由OpenAI開發的一款大型語言模型,在發佈約兩個月後就超過1億用戶,帶來了重大社會改革。 - [7]GPU :
最初作為圖運算加速器而產生的,近年來它已被用於加速深度學習。 - [8]持續學習:
對已經訓練過的大型語言模型進行額外訓練的方法。用於在不同語言或領域訓練語言模型。
關於富士通(Fujitsu)
富士通的宗旨是透過創新建立社會信任,使世界得以邁向永續。作為 100 多個國家/地區客戶首選的數位轉型合作夥伴,我們的 124,000 名員工致力於解決人類面臨轉變與挑戰挑戰。我們一系列的服務和解決方案,主要利用五項關鍵技術:運算、網路、AI、數據和資安與其整合技術,我們融合運用上述五項關鍵技術以實現永續轉型。富士通有限公司(Fujitsu Limited, TSE:6702)公佈截至 2024 年 3 月 31 日的財年綜合收入為 3.7 兆日元(260 億美元),穩坐日本市佔第一的數位服務公司。了解更多信息: www.fujitsu.com。
聯繫窗口
台灣富士通行銷企劃處
戴郁芬
電話號碼: (02)2311-2255*5818
E-mail: infoTW@fujitsu.com
【本篇新聞為Fujitsu Limited 於2024/5/10發布之新聞稿摘要】原文出處
此處提及的所有公司或產品名稱均為其各自所有者的商標或註冊商標。本新聞稿中提供的資訊在發佈時準確無誤,如有更改,恕不另行通知。