5月28日消息,浪潮信息發(fā)布了“源2.0-M32” 開源大模型。該模型在源2.0系列大模型基礎上,采用了“基于注意力機制的門控網絡”技術,構建包含32個專家的混合專家模型(MoE),并大幅提升模型算力效率。M32憑借特別優(yōu)化設計的模型架構,在僅激活37億參數的情況下,取得了和700億參數LLaMA3相當的性能水平,所消耗算力僅為LLaMA3的1/19。(鈦媒體App)
5月28日消息,浪潮信息發(fā)布了“源2.0-M32” 開源大模型。該模型在源2.0系列大模型基礎上,采用了“基于注意力機制的門控網絡”技術,構建包含32個專家的混合專家模型(MoE),并大幅提升模型算力效率。M32憑借特別優(yōu)化設計的模型架構,在僅激活37億參數的情況下,取得了和700億參數LLaMA3相當的性能水平,所消耗算力僅為LLaMA3的1/19。(鈦媒體App)