昆侖萬維宣布開源2千億稀疏大模型Skywork-MoE 性能強勁成本更低
相信很多大家對昆侖萬維宣布開源2千億稀疏大模型Skywork-MoE 性能強勁成本更低還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
站長之家(ChinaZ.com)6月4日 消息:在大模型技術迅速發(fā)展的背景下,昆侖萬維公司開源了一個具有里程碑意義的稀疏大型語言模型Skywork-MoE。這個模型不僅在性能上表現(xiàn)出色,而且還大幅降低了推理成本,為應對大規(guī)模密集型LLM帶來的挑戰(zhàn)提供了有效的解決方案。
Skywork-MoE模型特點:
開源和免費商用:Skywork-MoE的模型權重、技術報告完全開源,且免費商用,無需申請。
推理成本降低:該模型在保持性能強勁的同時,大幅降低了推理成本。
稀疏模型:Skywork-MoE是一個專家混合模型(MoE),通過將計算分配給專門的子模型或“專家”,提供了一種經(jīng)濟上更可行的替代方案。
支持單臺4090服務器推理:是首個支持用單臺4090服務器推理的開源千億MoE大模型。
技術細節(jié):
模型權重和開源倉庫:模型權重可在Hugging Face上下載,開源倉庫位于GitHub。
推理代碼:提供了支持8x4090服務器上8bit量化加載推理的代碼。
性能:在8x4090服務器上,使用昆侖萬維團隊首創(chuàng)的非均勻Tensor Parallel并行推理方式,Skywork-MoE可以達到2200tokens/s的吞吐量。
模型性能和技術創(chuàng)新:
參數(shù)量:Skywork-MoE的總參數(shù)量為146B,激活參數(shù)量22B,共有16個Expert,每個Expert大小為13B。
性能對比:在相同的激活參數(shù)量下,Skywork-MoE的能力在行業(yè)前列,接近70B的Dense模型,推理成本有近3倍的下降。
訓練優(yōu)化算法:Skywork-MoE設計了兩種訓練優(yōu)化算法,包括Gating Logits歸一化操作和自適應的Aux Loss,以解決MoE模型訓練困難和泛化性能差的問題。
大規(guī)模分布式訓練:
Expert Data Parallel:提出了一種新的并行設計方案,可以在Expert數(shù)量較小時高效地切分模型。
非均勻切分流水并行:提出了非均勻的流水并行切分和重計算Layer分配方式,使得計算/顯存負載更均衡。
實驗和經(jīng)驗規(guī)則:
Scaling Law實驗:探究了影響Upcycling和From Scratch訓練MoE模型好壞的約束。
訓練經(jīng)驗規(guī)則:如果訓練MoE模型的FLOPs是訓練Dense模型的2倍以上,則選擇From Scratch訓練MoE更好;否則,選擇Upcycling訓練MoE可以減少訓練成本。
Skywork-MoE的開源為大模型社區(qū)帶來了一個強大的新工具,有助于推動人工智能領域的發(fā)展,特別是在需要處理大規(guī)模數(shù)據(jù)和計算資源受限的場景中。
項目頁:https://top.aibase.com/tool/skywork-moe
模型下載地址:https://huggingface.co/Skywork/Skywork-MoE-Base
以上就是關于【昆侖萬維宣布開源2千億稀疏大模型Skywork-MoE 性能強勁成本更低】的相關內容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個富有詩意的成語,常用來形容在偏僻、冷清的地方生長的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機輸入文字時,經(jīng)常會遇到需要輸入“空格”的情況。雖然看似簡單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機時,很多人會遇到“空格怎么打”的問題。其實,“空格”是一個非?;A的...瀏覽全文>>
-
【空格名字怎么打】在日常使用電腦或手機時,很多人會遇到“空格名字怎么打”的問題。尤其是在輸入法設置、文...瀏覽全文>>
-
【空格鍵是指的哪一個】在日常使用電腦或手機的過程中,我們經(jīng)常接觸到各種按鍵,其中“空格鍵”是一個非常基...瀏覽全文>>
-
【空擋是什么意思】“空擋”是一個在多個領域中常見的術語,尤其在汽車駕駛、機械操作以及一些比喻性表達中使...瀏覽全文>>
-
【空城舊夢是情侶網(wǎng)名嗎】“空城舊夢”這個詞語,聽起來充滿了詩意和情感色彩。它常被用于表達一種孤獨、懷念...瀏覽全文>>
-
【可吸收線是什么顏色】在醫(yī)學領域,尤其是外科手術中,可吸收線是一種常見的縫合材料。它主要用于縫合傷口,...瀏覽全文>>
-
【可為是什么意思】“可為”一詞源自中文,常用于表達“可以做”、“值得做”或“有作為”的含義。在不同語境...瀏覽全文>>
-
【可微與可導之間有什么聯(lián)系】在微積分的學習過程中,“可導”和“可微”是兩個經(jīng)常被提到的概念,它們看似相...瀏覽全文>>