首頁 >> 今日更新 >

蘋果開源7B大模型，訓(xùn)練過程數(shù)據(jù)集一口氣全給了，網(wǎng)友：開放得不像蘋果

2024-07-23 09:00:35 來源：用戶：

相信很多大家對蘋果開源7B大模型，訓(xùn)練過程數(shù)據(jù)集一口氣全給了，網(wǎng)友：開放得不像蘋果還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

蘋果最新殺入開源大模型戰(zhàn)場，而且比其他公司更開放。

推出7B模型，不僅效果與Llama38B相當(dāng)，而且一次性開源了全部訓(xùn)練過程和資源。

要知道，不久前Nature雜志編輯Elizabeth Gibney還撰文批評:

而蘋果這次竟然來真的!!

就連NLP科學(xué)家、AutoAWQ創(chuàng)建者也發(fā)出驚嘆:

也引來網(wǎng)友在線調(diào)侃:

至于這次開源的意義，有熱心網(wǎng)友也幫忙總結(jié)了:

當(dāng)然，除了OpenAI和蘋果，上周Mistral AI聯(lián)合英偉達(dá)也發(fā)布了一個12B參數(shù)小模型。

HuggingFace創(chuàng)始人表示，「小模型周」來了!

卷!繼續(xù)卷!所以蘋果這次發(fā)布的小模型究竟有多能打?

效果直逼Llama38B

有多能打先不說，先來看Hugging Face技術(shù)主管剛“拆箱”的模型基礎(chǔ)配置。

總結(jié)下來就是:

7B基礎(chǔ)模型，在開放數(shù)據(jù)集上使用2.5T tokens進(jìn)行訓(xùn)練

主要是英文數(shù)據(jù)，擁有2048tokens上下文窗口

數(shù)據(jù)集包括DCLM-BASELINE、StarCoder和ProofPile2

MMLU得分接近Llama38B

使用PyTorch和OpenLM框架進(jìn)行訓(xùn)練

具體而言，研究團隊先是提出了一個語言模型數(shù)據(jù)比較新基準(zhǔn)——DCLM。

之所以提出這一基準(zhǔn)，是因為團隊發(fā)現(xiàn):

因此，團隊使用DCLM來設(shè)計高質(zhì)量數(shù)據(jù)集從而提高模型性能，尤其是在多模態(tài)領(lǐng)域。

其思路很簡單:使用一個標(biāo)準(zhǔn)化的框架來進(jìn)行實驗，包括固定的模型架構(gòu)、訓(xùn)練代碼、超參數(shù)和評估，最終找出哪種數(shù)據(jù)整理策略最適合訓(xùn)練出高性能的模型。

基于上述思路，團隊構(gòu)建了一個高質(zhì)量數(shù)據(jù)集DCLM-BASELINE，并用它從頭訓(xùn)練了一個7B參數(shù)模型——DCLM-7B。

DCLM-7B具體表現(xiàn)如何呢?

結(jié)果顯示，它在MMLU基準(zhǔn)上5-shot準(zhǔn)確率達(dá)64%，可與Mistral-7B-v0.3（63%）和Llama38B(66%)相媲美;并且在53個自然語言理解任務(wù)上的平均表現(xiàn)也可與Llama38B相媲美，而所需計算量僅為后者的1/6。

與其他同等大小模型相比，DCLM-7B的MMLU得分超越Mistral-7B，接近Llama38B。

最后，為了測試新數(shù)據(jù)集效果，有業(yè)內(nèi)人士用卡帕西的llm.c訓(xùn)練了GPT-21.5B，來比較DCLM-Baseline與FineWeb-Edu這兩個數(shù)據(jù)集。

結(jié)果顯示DCLM-Baseline取得了更高的平均分，且在ARC（小學(xué)生科學(xué)問題推理）、HellaSwag(常識推理)、MMLU等任務(wù)上表現(xiàn)更好。

“小”模型成新趨勢

回到開頭，“小”模型最近已成新趨勢。

先是HuggingFace推出了小模型家族“SmolLM”，其中包含135M、360M和1.7B型號模型。

它們在廣泛的推理和常識基準(zhǔn)上優(yōu)于類似大小的模型。

然后OpenAI突然發(fā)布了GPT-4o mini，不僅能力接近GPT-4，而且價格大幅下降。

就在GPT-4o mini發(fā)布同日，Mistral AI聯(lián)合英偉達(dá)發(fā)布了12B參數(shù)小模型——Mistral NeMo。

從整體性能上看，Mistral NeMo在多項基準(zhǔn)測試中，擊敗了Gemma29B和Llama38B。

所以，為啥大家都開始卷小模型了?

原因嘛可能正如smol AI創(chuàng)始人提醒的，雖然模型變小了，但在能力相近的情況下，小模型大大降低了成本。

就像他提供的這張圖，以GPT-4o mini為代表的小模型整體比右側(cè)價格更低。

對此，我等吃瓜群眾be like:

所以，你更看好哪家呢?（歡迎評論區(qū)討論留言）

模型地址:

https://huggingface.co/apple/DCLM-7B

GitHub:

https://github.com/mlfoundations/dclm

數(shù)據(jù)集地址:

https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0

參考鏈接:

[1]https://x.com/Yuchenj_UW/status/1813260100192334108

[2]https://x.com/casper_hansen_/status/1814269340100751382

[3]https://x.com/_philschmid/status/1814274909775995087

[4]https://x.com/LoubnaBenAllal1/status/1813252390692303069

以上就是關(guān)于【蘋果開源7B大模型，訓(xùn)練過程數(shù)據(jù)集一口氣全給了，網(wǎng)友：開放得不像蘋果】的相關(guān)內(nèi)容，希望對大家有幫助！

標(biāo)簽：蘋果開源7B大模型，訓(xùn)練過程數(shù)據(jù)集一口氣全給了，網(wǎng)友：開放得不像蘋果

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

蘋果開源7B大模型，訓(xùn)練過程數(shù)據(jù)集一口氣全給了，網(wǎng)友：開放得不像蘋果

蘋果開源7B大模型，訓(xùn)練過程數(shù)據(jù)集一口氣全給了，網(wǎng)友：開放得不像蘋果