小模型卷起來了：Mistral聯(lián)合英偉達(dá)開源12B小模型，128k上下文

2024-07-21 10:30:55 來源：用戶：

相信很多大家對小模型卷起來了：Mistral聯(lián)合英偉達(dá)開源12B小模型，128k上下文還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

今天凌晨，OpenAI 突然發(fā)布了 GPT-4o 的迷你版本 ——GPT-4o mini。這個模型替代了原來的 GPT-3.5，作為免費(fèi)模型在 ChatGPT 上提供。其 API 價格也非常美麗，每百萬輸入 token 僅為15美分，每百萬輸出 token60美分，比之前的 SOTA 模型便宜一個數(shù)量級，比 OpenAI 此前最便宜的 GPT-3.5Turbo 還要便宜60% 以上。

OpenAI CEO 山姆?奧特曼對此的形容是:通往智能的成本已經(jīng)「too cheap to meter」。

與動輒上千億參數(shù)的大模型相比，小模型的優(yōu)勢是顯而易見的:它們不僅計(jì)算成本更低，訓(xùn)練和部署也更為便捷，可以滿足計(jì)算資源受限、數(shù)據(jù)安全級別較高的各類場景。因此，在大筆投入大模型訓(xùn)練之余，像 OpenAI、谷歌等科技巨頭也在積極訓(xùn)練好用的小模型。

其實(shí)，比 OpenAI 官宣 GPT-4o mini 早幾個小時，被譽(yù)為「歐洲版 OpenAI」的 Mistral AI 也官宣了一個小模型 ——Mistral NeMo。

這個小模型由 Mistral AI 和英偉達(dá)聯(lián)合打造，參數(shù)量為120億（12B），上下文窗口為128k。

Mistral AI 表示，Mistral NeMo 的推理能力、世界知識和編碼準(zhǔn)確性在同類產(chǎn)品中都是 SOTA 級別的。由于 Mistral NeMo 依賴于標(biāo)準(zhǔn)架構(gòu)，因此易于使用，可在任何使用 Mistral7B 的系統(tǒng)中成為替代品。

下表比較了 Mistral NeMo 基本模型與兩個最新的開源預(yù)訓(xùn)練模型（Gemma29B 和 Llama38B）的準(zhǔn)確性。(嚴(yán)格來講，這個對比不太公平，畢竟Mistral NeMo 的參數(shù)量比另外兩個都要大不少）

表1:Mistral NeMo 基本模型與 Gemma29B 和 Llama38B 的性能比較。

他們在Apache2.0許可證下發(fā)布了預(yù)訓(xùn)練的基本檢查點(diǎn)和指令微調(diào)檢查點(diǎn)，允許商用。Mistral NeMo 經(jīng)過量化感知訓(xùn)練，可在不損失任何性能的情況下進(jìn)行 FP8推理。

面向大眾的多語言模型

該模型專為全球多語言應(yīng)用而設(shè)計(jì)。它受過函數(shù)調(diào)用訓(xùn)練，擁有一個大型上下文窗口，在英語、法語、德語、西班牙語、意大利語、葡萄牙語、中文、日語、韓語、阿拉伯語和印地語方面表現(xiàn)尤為突出。

圖1:Mistral NeMo 在多語言基準(zhǔn)測試中的表現(xiàn)。

Tekken:更高效的分詞器

Mistral NeMo 使用基于 Tiktoken 的新分詞器 Tekken，該分詞器經(jīng)過100多種語言的訓(xùn)練，能比以前 Mistral 模型中使用的 SentencePiece 分詞器更有效地壓縮自然語言文本和源代碼。在壓縮源代碼、中文、意大利文、法文、德文、西班牙文和俄文時，它的效率要高出約30%。在壓縮韓文和阿拉伯文時，它的效率是原來的2倍和3倍。事實(shí)證明，與 Llama3分詞器相比，Tekken 在壓縮所有語言中約85% 的文本方面更勝一籌。

圖2:Tekken 的壓縮率。

指令微調(diào)

Mistral NeMO 經(jīng)歷了高級微調(diào)和對齊階段。與 Mistral7B 相比，它在遵循精確指令、推理、處理多輪對話和生成代碼方面的能力大大提升。

表2:Mistral NeMo 指令微調(diào)模型的準(zhǔn)確率。使用 GPT4o 作為裁判進(jìn)行的評估。

Mistral NeMo 基礎(chǔ)模型和指令微調(diào)模型的權(quán)重都托管在 HuggingFace 上。

基礎(chǔ)模型:https://huggingface.co/mistralai/Mistral-Nemo-Base-2407

指令微調(diào)模型:https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407

你現(xiàn)在就可以使用 mistral-inference 試用 Mistral NeMo，并使用 mistral-finetune 對其進(jìn)行調(diào)整。

該模型被還打包在一個容器中，作為 NVIDIA NIM inference 微服務(wù)，可從 ai.nvidia.com 獲取。

模型變小之后，小公司也能用 AI 賺錢了

在接受 Venturebeat 采訪時，英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 詳細(xì)闡述了小型模型的優(yōu)勢。他說:「小型模型更容易獲取和運(yùn)行，可以有不同的商業(yè)模式，因?yàn)槿藗兛梢栽诩抑凶约旱南到y(tǒng)上運(yùn)行它們。事實(shí)上，Mistral NeMo 可以在許多人已經(jīng)擁有的 RTX GPU 上運(yùn)行?！?/p>

這一進(jìn)展發(fā)生在 AI 行業(yè)的關(guān)鍵時刻。雖然很多注意力都集中在擁有數(shù)千億參數(shù)的龐大模型上，但人們對能夠在本地商業(yè)硬件上運(yùn)行的更高效模型越來越感興趣。這種轉(zhuǎn)變是由對數(shù)據(jù)隱私的擔(dān)憂、對更低延遲的需求以及對更具成本效益的 AI 解決方案的渴望所驅(qū)動的。

Mistral-NeMo128k 的上下文窗口是一個突出的功能，允許模型處理和理解比許多競爭對手更多的文本塊。Catanzaro 說:「我們認(rèn)為長上下文能力對許多應(yīng)用來說可能很重要。如果無需進(jìn)行微調(diào)，那模型會更容易部署?！?/p>

這種擴(kuò)展的上下文窗口對于處理冗長文檔、復(fù)雜分析或復(fù)雜編碼任務(wù)的企業(yè)來說尤其有價值。它有可能消除頻繁上下文刷新的需要，從而產(chǎn)生更加連貫一致的輸出。

該模型的效率和本地部署能力可能會吸引在聯(lián)網(wǎng)受限或有嚴(yán)格數(shù)據(jù)隱私要求的環(huán)境中運(yùn)營的企業(yè)。然而，Catanzaro 澄清了該模型的預(yù)期使用場景。他說:「我會更多地考慮筆記本電腦和臺式電腦，而不是智能手機(jī)?！?/p>

這一定位表明，雖然 Mistral-NeMo 使 AI 更接近個人業(yè)務(wù)用戶，但它還沒有達(dá)到移動部署的水平。

行業(yè)分析師認(rèn)為，這次發(fā)布可能會顯著擾亂 AI 軟件市場。Mistral-NeMo 的推出代表了企業(yè) AI 部署的潛在轉(zhuǎn)變。通過提供一種可以在本地硬件上高效運(yùn)行的模型，英偉達(dá)和 Mistral AI 正在解決阻礙許多企業(yè)廣泛采用 AI 的擔(dān)憂，如數(shù)據(jù)隱私、延遲以及與基于云的解決方案相關(guān)的高成本。

這一舉措可能會使競爭環(huán)境更加公平，允許資源有限的小型企業(yè)利用以前只有擁有大量 IT 預(yù)算的大型公司才能獲得的 AI 能力。然而，這一發(fā)展的真實(shí)影響將取決于模型在實(shí)際應(yīng)用中的表現(xiàn)以及圍繞它構(gòu)建的工具和支持生態(tài)系統(tǒng)。

隨著各行業(yè)的企業(yè)繼續(xù)努力將 AI 整合到他們的運(yùn)營中，像 Mistral-NeMo 這樣的模型代表了向更高效、可部署的 AI 解決方案的轉(zhuǎn)變。這是否會挑戰(zhàn)更大、基于云的模型的主導(dǎo)地位還有待觀察，但它無疑為 AI 在企業(yè)環(huán)境中的整合開辟了新的可能性。

參考鏈接:https://mistral.ai/news/mistral-nemo/

https://venturebeat.com/ai/nvidia-and-mistrals-new-model-mistral-nemo-brings-enterprise-grade-ai-to-desktop-computers/

以上就是關(guān)于【小模型卷起來了：Mistral聯(lián)合英偉達(dá)開源12B小模型，128k上下文】的相關(guān)內(nèi)容，希望對大家有幫助！

標(biāo)簽：小模型卷起來了：Mistral聯(lián)合英偉達(dá)開源12B小模型，128k上下文

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

小模型卷起來了：Mistral聯(lián)合英偉達(dá)開源12B小模型，128k上下文

小模型卷起來了：Mistral聯(lián)合英偉達(dá)開源12B小模型，128k上下文