小模型卷起來了:Mistral聯(lián)合英偉達(dá)開源12B小模型,128k上下文
相信很多大家對小模型卷起來了:Mistral聯(lián)合英偉達(dá)開源12B小模型,128k上下文還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
今天凌晨,OpenAI 突然發(fā)布了 GPT-4o 的迷你版本 ——GPT-4o mini。這個模型替代了原來的 GPT-3.5,作為免費(fèi)模型在 ChatGPT 上提供。其 API 價格也非常美麗,每百萬輸入 token 僅為15美分,每百萬輸出 token60美分, 比之前的 SOTA 模型便宜一個數(shù)量級,比 OpenAI 此前最便宜的 GPT-3.5Turbo 還要便宜60% 以上。
OpenAI CEO 山姆?奧特曼對此的形容是:通往智能的成本已經(jīng)「too cheap to meter」。
與動輒上千億參數(shù)的大模型相比,小模型的優(yōu)勢是顯而易見的:它們不僅計(jì)算成本更低,訓(xùn)練和部署也更為便捷,可以滿足計(jì)算資源受限、數(shù)據(jù)安全級別較高的各類場景。因此,在大筆投入大模型訓(xùn)練之余,像 OpenAI、谷歌等科技巨頭也在積極訓(xùn)練好用的小模型。
其實(shí),比 OpenAI 官宣 GPT-4o mini 早幾個小時,被譽(yù)為「歐洲版 OpenAI」的 Mistral AI 也官宣了一個小模型 ——Mistral NeMo。
這個小模型由 Mistral AI 和英偉達(dá)聯(lián)合打造,參數(shù)量為120億(12B),上下文窗口為128k。
Mistral AI 表示,Mistral NeMo 的推理能力、世界知識和編碼準(zhǔn)確性在同類產(chǎn)品中都是 SOTA 級別的。由于 Mistral NeMo 依賴于標(biāo)準(zhǔn)架構(gòu),因此易于使用,可在任何使用 Mistral7B 的系統(tǒng)中成為替代品。
下表比較了 Mistral NeMo 基本模型與兩個最新的開源預(yù)訓(xùn)練模型(Gemma29B 和 Llama38B)的準(zhǔn)確性。(嚴(yán)格來講,這個對比不太公平,畢竟Mistral NeMo 的參數(shù)量比另外兩個都要大不少)
表1:Mistral NeMo 基本模型與 Gemma29B 和 Llama38B 的性能比較。
他們在Apache2.0許可證下發(fā)布了預(yù)訓(xùn)練的基本檢查點(diǎn)和指令微調(diào)檢查點(diǎn),允許商用。Mistral NeMo 經(jīng)過量化感知訓(xùn)練,可在不損失任何性能的情況下進(jìn)行 FP8推理。
面向大眾的多語言模型
該模型專為全球多語言應(yīng)用而設(shè)計(jì)。它受過函數(shù)調(diào)用訓(xùn)練,擁有一個大型上下文窗口,在英語、法語、德語、西班牙語、意大利語、葡萄牙語、中文、日語、韓語、阿拉伯語和印地語方面表現(xiàn)尤為突出。
圖1:Mistral NeMo 在多語言基準(zhǔn)測試中的表現(xiàn)。
Tekken:更高效的分詞器
Mistral NeMo 使用基于 Tiktoken 的新分詞器 Tekken,該分詞器經(jīng)過100多種語言的訓(xùn)練,能比以前 Mistral 模型中使用的 SentencePiece 分詞器更有效地壓縮自然語言文本和源代碼。在壓縮源代碼、中文、意大利文、法文、德文、西班牙文和俄文時,它的效率要高出約30%。在壓縮韓文和阿拉伯文時,它的效率是原來的2倍和3倍。事實(shí)證明,與 Llama3分詞器相比,Tekken 在壓縮所有語言中約85% 的文本方面更勝一籌。
圖2:Tekken 的壓縮率。
指令微調(diào)
Mistral NeMO 經(jīng)歷了高級微調(diào)和對齊階段。與 Mistral7B 相比,它在遵循精確指令、推理、處理多輪對話和生成代碼方面的能力大大提升。
表2:Mistral NeMo 指令微調(diào)模型的準(zhǔn)確率。使用 GPT4o 作為裁判進(jìn)行的評估。
Mistral NeMo 基礎(chǔ)模型和指令微調(diào)模型的權(quán)重都托管在 HuggingFace 上。
基礎(chǔ)模型:https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
指令微調(diào)模型:https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407
你現(xiàn)在就可以使用 mistral-inference 試用 Mistral NeMo,并使用 mistral-finetune 對其進(jìn)行調(diào)整。
該模型被還打包在一個容器中,作為 NVIDIA NIM inference 微服務(wù),可從 ai.nvidia.com 獲取。
模型變小之后,小公司也能用 AI 賺錢了
在接受 Venturebeat 采訪時,英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 詳細(xì)闡述了小型模型的優(yōu)勢。他說:「小型模型更容易獲取和運(yùn)行,可以有不同的商業(yè)模式,因?yàn)槿藗兛梢栽诩抑凶约旱南到y(tǒng)上運(yùn)行它們。事實(shí)上,Mistral NeMo 可以在許多人已經(jīng)擁有的 RTX GPU 上運(yùn)行?!?/p>
這一進(jìn)展發(fā)生在 AI 行業(yè)的關(guān)鍵時刻。雖然很多注意力都集中在擁有數(shù)千億參數(shù)的龐大模型上,但人們對能夠在本地商業(yè)硬件上運(yùn)行的更高效模型越來越感興趣。這種轉(zhuǎn)變是由對數(shù)據(jù)隱私的擔(dān)憂、對更低延遲的需求以及對更具成本效益的 AI 解決方案的渴望所驅(qū)動的。
Mistral-NeMo128k 的上下文窗口是一個突出的功能,允許模型處理和理解比許多競爭對手更多的文本塊。Catanzaro 說:「我們認(rèn)為長上下文能力對許多應(yīng)用來說可能很重要。如果無需進(jìn)行微調(diào),那模型會更容易部署?!?/p>
這種擴(kuò)展的上下文窗口對于處理冗長文檔、復(fù)雜分析或復(fù)雜編碼任務(wù)的企業(yè)來說尤其有價值。它有可能消除頻繁上下文刷新的需要,從而產(chǎn)生更加連貫一致的輸出。
該模型的效率和本地部署能力可能會吸引在聯(lián)網(wǎng)受限或有嚴(yán)格數(shù)據(jù)隱私要求的環(huán)境中運(yùn)營的企業(yè)。然而,Catanzaro 澄清了該模型的預(yù)期使用場景。他說:「我會更多地考慮筆記本電腦和臺式電腦,而不是智能手機(jī)?!?/p>
這一定位表明,雖然 Mistral-NeMo 使 AI 更接近個人業(yè)務(wù)用戶,但它還沒有達(dá)到移動部署的水平。
行業(yè)分析師認(rèn)為,這次發(fā)布可能會顯著擾亂 AI 軟件市場。Mistral-NeMo 的推出代表了企業(yè) AI 部署的潛在轉(zhuǎn)變。通過提供一種可以在本地硬件上高效運(yùn)行的模型,英偉達(dá)和 Mistral AI 正在解決阻礙許多企業(yè)廣泛采用 AI 的擔(dān)憂,如數(shù)據(jù)隱私、延遲以及與基于云的解決方案相關(guān)的高成本。
這一舉措可能會使競爭環(huán)境更加公平,允許資源有限的小型企業(yè)利用以前只有擁有大量 IT 預(yù)算的大型公司才能獲得的 AI 能力。然而,這一發(fā)展的真實(shí)影響將取決于模型在實(shí)際應(yīng)用中的表現(xiàn)以及圍繞它構(gòu)建的工具和支持生態(tài)系統(tǒng)。
隨著各行業(yè)的企業(yè)繼續(xù)努力將 AI 整合到他們的運(yùn)營中,像 Mistral-NeMo 這樣的模型代表了向更高效、可部署的 AI 解決方案的轉(zhuǎn)變。這是否會挑戰(zhàn)更大、基于云的模型的主導(dǎo)地位還有待觀察,但它無疑為 AI 在企業(yè)環(huán)境中的整合開辟了新的可能性。
參考鏈接:https://mistral.ai/news/mistral-nemo/
https://venturebeat.com/ai/nvidia-and-mistrals-new-model-mistral-nemo-brings-enterprise-grade-ai-to-desktop-computers/
以上就是關(guān)于【小模型卷起來了:Mistral聯(lián)合英偉達(dá)開源12B小模型,128k上下文】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
【空調(diào)外機(jī)聲音大是什么問題】空調(diào)在使用過程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會讓人感到困擾??照{(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時,不僅影響使用體驗(yàn),還可能帶來一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來越重要的角色,尤其是在夏季高溫時,它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中,有時會出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時,如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個富有詩意的成語,常用來形容在偏僻、冷清的地方生長的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機(jī)輸入文字時,經(jīng)常會遇到需要輸入“空格”的情況。雖然看似簡單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時,很多人會遇到“空格怎么打”的問題。其實(shí),“空格”是一個非?;A(chǔ)的...瀏覽全文>>