清華北航博士生「強迫」Gemma-2說中文!弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜
相信很多大家對清華北航博士生「強迫」Gemma-2說中文!弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】谷歌的Gemma2剛剛發(fā)布,清華和北航的兩名博士生就已經(jīng)成功推出了指令微調(diào)版本,顯著增強了Gemma29B/27B模型的中文通用對話、角色扮演、數(shù)學(xué)、工具使用等能力。
眾所周知,很多國外LLM一直存在非英語歧視問題,英語和其他語言在LLM中存在的性能差距有時可以用懸殊來形容。
之前就有網(wǎng)友發(fā)現(xiàn),GPT-4o分詞器語料庫中,中文數(shù)據(jù)污染非常嚴(yán)重,賭博色情網(wǎng)站是一個也不少,嚴(yán)重影響了我們用中文和AI機器人好好聊天。
最近發(fā)布的Gemma2模型雖然既開源又強悍,但比較遺憾的是,其中文水平相較英文水平還有一定的距離。
不過,我們可以用微調(diào)來解決,F(xiàn)ine-tune it!
7月1日,Gemma2剛發(fā)布4天,清華大學(xué)的一名人工智能博士生王慎執(zhí)就在X上隆重推出了一款微調(diào)模型Gemma-2-9B-Chinese-Chat。
關(guān)于項目的更多信息,可以在Huggingface上查閱。
項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat
更讓人驚喜的是,1天之后,27B的微調(diào)版本也上線了。根據(jù)HuggingFace主頁信息,模型的下載量已經(jīng)超過了3.4萬。
項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat
項目介紹顯示,采用的微調(diào)算法是ORPO,ORPO將監(jiān)督微調(diào)(SFT)和RLHF或DPO等偏好對齊方法合二為一,是一種非常聰明的算法。
與原來的9B Gemma2模型相比,微調(diào)的Gemma-2-9B-Chinese-Chat模型大大減少了「中文問題英文回答」和「中英文混雜回答」的問題,在角色扮演、工具使用和數(shù)學(xué)方面的表現(xiàn)都有所提高。
就連應(yīng)對「最佳中文訓(xùn)練數(shù)據(jù)」弱智吧的問題,都有非常出色的表現(xiàn)。
示例
微調(diào)模型貢獻者給出了一些示例,包括角色扮演、函數(shù)調(diào)用、數(shù)學(xué)、弱智吧、安全、寫作、編碼等。
而且還給出了一個在線demo,嘿嘿,這下有得玩了。
角色扮演首先讓LLM扮演周杰倫唱rap:
再扮演魯智深試試呢?給出的示例是下面這樣似兒的——
但小編用在線demo親自嘗試了一下,發(fā)現(xiàn)這位魯智深「粗魯」不起來,目前還沒有很好的連續(xù)性。
數(shù)學(xué)年齡問題、雞兔同籠問題,Gemma-2-9B-Chinese-Chat都輕松應(yīng)對。
弱智吧弱智吧的各種文字游戲,是NLP程序員最討厭的,但微調(diào)模型在處理弱智吧的一些言論時,似乎表現(xiàn)還不錯。
函數(shù)調(diào)用用戶輸入:
Hereisalistoftoolsthatyouhaveavailabletoyou:```pythondefinternet_search(query:str):"""ReturnsalistofrelevantdocumentsnippetsforatextualqueryretrievedfromtheinternetArgs:query(str):Querytosearchtheinternetwith"""pass``````pythondefdirectly_answer():"""Callsastandard(un-augmented)AIchatbottogeneratearesponsegiventheconversationhistory"""pass```Write'Action:'followedbyalistofactionsinJSONthatyouwanttocall,e.g.Action:```json[{"tool_name":"toolname(oneof[internet_search,directly_answer])","parameters":"theinputtothetool"}]
微調(diào)模型輸出:
[{"tool_name":"internet_search","parameters":{"query":"biggestpenguinintheworld"}}]安全寫作
讓模型「寫一段關(guān)于人工智能的綜述」,你將會得到——
編碼用戶輸入:
用python寫一個函數(shù)實現(xiàn)快速排序算法,要求輸入為一個列表,列表里的元素都是float類型,返回一個排好序后的列表。記住要給代碼加中文注釋。
微調(diào)模型輸出:
defquick_sort(nums):#快速排序的遞歸函數(shù)#如果列表長度小于等于1,則直接返回,因為列表已經(jīng)是排序好的iflen(nums)<=1:returnnums#選擇基準(zhǔn)值,這里選擇列表的第一個元素pivot=nums[0]#分隔列表,將小于基準(zhǔn)值的元素放在左側(cè),大于基準(zhǔn)值的元素放在右側(cè)left=[numfornuminnums[1:]ifnum<pivot]right=[numfornuminnums[1:]ifnum>=pivot]#遞歸地對左側(cè)和右側(cè)進行快速排序left=quick_sort(left)right=quick_sort(right)#將左側(cè)、基準(zhǔn)值、右側(cè)合并成一個排序后的列表returnleft+[pivot]+right
作者信息
Gemma-2-9B-Chinese-Chat和Gemma-2-27B-Chinese-Chat微調(diào)模型的貢獻者是王慎執(zhí)和鄭耀威。
王慎執(zhí)同學(xué)是清華大學(xué)自動化系LEAP實驗室的三年級博士生,導(dǎo)師是宋士吉教授和黃高副教授。
在此之前,他在北京航空航天大學(xué)沈元榮譽學(xué)院計算機科學(xué)與技術(shù)專業(yè)以優(yōu)異成績獲得工學(xué)學(xué)士學(xué)位。
王同學(xué)是開源項目的積極倡導(dǎo)者,幾個流行的微調(diào)LLM都是他發(fā)布的,如Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat和Mistral-7B-v0.3-Chinese-Chat。
業(yè)余時間,他還會在知乎上寫一些中文科技博客,目前有10k+粉絲。
鄭耀威是王慎執(zhí)在本科期間的同學(xué),他們此前就曾多次合作。
鄭耀威目前仍在北航讀博,他曾以第一作者在CVPR、AAAI、WWW等頂會發(fā)表多篇論文,并擔(dān)任AAAI、EMNLP、Neural Computation等會議和期刊審稿人。
他也是大模型微調(diào)框架LLaMA Factory的發(fā)起人和主要開發(fā)者,GitHub開源項目獲得超過2萬星標(biāo)。
在這些優(yōu)秀的貢獻者的不斷努力之下,開源模型之路會越走越寬廣,模型的中文能力也會逐漸增強。
參考資料:
https://x.com/ShenzhiWang_THU/status/1807640624402923779
https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat
https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat
以上就是關(guān)于【清華北航博士生「強迫」Gemma-2說中文!弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
【空調(diào)外機聲音大是什么問題】空調(diào)在使用過程中,如果發(fā)現(xiàn)外機發(fā)出異常的噪音,可能會讓人感到困擾??照{(diào)外機...瀏覽全文>>
-
【空調(diào)外機聲音大如何解決】空調(diào)在使用過程中,外機發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機清洗方法是什么】空調(diào)外機是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時,不僅影響使用體驗,還可能帶來一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來越重要的角色,尤其是在夏季高溫時,它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中,有時會出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運行時,如果發(fā)現(xiàn)室內(nèi)機的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個富有詩意的成語,常用來形容在偏僻、冷清的地方生長的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機輸入文字時,經(jīng)常會遇到需要輸入“空格”的情況。雖然看似簡單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機時,很多人會遇到“空格怎么打”的問題。其實,“空格”是一個非常基礎(chǔ)的...瀏覽全文>>