最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁 >> 今日更新 >

清華北航博士生「強迫」Gemma-2說中文!弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜

2024-07-07 10:30:03 來源: 用戶: 

相信很多大家對清華北航博士生「強迫」Gemma-2說中文!弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

【新智元導(dǎo)讀】谷歌的Gemma2剛剛發(fā)布,清華和北航的兩名博士生就已經(jīng)成功推出了指令微調(diào)版本,顯著增強了Gemma29B/27B模型的中文通用對話、角色扮演、數(shù)學(xué)、工具使用等能力。

眾所周知,很多國外LLM一直存在非英語歧視問題,英語和其他語言在LLM中存在的性能差距有時可以用懸殊來形容。

之前就有網(wǎng)友發(fā)現(xiàn),GPT-4o分詞器語料庫中,中文數(shù)據(jù)污染非常嚴(yán)重,賭博色情網(wǎng)站是一個也不少,嚴(yán)重影響了我們用中文和AI機器人好好聊天。

最近發(fā)布的Gemma2模型雖然既開源又強悍,但比較遺憾的是,其中文水平相較英文水平還有一定的距離。

不過,我們可以用微調(diào)來解決,F(xiàn)ine-tune it!

7月1日,Gemma2剛發(fā)布4天,清華大學(xué)的一名人工智能博士生王慎執(zhí)就在X上隆重推出了一款微調(diào)模型Gemma-2-9B-Chinese-Chat。

關(guān)于項目的更多信息,可以在Huggingface上查閱。

項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat

更讓人驚喜的是,1天之后,27B的微調(diào)版本也上線了。根據(jù)HuggingFace主頁信息,模型的下載量已經(jīng)超過了3.4萬。

項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat

項目介紹顯示,采用的微調(diào)算法是ORPO,ORPO將監(jiān)督微調(diào)(SFT)和RLHF或DPO等偏好對齊方法合二為一,是一種非常聰明的算法。

與原來的9B Gemma2模型相比,微調(diào)的Gemma-2-9B-Chinese-Chat模型大大減少了「中文問題英文回答」和「中英文混雜回答」的問題,在角色扮演、工具使用和數(shù)學(xué)方面的表現(xiàn)都有所提高。

就連應(yīng)對「最佳中文訓(xùn)練數(shù)據(jù)」弱智吧的問題,都有非常出色的表現(xiàn)。

示例

微調(diào)模型貢獻者給出了一些示例,包括角色扮演、函數(shù)調(diào)用、數(shù)學(xué)、弱智吧、安全、寫作、編碼等。

而且還給出了一個在線demo,嘿嘿,這下有得玩了。

角色扮演

首先讓LLM扮演周杰倫唱rap:

再扮演魯智深試試呢?給出的示例是下面這樣似兒的——

但小編用在線demo親自嘗試了一下,發(fā)現(xiàn)這位魯智深「粗魯」不起來,目前還沒有很好的連續(xù)性。

數(shù)學(xué)

年齡問題、雞兔同籠問題,Gemma-2-9B-Chinese-Chat都輕松應(yīng)對。

弱智吧

弱智吧的各種文字游戲,是NLP程序員最討厭的,但微調(diào)模型在處理弱智吧的一些言論時,似乎表現(xiàn)還不錯。

函數(shù)調(diào)用

用戶輸入:

Hereisalistoftoolsthatyouhaveavailabletoyou:```pythondefinternet_search(query:str):"""ReturnsalistofrelevantdocumentsnippetsforatextualqueryretrievedfromtheinternetArgs:query(str):Querytosearchtheinternetwith"""pass``````pythondefdirectly_answer():"""Callsastandard(un-augmented)AIchatbottogeneratearesponsegiventheconversationhistory"""pass```Write'Action:'followedbyalistofactionsinJSONthatyouwanttocall,e.g.Action:```json[{"tool_name":"toolname(oneof[internet_search,directly_answer])","parameters":"theinputtothetool"}]

微調(diào)模型輸出:

[{"tool_name":"internet_search","parameters":{"query":"biggestpenguinintheworld"}}]
安全寫作

讓模型「寫一段關(guān)于人工智能的綜述」,你將會得到——

編碼

用戶輸入:

用python寫一個函數(shù)實現(xiàn)快速排序算法,要求輸入為一個列表,列表里的元素都是float類型,返回一個排好序后的列表。記住要給代碼加中文注釋。

微調(diào)模型輸出:

defquick_sort(nums):#快速排序的遞歸函數(shù)#如果列表長度小于等于1,則直接返回,因為列表已經(jīng)是排序好的iflen(nums)<=1:returnnums#選擇基準(zhǔn)值,這里選擇列表的第一個元素pivot=nums[0]#分隔列表,將小于基準(zhǔn)值的元素放在左側(cè),大于基準(zhǔn)值的元素放在右側(cè)left=[numfornuminnums[1:]ifnum<pivot]right=[numfornuminnums[1:]ifnum>=pivot]#遞歸地對左側(cè)和右側(cè)進行快速排序left=quick_sort(left)right=quick_sort(right)#將左側(cè)、基準(zhǔn)值、右側(cè)合并成一個排序后的列表returnleft+[pivot]+right

作者信息

Gemma-2-9B-Chinese-Chat和Gemma-2-27B-Chinese-Chat微調(diào)模型的貢獻者是王慎執(zhí)和鄭耀威。

王慎執(zhí)同學(xué)是清華大學(xué)自動化系LEAP實驗室的三年級博士生,導(dǎo)師是宋士吉教授和黃高副教授。

在此之前,他在北京航空航天大學(xué)沈元榮譽學(xué)院計算機科學(xué)與技術(shù)專業(yè)以優(yōu)異成績獲得工學(xué)學(xué)士學(xué)位。

王同學(xué)是開源項目的積極倡導(dǎo)者,幾個流行的微調(diào)LLM都是他發(fā)布的,如Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat和Mistral-7B-v0.3-Chinese-Chat。

業(yè)余時間,他還會在知乎上寫一些中文科技博客,目前有10k+粉絲。

鄭耀威是王慎執(zhí)在本科期間的同學(xué),他們此前就曾多次合作。

鄭耀威目前仍在北航讀博,他曾以第一作者在CVPR、AAAI、WWW等頂會發(fā)表多篇論文,并擔(dān)任AAAI、EMNLP、Neural Computation等會議和期刊審稿人。

他也是大模型微調(diào)框架LLaMA Factory的發(fā)起人和主要開發(fā)者,GitHub開源項目獲得超過2萬星標(biāo)。

在這些優(yōu)秀的貢獻者的不斷努力之下,開源模型之路會越走越寬廣,模型的中文能力也會逐漸增強。

參考資料:

https://x.com/ShenzhiWang_THU/status/1807640624402923779

https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat

https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat

以上就是關(guān)于【清華北航博士生「強迫」Gemma-2說中文!弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜】的相關(guān)內(nèi)容,希望對大家有幫助!

  免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

 
分享:
最新文章