清華北航博士生「強迫」Gemma-2說中文！弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜

2024-07-07 10:30:03 來源：用戶：

相信很多大家對清華北航博士生「強迫」Gemma-2說中文！弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】谷歌的Gemma2剛剛發(fā)布，清華和北航的兩名博士生就已經(jīng)成功推出了指令微調(diào)版本，顯著增強了Gemma29B/27B模型的中文通用對話、角色扮演、數(shù)學(xué)、工具使用等能力。

眾所周知，很多國外LLM一直存在非英語歧視問題，英語和其他語言在LLM中存在的性能差距有時可以用懸殊來形容。

之前就有網(wǎng)友發(fā)現(xiàn)，GPT-4o分詞器語料庫中，中文數(shù)據(jù)污染非常嚴(yán)重，賭博色情網(wǎng)站是一個也不少，嚴(yán)重影響了我們用中文和AI機器人好好聊天。

最近發(fā)布的Gemma2模型雖然既開源又強悍，但比較遺憾的是，其中文水平相較英文水平還有一定的距離。

不過，我們可以用微調(diào)來解決，F(xiàn)ine-tune it!

7月1日，Gemma2剛發(fā)布4天，清華大學(xué)的一名人工智能博士生王慎執(zhí)就在X上隆重推出了一款微調(diào)模型Gemma-2-9B-Chinese-Chat。

關(guān)于項目的更多信息，可以在Huggingface上查閱。

項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat

更讓人驚喜的是，1天之后，27B的微調(diào)版本也上線了。根據(jù)HuggingFace主頁信息，模型的下載量已經(jīng)超過了3.4萬。

項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat

項目介紹顯示，采用的微調(diào)算法是ORPO，ORPO將監(jiān)督微調(diào)（SFT）和RLHF或DPO等偏好對齊方法合二為一，是一種非常聰明的算法。

與原來的9B Gemma2模型相比，微調(diào)的Gemma-2-9B-Chinese-Chat模型大大減少了「中文問題英文回答」和「中英文混雜回答」的問題，在角色扮演、工具使用和數(shù)學(xué)方面的表現(xiàn)都有所提高。

就連應(yīng)對「最佳中文訓(xùn)練數(shù)據(jù)」弱智吧的問題，都有非常出色的表現(xiàn)。

示例

微調(diào)模型貢獻者給出了一些示例，包括角色扮演、函數(shù)調(diào)用、數(shù)學(xué)、弱智吧、安全、寫作、編碼等。

而且還給出了一個在線demo，嘿嘿，這下有得玩了。

角色扮演

首先讓LLM扮演周杰倫唱rap:

再扮演魯智深試試呢?給出的示例是下面這樣似兒的——

但小編用在線demo親自嘗試了一下，發(fā)現(xiàn)這位魯智深「粗魯」不起來，目前還沒有很好的連續(xù)性。

數(shù)學(xué)

年齡問題、雞兔同籠問題，Gemma-2-9B-Chinese-Chat都輕松應(yīng)對。

弱智吧

弱智吧的各種文字游戲，是NLP程序員最討厭的，但微調(diào)模型在處理弱智吧的一些言論時，似乎表現(xiàn)還不錯。

函數(shù)調(diào)用

用戶輸入:

Hereisalistoftoolsthatyouhaveavailabletoyou:```pythondefinternet_search（query:str）:"""ReturnsalistofrelevantdocumentsnippetsforatextualqueryretrievedfromtheinternetArgs:query(str):Querytosearchtheinternetwith"""pass``````pythondefdirectly_answer():"""Callsastandard(un-augmented)AIchatbottogeneratearesponsegiventheconversationhistory"""pass```Write'Action:'followedbyalistofactionsinJSONthatyouwanttocall，e.g.Action:```json[{"tool_name":"toolname(oneof[internet_search，directly_answer])"，"parameters":"theinputtothetool"}]

微調(diào)模型輸出:

[{"tool_name":"internet_search"，"parameters":{"query":"biggestpenguinintheworld"}}]

安全寫作

讓模型「寫一段關(guān)于人工智能的綜述」，你將會得到——

編碼

用戶輸入:

用python寫一個函數(shù)實現(xiàn)快速排序算法，要求輸入為一個列表，列表里的元素都是float類型，返回一個排好序后的列表。記住要給代碼加中文注釋。

微調(diào)模型輸出:

defquick_sort（nums）:#快速排序的遞歸函數(shù)#如果列表長度小于等于1，則直接返回，因為列表已經(jīng)是排序好的iflen(nums)<=1:returnnums#選擇基準(zhǔn)值，這里選擇列表的第一個元素pivot=nums[0]#分隔列表，將小于基準(zhǔn)值的元素放在左側(cè)，大于基準(zhǔn)值的元素放在右側(cè)left=[numfornuminnums[1:]ifnum<pivot]right=[numfornuminnums[1:]ifnum>=pivot]#遞歸地對左側(cè)和右側(cè)進行快速排序left=quick_sort(left)right=quick_sort(right)#將左側(cè)、基準(zhǔn)值、右側(cè)合并成一個排序后的列表returnleft+[pivot]+right

作者信息

Gemma-2-9B-Chinese-Chat和Gemma-2-27B-Chinese-Chat微調(diào)模型的貢獻者是王慎執(zhí)和鄭耀威。

王慎執(zhí)同學(xué)是清華大學(xué)自動化系LEAP實驗室的三年級博士生，導(dǎo)師是宋士吉教授和黃高副教授。

在此之前，他在北京航空航天大學(xué)沈元榮譽學(xué)院計算機科學(xué)與技術(shù)專業(yè)以優(yōu)異成績獲得工學(xué)學(xué)士學(xué)位。

王同學(xué)是開源項目的積極倡導(dǎo)者，幾個流行的微調(diào)LLM都是他發(fā)布的，如Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat和Mistral-7B-v0.3-Chinese-Chat。

業(yè)余時間，他還會在知乎上寫一些中文科技博客，目前有10k+粉絲。

鄭耀威是王慎執(zhí)在本科期間的同學(xué)，他們此前就曾多次合作。

鄭耀威目前仍在北航讀博，他曾以第一作者在CVPR、AAAI、WWW等頂會發(fā)表多篇論文，并擔(dān)任AAAI、EMNLP、Neural Computation等會議和期刊審稿人。

他也是大模型微調(diào)框架LLaMA Factory的發(fā)起人和主要開發(fā)者，GitHub開源項目獲得超過2萬星標(biāo)。

在這些優(yōu)秀的貢獻者的不斷努力之下，開源模型之路會越走越寬廣，模型的中文能力也會逐漸增強。

參考資料:

https://x.com/ShenzhiWang_THU/status/1807640624402923779

https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat

https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat

以上就是關(guān)于【清華北航博士生「強迫」Gemma-2說中文！弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜】的相關(guān)內(nèi)容，希望對大家有幫助！

標(biāo)簽：清華北航博士生「強迫」Gemma-2說中文！弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

清華北航博士生「強迫」Gemma-2說中文！弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜

清華北航博士生「強迫」Gemma-2說中文！弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜