版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
2023年文心一言、GPT3.5及GPT~4的應(yīng)用測評對比分析1.常識和創(chuàng)作常識和創(chuàng)作部分我們分別對3個模型提出基于客觀事實的常識問答、給定主題的文字創(chuàng)作問題、給定主題的圖像創(chuàng)作問題,以評價模型對已有知識的表述能力和圖文生成能力。常識題:中國有多少個???3個模型都進行了正確的回答,其中GPT-4生成的答案最為嚴(yán)謹(jǐn)和詳細(xì),不僅說明了“截止2021年”(由于GPT-4的知識截止2021年)、優(yōu)先列舉了省份,且對具體省級行政區(qū)的名稱進行了詳盡的列示。文字創(chuàng)作題:請寫一個劉紅發(fā)大財?shù)墓适聫?個模型的回答來看,文心的分詞能力仍有改進之處,沒有對“劉紅”和“發(fā)大財”進行很好的分詞,而是以“劉紅發(fā)”為主角進行創(chuàng)作。從情節(jié)設(shè)置的角度而言,GPT-4的細(xì)節(jié)更加豐富、轉(zhuǎn)折也更多,但由于生成token數(shù)的限制,這個故事并沒有寫完。此外,3個模型的故事都體現(xiàn)了積極正面的價值觀。圖像創(chuàng)作題:請畫一張古典美女的油畫目前只有文心一言具備文生圖的能力,GPT-3.5依然是文生文。GPT-4理論上可以輸入文字和圖片,但目前圖片輸入的功能尚未對用戶開放。2.歸納和推理我們分別向3個模型提供演繹推理、情感推理、基于具體場景的邏輯推理問題,以及財務(wù)數(shù)據(jù)類的總結(jié)歸納問題,用以評價各模型歸納推理能力。演繹推理題:假設(shè)在一個餐廳,如果一個人點了牛排,則他一定點了沙拉。如果一個人沒有點沙拉,則他一定沒有點牛排?,F(xiàn)在有一個人點了沙拉,那么他是否一定點了牛排?從本題回答來看,文心在演繹推理方面的能力相對較弱,GPT-3.5和4持平。情感推理題:情侶吵架后,女朋友對男朋友說:”你沒有錯,都是我的錯?!罢垎柵笥咽欠裾J(rèn)為自己有錯?只有文心對本題給出了正確的情感推理結(jié)果,但它給出的推理過程有所偏差。GPT-4和GPT-3.5給出了錯誤的情感推理結(jié)果,但GPT-4給出了較為恰當(dāng)?shù)难a充說明。如果未來作為情感類助手,可能3個模型依然都還有需要改進之處。邏輯推理題:為什么我總是在最后一個地方找到丟失的物品?GPT-4的邏輯推理能力相對較強,它回答的第一段給出了正確的解釋,而文心和GPT-3.5都未能識別本題的邏輯謬誤。不過GPT-4的第二、三段回答給出的解釋也有些似是而非,整體來看3個模型的邏輯推理能力均有待加強。歸納總結(jié)題:問題一:請?zhí)崛∠挛闹黧w信息并以表格方式輸出:1.經(jīng)恒生電子股份有限公司(以下簡稱“恒生電子”或“公司”)財務(wù)部門初步測算,恒生電子預(yù)計2022年年度實現(xiàn)歸屬于上市公司股東的凈利潤約為108,706萬元(人民幣,下同),與上年同期相比將減少約37,648萬元,減少比例約為25.72%。2.預(yù)計2022年年度非經(jīng)常性損益對公司凈利潤的影響金額約為-432萬元。預(yù)計2022年年度實現(xiàn)歸屬于上市公司股東的扣除非經(jīng)常性損益的凈利潤約為109,138萬元,與上年同期相比將增加約14,481萬元,增加比例約為15.30%。3.預(yù)計2022年年度公司實現(xiàn)營業(yè)收入約為650,282萬元,與上年同期相比將增加約100,624萬元,增加比例約為18.31%。問題二:請問恒生電子2021年的收入是多少?從本題歸納總結(jié)的結(jié)果而言,文心列示的表格更符合財務(wù)分析的需求,而GPT-3.5沒有抽出重點主體信息并進行歸納。在多輪對話方面,GPT-4展現(xiàn)出了更強的能力,GPT-3.5和文心在聯(lián)系上下文對話方面稍遜一籌。不過文心采取了和NewBing一樣的方式,對于自己不知道的知識進行了直接搜索,而GPT-3.5基于Instruct-GPT的數(shù)據(jù),未能給出正確答案。3.數(shù)學(xué)和代碼我們分別向3個模型提供線性方程求解問題和代碼編寫問題,考察模型數(shù)理能力和代碼生成能力。數(shù)學(xué)題:求解線性方程組:3x+2y=8;2x-y=1本題只有GPT-3.5算出了正確答案。文心答案算錯,且沒有給出具體運算過程。GPT-4算對了x的值,但是代入求解y值的時候出現(xiàn)了錯誤。在數(shù)學(xué)能力方面,當(dāng)前模型依然有需要改進之處。代碼題:用Python編寫一個程序,在一個無序數(shù)組中查找一個特定的值。要求程序的時間復(fù)雜度為O(logn)。在本題的回答中,文心一言沒有準(zhǔn)確理解到時間復(fù)雜度O(logn)的需求,GPT-3.5及GPT-4給出的代碼為二分法搜索,只有在面對有序數(shù)組時才能滿足時間復(fù)雜度要求,也非最佳答案。整體來看,三個模型在代碼生成方面均有較大的改進空間,GPT-3.5與GPT-4表現(xiàn)基本持平,略優(yōu)于文心一言。4.現(xiàn)實應(yīng)用場景測試我們模擬AI生活助手、AI售后客服、辦公場景助手、產(chǎn)品推薦、教學(xué)輔導(dǎo)等場景對3個模型進行問答,用以評價模型在真實場景中應(yīng)用的可行性。AI生活助手:安全類問題:我收到公安局電話,說我涉嫌洗錢,要求將資金轉(zhuǎn)移至安全賬戶,我該怎么辦?3個模型都給出了正確的判斷并提供了合理建議,預(yù)計可以在反詐等方面進行很好的應(yīng)用。生活類問題:如何賺到100萬?文心給出的回答質(zhì)量明顯較高,給出了相對切實可靠的建議,且具備一定幽默感;而GPT-3.5和GPT-4的回答更加空泛一些,但在安全提示方面進行了加強。售后客服場景助手:問題一:請你扮演售后客服,幫我處理退換貨的問題。問題二:我已經(jīng)撕了吊牌了,可以么?總的來說3個模型都很好地完成了任務(wù),能夠應(yīng)用于客服場景。相對而言,GPT-3.5在角色扮演和客服對話場景的表現(xiàn)更加優(yōu)秀,文心和GPT-4的回答都更加格式化一些。辦公場景助手:問題一:請幫我寫一段公司年會主持詞。問題二:請幫我用文言文修飾上面這段話,要求加上古詩詞整體而言3個模型在辦公協(xié)同領(lǐng)域都展現(xiàn)出了較好的能力,其中GPT-4的表述更加豐富,文心的回答略有瑕疵,不應(yīng)該“代表主持人”。在文言文方面,GPT-3.5的回答最為驚喜,不僅用了文言文,甚至給出了繁體字。但可能因為更多用英文語料訓(xùn)練的緣故,GPT-3.5和GPT-4犯了一些語病錯誤,比如“謹(jǐn)白”、“逝年”、“不期而至”、“對酒當(dāng)歌,人生幾何”等表述并不恰當(dāng),古詩詞也都是編造的。文心沒有很好地理解“加上古詩詞”的含義,且修飾過短。3個模型在文言文和詩詞方面均有待訓(xùn)練。產(chǎn)品推薦助手:問題一:我想買一個年化4%的理財產(chǎn)品,請幫我推薦。問題二:請幫我推薦一個適合送給25歲女同事的生日禮物,大概1千元左右。從這兩個推薦回答來看,文心的表現(xiàn)更好。GPT-3.5和GPT-4的理財推薦強調(diào)了風(fēng)險,這是文心需要加強的部分;同時GPT-4對禮物的回答比較嚴(yán)謹(jǐn),題干中讓推薦一個禮物就只推薦了一個。整體而言認(rèn)為目前的模型具備智能投顧和購物助手的能力,且未來有機會可以在其中植入推薦廣告。教學(xué)輔助:問題一:這句話是什么意思:柔情似水、佳期如夢。問題二:這句話是什么意思:香霧云鬟濕,清輝玉臂寒。問題一是一個比較容易理解的古詩,問題二的復(fù)雜程度相對高一些??赡苡捎谥形恼Z料更加豐富的緣故,文心在古詩詞理解方面的表現(xiàn)相對較好,盡管寫錯了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新型能源汽車短期借用協(xié)議書4篇
- 2025年度文化產(chǎn)業(yè)發(fā)展基金投資合作合同4篇
- 2025年度智能家居櫥柜定制工程協(xié)議書4篇
- 2025年度新能源車輛租賃代理合同模板3篇
- 2024版離婚協(xié)議年范本
- 2025年單梁橋式起重機項目可行性研究報告-20250102-152444
- 2025年中鹽青海昆侖堿業(yè)有限公司招聘筆試參考題庫含答案解析
- 2025年四川壯禾人力資源有限公司招聘筆試參考題庫含答案解析
- 2025年中國郵政證券有限責(zé)任公司招聘筆試參考題庫含答案解析
- 2025年江蘇弘景建設(shè)規(guī)劃有限公司招聘筆試參考題庫含答案解析
- 漆畫漆藝 第三章
- CB/T 615-1995船底吸入格柵
- 光伏逆變器一課件
- 貨物供應(yīng)、運輸、包裝說明方案
- (完整版)英語高頻詞匯800詞
- 《基礎(chǔ)馬來語》課程標(biāo)準(zhǔn)(高職)
- IEC61850研討交流之四-服務(wù)影射
- 《兒科學(xué)》新生兒窒息課件
- 材料力學(xué)壓桿穩(wěn)定
- 人教版小升初英語知識點匯總
- 靜態(tài)爆破專項施工方案
評論
0/150
提交評論