摘要
本文主要評估了ChatGPT這種大型語言模型在信息提取方面的能力,作者使用了7個細(xì)粒度的信息提取任務(wù)來評估ChatGPT的性能、可解釋性、校準(zhǔn)度和可信度。
作者發(fā)現(xiàn),在標(biāo)準(zhǔn)信息提取設(shè)置下,ChatGPT的性能較差,但在開放式信息提取設(shè)置下表現(xiàn)出色,且其決策的解釋具有高質(zhì)量和可信度。
不過,ChatGPT存在過度自信的問題,導(dǎo)致其校準(zhǔn)度較低。此外,ChatGPT在大多數(shù)情況下對原始文本的忠實度很高。
最后,作者手動注釋并發(fā)布了7個細(xì)粒度信息提取任務(wù)的測試集,包含14個數(shù)據(jù)集,以進一步促進研究。
主要思路
ChatGPT是最近非常流行的對話大模型,可以與用戶進行流暢和高效的交流。但是由于ChatGPT的訓(xùn)練細(xì)節(jié)和數(shù)據(jù)沒有完全公開,并且ChatGPT的輸出會帶有一些觀點和偏向,這些觀點都可能會影響用戶對事物的判斷和決策,甚至對用戶造成負(fù)面作用[1-4]。
因此,對于ChatGPT的評測方面,不止需要關(guān)注給定下游任務(wù)的性能評測,同時還需要考慮到使用大模型過程中用戶可能需要的一些方面,如ChatGPT對決策判斷的可解釋、預(yù)測自信程度和對于輸入原文的忠實程度等。
基于以上分析,本文希望在ChatGPT性能的基礎(chǔ)上,通過更多的維度對ChatGPT模型的能力進行全方位的評估。
具體來說,我們希望通過以下4個方面來評估ChatGPT的綜合性能:
1)性能(Performance)。我們研究的一個重要方面是全面評估ChatGPT在各種任務(wù)上的整體性能,如準(zhǔn)確率和F1值等。并將其與其他熱門模型進行比較。通過從不同角度考察其性能,我們旨在提供對ChatGPT在下游信息提取任務(wù)方面能力的詳細(xì)理解。
2)可解釋性(Explainability)。ChatGPT的可解釋性對于其在現(xiàn)實場景中應(yīng)用是至關(guān)重要的[5-7],因為用戶希望在獲取模型輸出的同時,讓模型給出合理的預(yù)測理由和判斷依據(jù)。在我們的研究中,我們將同時衡量ChatGPT的自我檢查和人工檢查的可解釋性,重點關(guān)注其為人類提供有用和準(zhǔn)確的推理過程解釋的能力。
3)校準(zhǔn)性(Calibration)。測量“calibration”有助于評估模型的預(yù)測不確定性[8,9]。校準(zhǔn)度高的分類器應(yīng)該具有準(zhǔn)確反映正確性概率的預(yù)測分?jǐn)?shù)[10,11]。鑒于深度神經(jīng)網(wǎng)絡(luò)在其預(yù)測中表現(xiàn)出過度自信的傾向,我們期望識別ChatGPT的潛在不確定性或過度自信現(xiàn)象。
4)忠誠度(Faithfulness)。模型對預(yù)測解釋的忠誠度對于用戶而言非常重要[12,13]。我們嘗試評估ChatGPT提供的解釋是否與輸入內(nèi)容一致。
基于以上四個方面,我們設(shè)計了15個不同的評測指標(biāo),其中10個為ChatGPT自動輸出的指標(biāo),5個為多位領(lǐng)域?qū)<胰斯?biāo)注的指標(biāo)。具體指標(biāo)如下:
任務(wù)數(shù)據(jù)集及實驗設(shè)置
我們選擇了自然語言處理中十分重要的研究任務(wù)——信息抽取,作為任務(wù)載體,對ChatGPT的以上度量指標(biāo)進行全方位的評估。信息抽?。╥nformation extraction, IE)涉及異構(gòu)結(jié)構(gòu)提取、事實知識使用和多樣化的目標(biāo),因此此類任務(wù)是評估ChatGPT能力的理想場景。本文中,我們選擇了7個信息抽取任務(wù)共14個數(shù)據(jù)集進行測試,包括是實體識別,關(guān)系抽取和事件抽取等。
在實驗過程中,我們采用了2種設(shè)置,即標(biāo)準(zhǔn)信息抽取(Standard-IE)和開放式信息抽?。∣penIE)。Standard-IE設(shè)置通常用于以前的工作中,它使用特定于任務(wù)的數(shù)據(jù)集與監(jiān)督式學(xué)習(xí)范式對模型進行微調(diào)。對于ChatGPT,由于我們無法直接微調(diào)參數(shù),因此我們評估ChatGPT從一組候選標(biāo)簽中選擇最合適答案的能力。具體而言,這種設(shè)置基于包括任務(wù)描述、輸入文本、提示和標(biāo)簽集的指示。任務(wù)描述描述了具體的IE任務(wù),提示包括引導(dǎo)ChatGPT輸出所需特征(即上述15個特征中的一個或多個),而標(biāo)簽集基于每個數(shù)據(jù)集包含所有候選標(biāo)簽。OpenIE設(shè)置是比Standard-IE設(shè)置更高級和具有挑戰(zhàn)性的情境。在此設(shè)置中,我們不會向ChatGPT提供任何候選標(biāo)簽,僅依賴其理解任務(wù)描述、提示和輸入文本的能力來生成預(yù)測。我們的目標(biāo)是評估ChatGPT生成合理事實知識的能力。實驗結(jié)果對比的模型包括BERT、RoBERTa和每個任務(wù)的SOTA模型。
實驗結(jié)果及結(jié)論
1)Standard-IE設(shè)置
主要結(jié)論:
1)在大部分情況下,ChatGPT的性能與BERT類模型和SOTA模型的性能差距較大;
2)在簡單任務(wù),如entity typing和relation classification問題下,ChatGPT的性能較好。
2)Open-IE設(shè)置
主要結(jié)論:
ChatGPT在開放式信息抽取設(shè)置下,輸出的結(jié)果較為令人滿意,在很多任務(wù)上能夠在大多數(shù)情況下輸出人類認(rèn)可的結(jié)果。這說明ChatGPT已經(jīng)學(xué)習(xí)了很多正確且可以合理輸出的常識知識。
3)可解釋性
主要結(jié)論:
通過ChatGPT和人工對給出的判斷理由進行標(biāo)注,我們發(fā)現(xiàn)ChatGPT輸出的解釋非常可靠,絕大多數(shù)情況下,人類與ChatGPT都認(rèn)為給出的理由是合理的。以上數(shù)據(jù)表明,ChatGPT對于自己預(yù)測的解釋可信度較高。
4)校準(zhǔn)度
主要結(jié)論:
1)表6展示的是各個模型預(yù)測的置信度,可以看出,BERT類模型和ChatGPT對于自己的預(yù)測都十分自信,均給出了很高的置信度。相比而言,因為ChatGPT在Standard-IE中其性能不佳,所以給出這么高的置信度表明模型有很嚴(yán)重的過度自信傾向。同時,模型對于預(yù)測錯誤的樣本,置信度明顯較低。也就是說,當(dāng)模型給出的預(yù)測置信度較低時,應(yīng)該對預(yù)測結(jié)果進行校驗。
2)表7通過評估校準(zhǔn)度的指標(biāo)ECE,我們可以明顯看出ChatGPT有最低的校準(zhǔn)度,即預(yù)測置信度偏高,過度自信問題嚴(yán)重。
5)忠實度
主要結(jié)論:
通過領(lǐng)域?qū)<覍δP洼敵鼋忉尯洼斎朐牡膶Ρ?,進行了人工的忠實度度量。我們發(fā)現(xiàn),ChatGPT的解釋是非常忠實于原文的,基本沒有在給定上下文的情況下,通過編造理由進行預(yù)測的行為。
總結(jié)
本文聚焦于ChatGPT在各種信息抽取任務(wù)上的系統(tǒng)性評測。針對于7個細(xì)粒度信息抽取任務(wù)和14個數(shù)據(jù)集,從模型性能、可解釋性、校準(zhǔn)度和忠實度這四個角度,設(shè)計了15個指標(biāo)(10個從ChatGPT自動獲取的指標(biāo),5個領(lǐng)域?qū)<覙?biāo)注的指標(biāo)),對ChatGPT進行了全面評估。實驗結(jié)果表明,ChatGPT在標(biāo)準(zhǔn)IE設(shè)置下,性能與有監(jiān)督模型有很大差距。
但是,ChatGPT在OpenIE的場景下輸出非常符合人類預(yù)期。同時,通過領(lǐng)域?qū)<覙?biāo)注表明,ChatGPT可以對自己的預(yù)測結(jié)果給出可靠的解釋,這表明ChatGPT有極強的解釋能力。但是ChatGPT會對自己的預(yù)測過度自信,給出非常高的預(yù)測置信度,從而導(dǎo)致較低的校準(zhǔn)度。
最后,本文還驗證了ChatGPT的決策非常忠實于原文,即不會通過虛構(gòu)來解決或者解釋問題。本文說明,ChatGPT在信息抽取領(lǐng)域仍然有很多的改進角度和提升空間。
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50427 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25447 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1590瀏覽量
9105
原文標(biāo)題:通過準(zhǔn)確性、可解釋性、校準(zhǔn)度和忠實度,對ChatGPT的能力進行全面評估
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
【大語言模型:原理與工程實踐】大語言模型的評測
【《時間序列與機器學(xué)習(xí)》閱讀體驗】+ 時間序列的信息提取
【「時間序列與機器學(xué)習(xí)」閱讀體驗】時間序列的信息提取
關(guān)于頻率變化的正弦波幅值信息提取
NLPIR在文本信息提取方面的優(yōu)勢介紹
不到1分鐘開發(fā)一個GPT應(yīng)用!各路大神瘋狂整活,網(wǎng)友:ChatGPT就是新iPhone
基于VB6.0的點陣字模信息提取方法
GPS定位信息提取及應(yīng)用
基于FPGA的圖像信息提取設(shè)計及仿真

散亂點云數(shù)據(jù)特征信息提取算法

ChatGPT在電磁領(lǐng)域的能力到底有多強?

評論