調查分析兩百余篇大模型論文,數(shù)十位研究者一文綜述RLHF的挑戰(zhàn)與局限
機器之心報道
(資料圖片)
RLHF 方法雖然強大,但它并沒有解決開發(fā)人性化人工智能的基本挑戰(zhàn)。
自 ChatGPT 問世,OpenAI 使用的訓練方法人類反饋強化學習(RLHF)就備受關注,已經(jīng)成為微調大型語言模型(LLM)的核心方法。RLHF 方法在訓練中使用人類反饋,以最小化無益、失真或偏見的輸出,使 AI 模型與人類價值觀對齊。
然而,RLHF 方法也存在一些缺陷,最近來自 MIT CSAIL、哈佛大學、哥倫比亞大學等機構的數(shù)十位研究者聯(lián)合發(fā)表了一篇綜述論文,對兩百余篇領域內的研究論文進行分析探討,系統(tǒng)地研究了 RLHF 方法的缺陷。
論文地址:/papers/
總的來說,該論文強調了 RLHF 的局限性,并表明開發(fā)更安全的 AI 系統(tǒng)需要使用多方面方法(multi-faceted approach)。研究團隊做了如下工作:
調查了 RLHF 和相關方法的公開問題和基本限制;
概述了在實踐中理解、改進和補充 RLHF 的方法;
提出審計和披露標準,以改善社會對 RLHF 系統(tǒng)的監(jiān)督。
具體來說,論文的核心內容包括以下三個部分:
面臨的具體挑戰(zhàn)。研究團隊對 RLHF 相關問題進行了分類和調查,并區(qū)分了 RLHF 面臨的挑戰(zhàn)與 RLHF 的根本局限性,前者更容易解決,可以在 RLHF 框架內使用改進方法來解決,而后者則必須通過其他方法來解決對齊問題。
2. 將 RLHF 納入更廣泛的技術安全框架。論文表明 RLHF 并非開發(fā)安全 AI 的完整框架,并闡述了有助于更好地理解、改進和補充 RLHF 的一些方法,強調了多重冗余策略(multiple redundant strategy)對減少問題的重要性。
3. 治理與透明度。該論文分析探討了改進行業(yè)規(guī)范面臨的挑戰(zhàn)。例如,研究者討論了讓使用 RLHF 訓練 AI 系統(tǒng)的公司披露訓練細節(jié)是否有用。
我們來看下論文核心部分的結構和基本內容。
如下圖 1 所示,該研究分析了與 RLHF 相關 3 個過程:收集人類反饋、獎勵建模和策略優(yōu)化。其中,反饋過程引出人類對模型輸出的評估;獎勵建模過程使用監(jiān)督學習訓練出模仿人類評估的獎勵模型;策略優(yōu)化過程優(yōu)化人工智能系統(tǒng),以產生獎勵模型評估更優(yōu)的輸出。論文第三章從這三個過程以及聯(lián)合訓練獎勵模型和策略四個方面探討了 RLHF 方法存在的問題和挑戰(zhàn)。
論文第三章總結的問題表明:嚴重依賴 RLHF 來開發(fā)人工智能系統(tǒng)會帶來安全風險。雖然 RLHF 很有用,但它并沒有解決開發(fā)人性化人工智能的基本挑戰(zhàn)。
研究團隊認為:任何單一策略都不應被視為綜合解決方案。更好的做法是采用多種安全方法的「深度防御」,論文第四章從理解、改進、補充 RLHF 這幾個方面詳細闡述了提高 AI 安全性的方法。
論文第五章概述了 RLHF 治理面臨的風險因素和審計措施。
總結
該研究發(fā)現(xiàn),實踐中很多問題來源于 RLHF 的根本局限性,必須采用非 RLHF 的方法來避免或彌補。因此,該論文強調兩種策略的重要性:(1) 根據(jù) RLHF 和其他方法的根本局限性來評估技術進步,(2) 通過采取深度防御安全措施和與科學界公開共享研究成果,來應對 AI 的對齊問題。
此外,該研究闡明一些挑戰(zhàn)和問題并非是 RLHF 所獨有的,如 RL 策略的難題,還有一些是 AI 對齊的基本問題。
感興趣的讀者可以閱讀論文原文,了解更多研究內容。
?THE END
轉載請聯(lián)系本公眾號獲得授權
投稿或尋求報道:content@
關鍵詞:
相關文章
中國農業(yè)生態(tài)(08166):融富財務擬以978萬港元出售已抵押物業(yè) 將用于抵銷裁定金額
智通財經(jīng)APP訊,中國農業(yè)生態(tài)(08166)發(fā)布公告,融富財務有限公司(融富
精彩推送
浙江豐茂創(chuàng)業(yè)板IPO審核狀態(tài)更新為“注冊生效”
機會報從深圳證券交易所網(wǎng)站獲悉,浙江豐茂創(chuàng)業(yè)板IPO審核狀態(tài)更新為“
美股異動 | 白銀股集體下跌 First Majestic銀礦(AG.US)跌超4%
智通財經(jīng)APP獲悉8月1日周二現(xiàn)貨白銀日內再度跌超200現(xiàn)報2425美元盎司美
Microsoft 成為 2023 年第二季度網(wǎng)絡釣魚詐騙中最常被冒充的品牌
CheckPointResearch的最新《品牌網(wǎng)絡釣魚報告》顯示,隨著Google排名上
全國首創(chuàng)!AI人工智能助力治超執(zhí)法監(jiān)管
全國首創(chuàng)!AI人工智能助力治超執(zhí)法監(jiān)管---7月份以來,平臺日均動態(tài)分析
高質量發(fā)展在申城|對標全球頂級商業(yè)街區(qū)?南京路、淮海路、豫園三大商圈能級如何提升?
我們也將持續(xù)提升首發(fā)經(jīng)濟能級,吸引更多國際性品牌在黃浦區(qū)舉辦全球新
廣東塑膠球場丨喬師傅無溶劑硅PU球場五大升級,暢享運動時光
無創(chuàng)新,不未來!創(chuàng)新是推動體育行業(yè)發(fā)展的關鍵因素之一。在這個充滿挑
內蒙古自治區(qū)市場監(jiān)督管理局撤銷5家公司工業(yè)產品生產許可證
8月1日,內蒙古自治區(qū)市場監(jiān)督管理局發(fā)布通告稱,根據(jù)相關規(guī)定,因例行
實現(xiàn)機卡池綁定的方法、裝置和系統(tǒng)(關于實現(xiàn)機卡池綁定的方法、裝置和系統(tǒng)介紹)
大家好,小萬來為大家解答以上的問題。實現(xiàn)機卡池綁定的方法、裝置和系
韓國五大整車廠商7月本土銷量錄得1月以來最低,時隔11個月出現(xiàn)負增長
韓聯(lián)社8月1日消息,韓國五大整車廠商1日發(fā)布的7月銷售數(shù)據(jù)顯示,韓系汽
中國農業(yè)生態(tài)(08166):融富財務擬以978萬港元出售已抵押物業(yè) 將用于抵銷裁定金額
智通財經(jīng)APP訊,中國農業(yè)生態(tài)(08166)發(fā)布公告,融富財務有限公司(融富
