當前位置:首頁(yè) > 設計 > 正文內容

RLHF不夠用了,OpenAI設計出了新的獎勵機制

韶關(guān)UV印刷3個(gè)月前 (07-25)設計20
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

機器之心報道

機器之心編輯部

OpenAI 的新獎勵機制,讓大模型更聽(tīng)話(huà)了。

自大模型興起以來(lái),使用強化學(xué)習從人類(lèi)反饋(RLHF)中微調語(yǔ)言模型一直是確保 AI 準確遵循指令的首選方法。

為了確保 AI 系統安全運行并與人類(lèi)價(jià)值觀(guān)保持一致,我們需要定義期望行為并收集人類(lèi)反饋來(lái)訓練「獎勵模型」。這種模型通過(guò)發(fā)出期望的動(dòng)作來(lái)指導 AI。但是,收集這些常規和重復任務(wù)的人類(lèi)反饋通常效率不高。此外,如果安全政策發(fā)生變化,已經(jīng)收集的反饋可能會(huì )過(guò)時(shí),需要新的數據。

我們能否構建一種新的機制來(lái)完成這些任務(wù)?近日,OpenAI 公布了一種教導 AI 模型遵守安全政策的新方法,稱(chēng)為基于規則的獎勵(Rule-Based Rewards,RBR)。

相關(guān)論文已經(jīng)放出。

論文標題:Rule Based Rewards for Language Model Safety

021yin.com/rule-based-rewards-for-language-model-safety.pdf

021yin.com/openai/safety-rbr-code-and-data

論文作者之一、OpenAI 安全系統負責人 Lilian Weng 表示,「RBR 可以自動(dòng)執行一些模型微調。傳統上, 我們依賴(lài)于來(lái)自人類(lèi)反饋的強化學(xué)習作為默認的對齊訓練方法來(lái)訓練模型,這確實(shí)有效。然而在實(shí)踐中,我們面臨的挑戰是,我們花了很多時(shí)間討論政策的細節,而到最后,政策可能已經(jīng)發(fā)生了變化。」

RBR 根據一組安全規則提供 RL 信號,使其更容易適應不斷變化的安全政策,而無(wú)需嚴重依賴(lài)人類(lèi)數據。此外,借助 RBR,研究者能夠以更統一的視角看待安全性和模型能力,因為更強大的分級模型可以提供更高質(zhì)量的 RL 信號。

OpenAI 表示自 GPT-4 發(fā)布以來(lái),他們一直將 RBR 用作安全堆棧的一部分,包括 GPT-4o mini,并計劃在未來(lái)的模型中實(shí)施它。

為什么要提出 RBR?

隨著(zhù)大型語(yǔ)言模型(LLM)功能的增強和普及,確保其安全性和對齊變得越來(lái)越重要。最近的許多工作都集中在使用人類(lèi)偏好數據來(lái)調整模型上,例如基于人類(lèi)反饋的強化學(xué)習(RLHF)。

然而,僅使用人類(lèi)反饋來(lái)實(shí)現目標安全規范還面臨許多挑戰。為模型安全性收集和維護人類(lèi)數據通常既費錢(qián)又費時(shí),而且隨著(zhù)模型能力的提高或用戶(hù)行為的改變,安全準則也會(huì )發(fā)生變化,這些數據可能會(huì )過(guò)時(shí)。即使要求相對穩定,也很難向注釋者傳達。安全方面的情況尤其如此,因為所需的模型響應非常復雜,需要對是否響應以及如何響應請求做出細微差別。如果說(shuō)明不夠明確,注釋者可能不得不依賴(lài)個(gè)人偏見(jiàn),從而導致超出預期的模型行為,如變得過(guò)于謹慎,或以不理想的風(fēng)格(如評判)做出響應。

例如,在 OpenAI 的一次實(shí)驗中,一些注釋者在對用戶(hù)有關(guān)自殘請求的可能回復進(jìn)行排序時(shí),偏向于將用戶(hù)轉到美國自殺熱線(xiàn),而這對美國以外的用戶(hù)沒(méi)有幫助。要解決這些問(wèn)題,往往需要重新標注或收集新數據,這既昂貴又耗時(shí)。

為了解決這些問(wèn)題,使用 AI 反饋的方法最近越來(lái)越受歡迎,其中最突出的是憲法 AI(Constitutional AI)。這些方法利用 AI 反饋合成訓練數據,與人類(lèi)數據相結合,用于監督微調(SFT)和獎勵模型(RM)訓練步驟。不過(guò),在憲法 AI 和其他方法中,「憲法」涉及「選擇危害較小的響應」等一般性指導原則,AI 模型有很大的自由裁量權來(lái)決定什么是有害的。在現實(shí)世界的部署中,我們需要執行更詳細的政策,規定應該拒絕哪些提示,以及拒絕的方式是什么。

因此,在這篇論文中,OpenAI 的研究者提出了一種新的 AI 反饋方法 ——RBR,它允許人類(lèi)詳細說(shuō)明所需的模型響應,類(lèi)似于給人類(lèi)注釋者的指示。

RBR 的工作原理是怎樣的?

實(shí)施 RBR 的方法包括定義一組命題 —— 關(guān)于模型響應中期望或不期望方面的簡(jiǎn)單陳述,例如「帶有評判性」、「包含不允許的內容」、「提及安全政策」、「免責聲明」等。然后,這些命題被用來(lái)形成規則,這些規則被精心設計以捕捉在各種場(chǎng)景中安全和適當響應的細微差別。

例如,在面對不安全請求時(shí),拒絕(如「抱歉,我無(wú)法幫你」)是一種期望的模型響應。相關(guān)規則將規定,拒絕應「包含簡(jiǎn)短的道歉」并且「應說(shuō)明無(wú)法遵從」。

研究團隊設計了三類(lèi)期望的模型行為,用于處理有害或敏感的話(huà)題。根據安全政策,不同的請求對應不同的模型響應類(lèi)型。

圖中內容由 AI 工具翻譯,僅供參考。

以下是一些命題的簡(jiǎn)化示例,以及它們如何映射理想行為或非理想行為到不同響應類(lèi)型的。

圖中內容由 AI 工具翻譯,僅供參考。

研究者在下表中提供了一些在實(shí)驗中訓練模型所完成的示例。

圖中內容由 AI 工具翻譯,僅供參考。

評估器是一個(gè)固定的語(yǔ)言模型,根據響應遵循規則的程度對其進(jìn)行評分,從而使 RBR 方法能夠靈活適應新規則和安全政策。

RBR 使用這些評分來(lái)擬合一個(gè)線(xiàn)性模型,該模型的權重參數是從一個(gè)已知理想響應類(lèi)型的小數據集,以及對應的期望做法和不期望做法中學(xué)習的。

這些 RBR 獎勵隨后與來(lái)自「僅提供幫助」的獎勵模型的獎勵結合起來(lái),作為 PPO 算法的額外信號,以鼓勵模型遵循安全行為策略。

該方法允許研究者對模型的行為進(jìn)行精細控制,確保其不僅避免有害內容,而且以一種既表示尊重又有幫助的方式進(jìn)行。

強化學(xué)習過(guò)程中 RBR 與傳統獎勵模型的集成。

RBR 好用嗎?

實(shí)驗顯示,經(jīng)過(guò) RBR 訓練的模型表現出與經(jīng)過(guò)人類(lèi)反饋訓練的模型相當的安全性能。前者還減少了錯誤地拒絕安全請求(即過(guò)度拒絕)的情況。

此外,RBR 還顯著(zhù)減少了對大量人工數據的需求,使訓練過(guò)程更快、更具成本效益。

隨著(zhù)模型能力和安全準則的發(fā)展,RBR 可以通過(guò)修改或添加新規則快速更新,而無(wú)需進(jìn)行大量重新訓練。

該圖顯示了有用性(以模型正確遵循安全提示的百分比來(lái)衡量)與安全性(以模型正確拒絕不安全提示的百分比來(lái)衡量)之間的權衡。對于這兩個(gè)指標,值越高越好。右上角標記了有用性和安全性之間的完美平衡。有用性基線(xiàn)不使用安全性 RBR,往往更有用但安全性較低。人類(lèi)基線(xiàn)是在僅有幫助和人工注釋的安全性數據吉印通行訓練的,往往非常安全但有用性較低。借助 RBR,OpenAI 的目標是使模型既安全又有用。

RBR 有哪些局限?

盡管規則基礎的系統(RBR)在有明確、直觀(guān)規則的任務(wù)中表現良好,但在更主觀(guān)的任務(wù)中(如撰寫(xiě)高質(zhì)量的文章),應用 RBR 可能會(huì )有些棘手。然而,RBR 可以與人類(lèi)反饋結合起來(lái),以平衡這些挑戰。例如,RBR 可以強制執行特定的準則(如「不要使用俚語(yǔ)」或模型規范中的規則),而人類(lèi)反饋可以幫助處理更細微的方面(如整體連貫性)。RBR 的強度被優(yōu)化為既能正確執行安全偏好,又不會(huì )過(guò)度影響最終的獎勵評分 —— 這樣,RLHF 獎勵模型仍然可以在如寫(xiě)作風(fēng)格等方面提供強有力的信號。

倫理考量:將安全檢查從人類(lèi)轉移到 AI 上可能會(huì )減少對 AI 安全的人工監督,并且如果使用有偏見(jiàn)的模型提供 RBR 獎勵,還可能放大潛在的偏見(jiàn)。為了解決這個(gè)問(wèn)題,研究人員應該仔細設計 RBR,以確保其公平和準確,并考慮結合使用 RBR 和人類(lèi)反饋,以最大限度地減少風(fēng)險。

OpenAI 表示,RBR 不僅限于安全訓練,它們可以適應各種任務(wù),其中明確的規則可以定義所需的行為,例如為特定應用程序定制模型響應的個(gè)性或格式。下一步,OpenAI 還計劃進(jìn)行更廣泛的消融研究,以更全面地了解不同的 RBR 組件、使用合成數據進(jìn)行規則開(kāi)發(fā)以及人工評估,以驗證 RBR 在包括安全以外的其他領(lǐng)域的各種應用中的有效性。

參考內容:

021yin.com/index/improving-model-safety-behavior-with-rule-based-rewards/

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全