RLHF不夠用了,OpenAI設計出了新的獎勵機制
機器之心報道
機器之心編輯部
OpenAI 的新獎勵機制,讓大模型更聽(tīng)話(huà)了。
自大模型興起以來(lái),使用強化學(xué)習從人類(lèi)反饋(RLHF)中微調語(yǔ)言模型一直是確保 AI 準確遵循指令的首選方法。
為了確保 AI 系統安全運行并與人類(lèi)價(jià)值觀(guān)保持一致,我們需要定義期望行為并收集人類(lèi)反饋來(lái)訓練「獎勵模型」。這種模型通過(guò)發(fā)出期望的動(dòng)作來(lái)指導 AI。但是,收集這些常規和重復任務(wù)的人類(lèi)反饋通常效率不高。此外,如果安全政策發(fā)生變化,已經(jīng)收集的反饋可能會(huì )過(guò)時(shí),需要新的數據。
我們能否構建一種新的機制來(lái)完成這些任務(wù)?近日,OpenAI 公布了一種教導 AI 模型遵守安全政策的新方法,稱(chēng)為基于規則的獎勵(Rule-Based Rewards,RBR)。
相關(guān)論文已經(jīng)放出。
論文標題:Rule Based Rewards for Language Model Safety
021yin.com/rule-based-rewards-for-language-model-safety.pdf
021yin.com/openai/safety-rbr-code-and-data
論文作者之一、OpenAI 安全系統負責人 Lilian Weng 表示,「RBR 可以自動(dòng)執行一些模型微調。傳統上, 我們依賴(lài)于來(lái)自人類(lèi)反饋的強化學(xué)習作為默認的對齊訓練方法來(lái)訓練模型,這確實(shí)有效。然而在實(shí)踐中,我們面臨的挑戰是,我們花了很多時(shí)間討論政策的細節,而到最后,政策可能已經(jīng)發(fā)生了變化。」
RBR 根據一組安全規則提供 RL 信號,使其更容易適應不斷變化的安全政策,而無(wú)需嚴重依賴(lài)人類(lèi)數據。此外,借助 RBR,研究者能夠以更統一的視角看待安全性和模型能力,因為更強大的分級模型可以提供更高質(zhì)量的 RL 信號。
OpenAI 表示自 GPT-4 發(fā)布以來(lái),他們一直將 RBR 用作安全堆棧的一部分,包括 GPT-4o mini,并計劃在未來(lái)的模型中實(shí)施它。
為什么要提出 RBR?
隨著(zhù)大型語(yǔ)言模型(LLM)功能的增強和普及,確保其安全性和對齊變得越來(lái)越重要。最近的許多工作都集中在使用人類(lèi)偏好數據來(lái)調整模型上,例如基于人類(lèi)反饋的強化學(xué)習(RLHF)。
然而,僅使用人類(lèi)反饋來(lái)實(shí)現目標安全規范還面臨許多挑戰。為模型安全性收集和維護人類(lèi)數據通常既費錢(qián)又費時(shí),而且隨著(zhù)模型能力的提高或用戶(hù)行為的改變,安全準則也會(huì )發(fā)生變化,這些數據可能會(huì )過(guò)時(shí)。即使要求相對穩定,也很難向注釋者傳達。安全方面的情況尤其如此,因為所需的模型響應非常復雜,需要對是否響應以及如何響應請求做出細微差別。如果說(shuō)明不夠明確,注釋者可能不得不依賴(lài)個(gè)人偏見(jiàn),從而導致超出預期的模型行為,如變得過(guò)于謹慎,或以不理想的風(fēng)格(如評判)做出響應。
例如,在 OpenAI 的一次實(shí)驗中,一些注釋者在對用戶(hù)有關(guān)自殘請求的可能回復進(jìn)行排序時(shí),偏向于將用戶(hù)轉到美國自殺熱線(xiàn),而這對美國以外的用戶(hù)沒(méi)有幫助。要解決這些問(wèn)題,往往需要重新標注或收集新數據,這既昂貴又耗時(shí)。
為了解決這些問(wèn)題,使用 AI 反饋的方法最近越來(lái)越受歡迎,其中最突出的是憲法 AI(Constitutional AI)。這些方法利用 AI 反饋合成訓練數據,與人類(lèi)數據相結合,用于監督微調(SFT)和獎勵模型(RM)訓練步驟。不過(guò),在憲法 AI 和其他方法中,「憲法」涉及「選擇危害較小的響應」等一般性指導原則,AI 模型有很大的自由裁量權來(lái)決定什么是有害的。在現實(shí)世界的部署中,我們需要執行更詳細的政策,規定應該拒絕哪些提示,以及拒絕的方式是什么。
因此,在這篇論文中,OpenAI 的研究者提出了一種新的 AI 反饋方法 ——RBR,它允許人類(lèi)詳細說(shuō)明所需的模型響應,類(lèi)似于給人類(lèi)注釋者的指示。
RBR 的工作原理是怎樣的?
實(shí)施 RBR 的方法包括定義一組命題 —— 關(guān)于模型響應中期望或不期望方面的簡(jiǎn)單陳述,例如「帶有評判性」、「包含不允許的內容」、「提及安全政策」、「免責聲明」等。然后,這些命題被用來(lái)形成規則,這些規則被精心設計以捕捉在各種場(chǎng)景中安全和適當響應的細微差別。
例如,在面對不安全請求時(shí),拒絕(如「抱歉,我無(wú)法幫你」)是一種期望的模型響應。相關(guān)規則將規定,拒絕應「包含簡(jiǎn)短的道歉」并且「應說(shuō)明無(wú)法遵從」。
研究團隊設計了三類(lèi)期望的模型行為,用于處理有害或敏感的話(huà)題。根據安全政策,不同的請求對應不同的模型響應類(lèi)型。
圖中內容由 AI 工具翻譯,僅供參考。
以下是一些命題的簡(jiǎn)化示例,以及它們如何映射理想行為或非理想行為到不同響應類(lèi)型的。
圖中內容由 AI 工具翻譯,僅供參考。
研究者在下表中提供了一些在實(shí)驗中訓練模型所完成的示例。
圖中內容由 AI 工具翻譯,僅供參考。
評估器是一個(gè)固定的語(yǔ)言模型,根據響應遵循規則的程度對其進(jìn)行評分,從而使 RBR 方法能夠靈活適應新規則和安全政策。
RBR 使用這些評分來(lái)擬合一個(gè)線(xiàn)性模型,該模型的權重參數是從一個(gè)已知理想響應類(lèi)型的小數據集,以及對應的期望做法和不期望做法中學(xué)習的。
這些 RBR 獎勵隨后與來(lái)自「僅提供幫助」的獎勵模型的獎勵結合起來(lái),作為 PPO 算法的額外信號,以鼓勵模型遵循安全行為策略。
該方法允許研究者對模型的行為進(jìn)行精細控制,確保其不僅避免有害內容,而且以一種既表示尊重又有幫助的方式進(jìn)行。
強化學(xué)習過(guò)程中 RBR 與傳統獎勵模型的集成。
RBR 好用嗎?
實(shí)驗顯示,經(jīng)過(guò) RBR 訓練的模型表現出與經(jīng)過(guò)人類(lèi)反饋訓練的模型相當的安全性能。前者還減少了錯誤地拒絕安全請求(即過(guò)度拒絕)的情況。
此外,RBR 還顯著(zhù)減少了對大量人工數據的需求,使訓練過(guò)程更快、更具成本效益。
隨著(zhù)模型能力和安全準則的發(fā)展,RBR 可以通過(guò)修改或添加新規則快速更新,而無(wú)需進(jìn)行大量重新訓練。
該圖顯示了有用性(以模型正確遵循安全提示的百分比來(lái)衡量)與安全性(以模型正確拒絕不安全提示的百分比來(lái)衡量)之間的權衡。對于這兩個(gè)指標,值越高越好。右上角標記了有用性和安全性之間的完美平衡。有用性基線(xiàn)不使用安全性 RBR,往往更有用但安全性較低。人類(lèi)基線(xiàn)是在僅有幫助和人工注釋的安全性數據吉印通行訓練的,往往非常安全但有用性較低。借助 RBR,OpenAI 的目標是使模型既安全又有用。
RBR 有哪些局限?
盡管規則基礎的系統(RBR)在有明確、直觀(guān)規則的任務(wù)中表現良好,但在更主觀(guān)的任務(wù)中(如撰寫(xiě)高質(zhì)量的文章),應用 RBR 可能會(huì )有些棘手。然而,RBR 可以與人類(lèi)反饋結合起來(lái),以平衡這些挑戰。例如,RBR 可以強制執行特定的準則(如「不要使用俚語(yǔ)」或模型規范中的規則),而人類(lèi)反饋可以幫助處理更細微的方面(如整體連貫性)。RBR 的強度被優(yōu)化為既能正確執行安全偏好,又不會(huì )過(guò)度影響最終的獎勵評分 —— 這樣,RLHF 獎勵模型仍然可以在如寫(xiě)作風(fēng)格等方面提供強有力的信號。
倫理考量:將安全檢查從人類(lèi)轉移到 AI 上可能會(huì )減少對 AI 安全的人工監督,并且如果使用有偏見(jiàn)的模型提供 RBR 獎勵,還可能放大潛在的偏見(jiàn)。為了解決這個(gè)問(wèn)題,研究人員應該仔細設計 RBR,以確保其公平和準確,并考慮結合使用 RBR 和人類(lèi)反饋,以最大限度地減少風(fēng)險。
OpenAI 表示,RBR 不僅限于安全訓練,它們可以適應各種任務(wù),其中明確的規則可以定義所需的行為,例如為特定應用程序定制模型響應的個(gè)性或格式。下一步,OpenAI 還計劃進(jìn)行更廣泛的消融研究,以更全面地了解不同的 RBR 組件、使用合成數據進(jìn)行規則開(kāi)發(fā)以及人工評估,以驗證 RBR 在包括安全以外的其他領(lǐng)域的各種應用中的有效性。
參考內容:
021yin.com/index/improving-model-safety-behavior-with-rule-based-rewards/