<span id="pebkn"></span>

<style id="pebkn"></style>

當前位置：首頁(yè) > 設計 > 正文內容

RLHF不夠用了，OpenAI設計出了新的獎勵機制

韶關(guān)UV印刷3個(gè)月前 (07-25)設計20

印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà)：138-1621-1622（微信同號）

機器之心報道

機器之心編輯部

OpenAI 的新獎勵機制，讓大模型更聽(tīng)話(huà)了。

自大模型興起以來(lái)，使用強化學(xué)習從人類(lèi)反饋（RLHF）中微調語(yǔ)言模型一直是確保 AI 準確遵循指令的首選方法。

為了確保 AI 系統安全運行并與人類(lèi)價(jià)值觀(guān)保持一致，我們需要定義期望行為并收集人類(lèi)反饋來(lái)訓練「獎勵模型」。這種模型通過(guò)發(fā)出期望的動(dòng)作來(lái)指導 AI。但是，收集這些常規和重復任務(wù)的人類(lèi)反饋通常效率不高。此外，如果安全政策發(fā)生變化，已經(jīng)收集的反饋可能會(huì )過(guò)時(shí)，需要新的數據。

我們能否構建一種新的機制來(lái)完成這些任務(wù)？近日，OpenAI 公布了一種教導 AI 模型遵守安全政策的新方法，稱(chēng)為基于規則的獎勵（Rule-Based Rewards，RBR）。

相關(guān)論文已經(jīng)放出。

論文標題：Rule Based Rewards for Language Model Safety

021yin.com/rule-based-rewards-for-language-model-safety.pdf

021yin.com/openai/safety-rbr-code-and-data

論文作者之一、OpenAI 安全系統負責人 Lilian Weng 表示，「RBR 可以自動(dòng)執行一些模型微調。傳統上， 我們依賴(lài)于來(lái)自人類(lèi)反饋的強化學(xué)習作為默認的對齊訓練方法來(lái)訓練模型，這確實(shí)有效。然而在實(shí)踐中，我們面臨的挑戰是，我們花了很多時(shí)間討論政策的細節，而到最后，政策可能已經(jīng)發(fā)生了變化。」

RBR 根據一組安全規則提供 RL 信號，使其更容易適應不斷變化的安全政策，而無(wú)需嚴重依賴(lài)人類(lèi)數據。此外，借助 RBR，研究者能夠以更統一的視角看待安全性和模型能力，因為更強大的分級模型可以提供更高質(zhì)量的 RL 信號。

OpenAI 表示自 GPT-4 發(fā)布以來(lái)，他們一直將 RBR 用作安全堆棧的一部分，包括 GPT-4o mini，并計劃在未來(lái)的模型中實(shí)施它。

為什么要提出 RBR？

隨著(zhù)大型語(yǔ)言模型（LLM）功能的增強和普及，確保其安全性和對齊變得越來(lái)越重要。最近的許多工作都集中在使用人類(lèi)偏好數據來(lái)調整模型上，例如基于人類(lèi)反饋的強化學(xué)習（RLHF）。

然而，僅使用人類(lèi)反饋來(lái)實(shí)現目標安全規范還面臨許多挑戰。為模型安全性收集和維護人類(lèi)數據通常既費錢(qián)又費時(shí)，而且隨著(zhù)模型能力的提高或用戶(hù)行為的改變，安全準則也會(huì )發(fā)生變化，這些數據可能會(huì )過(guò)時(shí)。即使要求相對穩定，也很難向注釋者傳達。安全方面的情況尤其如此，因為所需的模型響應非常復雜，需要對是否響應以及如何響應請求做出細微差別。如果說(shuō)明不夠明確，注釋者可能不得不依賴(lài)個(gè)人偏見(jiàn)，從而導致超出預期的模型行為，如變得過(guò)于謹慎，或以不理想的風(fēng)格（如評判）做出響應。

例如，在 OpenAI 的一次實(shí)驗中，一些注釋者在對用戶(hù)有關(guān)自殘請求的可能回復進(jìn)行排序時(shí)，偏向于將用戶(hù)轉到美國自殺熱線(xiàn)，而這對美國以外的用戶(hù)沒(méi)有幫助。要解決這些問(wèn)題，往往需要重新標注或收集新數據，這既昂貴又耗時(shí)。

為了解決這些問(wèn)題，使用 AI 反饋的方法最近越來(lái)越受歡迎，其中最突出的是憲法 AI（Constitutional AI）。這些方法利用 AI 反饋合成訓練數據，與人類(lèi)數據相結合，用于監督微調（SFT）和獎勵模型（RM）訓練步驟。不過(guò)，在憲法 AI 和其他方法中，「憲法」涉及「選擇危害較小的響應」等一般性指導原則，AI 模型有很大的自由裁量權來(lái)決定什么是有害的。在現實(shí)世界的部署中，我們需要執行更詳細的政策，規定應該拒絕哪些提示，以及拒絕的方式是什么。

因此，在這篇論文中，OpenAI 的研究者提出了一種新的 AI 反饋方法 ——RBR，它允許人類(lèi)詳細說(shuō)明所需的模型響應，類(lèi)似于給人類(lèi)注釋者的指示。

RBR 的工作原理是怎樣的？

實(shí)施 RBR 的方法包括定義一組命題 —— 關(guān)于模型響應中期望或不期望方面的簡(jiǎn)單陳述，例如「帶有評判性」、「包含不允許的內容」、「提及安全政策」、「免責聲明」等。然后，這些命題被用來(lái)形成規則，這些規則被精心設計以捕捉在各種場(chǎng)景中安全和適當響應的細微差別。

例如，在面對不安全請求時(shí)，拒絕（如「抱歉，我無(wú)法幫你」）是一種期望的模型響應。相關(guān)規則將規定，拒絕應「包含簡(jiǎn)短的道歉」并且「應說(shuō)明無(wú)法遵從」。

研究團隊設計了三類(lèi)期望的模型行為，用于處理有害或敏感的話(huà)題。根據安全政策，不同的請求對應不同的模型響應類(lèi)型。

圖中內容由 AI 工具翻譯，僅供參考。

以下是一些命題的簡(jiǎn)化示例，以及它們如何映射理想行為或非理想行為到不同響應類(lèi)型的。

圖中內容由 AI 工具翻譯，僅供參考。

研究者在下表中提供了一些在實(shí)驗中訓練模型所完成的示例。

圖中內容由 AI 工具翻譯，僅供參考。

評估器是一個(gè)固定的語(yǔ)言模型，根據響應遵循規則的程度對其進(jìn)行評分，從而使 RBR 方法能夠靈活適應新規則和安全政策。

RBR 使用這些評分來(lái)擬合一個(gè)線(xiàn)性模型，該模型的權重參數是從一個(gè)已知理想響應類(lèi)型的小數據集，以及對應的期望做法和不期望做法中學(xué)習的。

這些 RBR 獎勵隨后與來(lái)自「僅提供幫助」的獎勵模型的獎勵結合起來(lái)，作為 PPO 算法的額外信號，以鼓勵模型遵循安全行為策略。

該方法允許研究者對模型的行為進(jìn)行精細控制，確保其不僅避免有害內容，而且以一種既表示尊重又有幫助的方式進(jìn)行。

強化學(xué)習過(guò)程中 RBR 與傳統獎勵模型的集成。

RBR 好用嗎？

實(shí)驗顯示，經(jīng)過(guò) RBR 訓練的模型表現出與經(jīng)過(guò)人類(lèi)反饋訓練的模型相當的安全性能。前者還減少了錯誤地拒絕安全請求（即過(guò)度拒絕）的情況。

此外，RBR 還顯著(zhù)減少了對大量人工數據的需求，使訓練過(guò)程更快、更具成本效益。

隨著(zhù)模型能力和安全準則的發(fā)展，RBR 可以通過(guò)修改或添加新規則快速更新，而無(wú)需進(jìn)行大量重新訓練。

該圖顯示了有用性（以模型正確遵循安全提示的百分比來(lái)衡量）與安全性（以模型正確拒絕不安全提示的百分比來(lái)衡量）之間的權衡。對于這兩個(gè)指標，值越高越好。右上角標記了有用性和安全性之間的完美平衡。有用性基線(xiàn)不使用安全性 RBR，往往更有用但安全性較低。人類(lèi)基線(xiàn)是在僅有幫助和人工注釋的安全性數據吉印通行訓練的，往往非常安全但有用性較低。借助 RBR，OpenAI 的目標是使模型既安全又有用。

RBR 有哪些局限？

盡管規則基礎的系統（RBR）在有明確、直觀(guān)規則的任務(wù)中表現良好，但在更主觀(guān)的任務(wù)中（如撰寫(xiě)高質(zhì)量的文章），應用 RBR 可能會(huì )有些棘手。然而，RBR 可以與人類(lèi)反饋結合起來(lái)，以平衡這些挑戰。例如，RBR 可以強制執行特定的準則（如「不要使用俚語(yǔ)」或模型規范中的規則），而人類(lèi)反饋可以幫助處理更細微的方面（如整體連貫性）。RBR 的強度被優(yōu)化為既能正確執行安全偏好，又不會(huì )過(guò)度影響最終的獎勵評分 —— 這樣，RLHF 獎勵模型仍然可以在如寫(xiě)作風(fēng)格等方面提供強有力的信號。

倫理考量：將安全檢查從人類(lèi)轉移到 AI 上可能會(huì )減少對 AI 安全的人工監督，并且如果使用有偏見(jiàn)的模型提供 RBR 獎勵，還可能放大潛在的偏見(jiàn)。為了解決這個(gè)問(wèn)題，研究人員應該仔細設計 RBR，以確保其公平和準確，并考慮結合使用 RBR 和人類(lèi)反饋，以最大限度地減少風(fēng)險。

OpenAI 表示，RBR 不僅限于安全訓練，它們可以適應各種任務(wù)，其中明確的規則可以定義所需的行為，例如為特定應用程序定制模型響應的個(gè)性或格式。下一步，OpenAI 還計劃進(jìn)行更廣泛的消融研究，以更全面地了解不同的 RBR 組件、使用合成數據進(jìn)行規則開(kāi)發(fā)以及人工評估，以驗證 RBR 在包括安全以外的其他領(lǐng)域的各種應用中的有效性。

參考內容：

021yin.com/index/improving-model-safety-behavior-with-rule-based-rewards/

☆收藏0

標簽: RBR OpenAI 安全性安全政勵模型

返回列表

上一篇：北京亦莊舉辦青少年勞動(dòng)技能與智能設計大賽

下一篇：我市新增16家省級工業(yè)設計中心

發(fā)表評論

中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全

<rt id="4fk0e"><del id="4fk0e"></del></rt>

<rt id="4fk0e"></rt>

<sub id="4fk0e"></sub><sub id="4fk0e"><dl id="4fk0e"></dl></sub><span id="4fk0e"></span><form id="4fk0e"><sup id="4fk0e"></sup></form>

<center id="4fk0e"><meter id="4fk0e"></meter></center>

_{<form id="4fk0e"></form>}