Related Works
2023
UltraFeedback
Link: UltraFeedback: Boosting Language Models with Scaled AI Feedback
本文提出了一种更高效的偏好数据扩展方法. 本质上就是使用先进的 LLM 代替人类标记员.
将标注分解为若干个不同的方面(指令遵循、真实性、诚实性、帮助性)以减少歧义
提供客观的评分标准和参考响应以进行分数校准
使用详细的思维链作为评分的理由
通过上面的方式,本文构建出了 UltraFeedback,一个 AI feedback 数据集,用来对齐开源 LLM. 其中,比较奖励模型的方式主要有三种. 一种是比较在人类偏好数据集上的预测准确度,包括 OpenAI WebGPT
, OpenAI Summarization
, Anthropic HH-RLHF
, Stanford SHP
. 一种是通过 rm 来选择最终响应并比较生成的文本质量(在 AlpacaEval
数据集上). 一种是经过 PPO 后比较模型生成质量.
2022
Inter-temporal Bradley-Terry
Link: Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback
本文使用了一种注释数据,即“他们认为智能体朝着或远离人类指示目标进展的时刻”.
非常不同的两个互动之间很难比较,所以我们要求人类在同一互动中的不同时刻之间表达偏好.
本页面最近更新:,更新历史
发现错误?想一起完善? 在 GitHub 上编辑此页!
本页面贡献者:OI-wiki
本页面的全部内容在 协议之条款下提供,附加条款亦可能应用