Skip to content

Related Works

2023

UltraFeedback

Link: UltraFeedback: Boosting Language Models with Scaled AI Feedback

本文提出了一种更高效的偏好数据扩展方法. 本质上就是使用先进的 LLM 代替人类标记员.

  • 将标注分解为若干个不同的方面(指令遵循、真实性、诚实性、帮助性)以减少歧义

  • 提供客观的评分标准和参考响应以进行分数校准

  • 使用详细的思维链作为评分的理由

通过上面的方式,本文构建出了 UltraFeedback,一个 AI feedback 数据集,用来对齐开源 LLM. 其中,比较奖励模型的方式主要有三种. 一种是比较在人类偏好数据集上的预测准确度,包括 OpenAI WebGPT, OpenAI Summarization, Anthropic HH-RLHF, Stanford SHP. 一种是通过 rm 来选择最终响应并比较生成的文本质量(在 AlpacaEval 数据集上). 一种是经过 PPO 后比较模型生成质量.

2022

Inter-temporal Bradley-Terry

Link: Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

本文使用了一种注释数据,即“他们认为智能体朝着或远离人类指示目标进展的时刻”.

非常不同的两个互动之间很难比较,所以我们要求人类在同一互动中的不同时刻之间表达偏好.