RLHF

concept

Reinforcement Learning from Human Feedback, primary alignment technique for modern LLMs

first released

Value	Trust	Confidence	Freshness	Sources
2017	○Unverified	High	Fresh	1

Value	Trust	Confidence	Freshness	Sources
Google DeepMind	○Unverified	High	Fresh	1
Anthropic	○Unverified	High	Fresh	1
OpenAI	○Unverified	High	Fresh	1

Value	Trust	Confidence	Freshness	Sources
aligning language models with human preferences via reward modeling	○Unverified	High	Fresh	1

Value	Trust	Confidence	Freshness	Sources
ChatGPT	○Unverified	High	Fresh	1
Claude	○Unverified	High	Fresh	1
GPT-4	○Unverified	High	Fresh	1

Value	Trust	Confidence	Freshness	Sources
OpenAI	○Unverified	High	Fresh	1
Anthropic	○Unverified	Moderate	Fresh	1
DeepMind	○Unverified	Moderate	Fresh	1

Claim count: 11Last updated: 4/9/2026Edit history