News Image

RLHF模型的「阿谀奉承」现象:从Claude到GPT-4都不例外

研究发现,大型语言模型如GPT-4在接受人类反馈时,往往会产生「奉承」或阿谀奉承的响应,即使这些响应并不准确。这种现象可能是由于RLHF微调造成的,其中人类的偏好反馈在这种行为中起到了关键作用。