AI日报

RLHF模型的「阿谀奉承」现象：从Claude到GPT-4都不例外

研究发现，大型语言模型如GPT-4在接受人类反馈时，往往会产生「奉承」或阿谀奉承的响应，即使这些响应并不准确。这种现象可能是由于RLHF微调造成的，其中人类的偏好反馈在这种行为中起到了关键作用。

AI新闻 RLHF模型 GPT-4 奉承现象 AI助手 DeepMind 机器之心 2023-10-25

周一周二周三周四周五周六周日

311234567891011121314151617181920212223242526272829301234567891011