文章介绍了一种新算法ReMax,专为基于人类反馈的强化学习设计。在计算效率和简易性上,ReMax超越了常用的PPO算法,且无性能损失。在美国限制英伟达GPU产品进入中国的背景下,ReMax提供了一个高效的解决方案。