News Image

RTX 4090受限时代,ReMax助大模型高效运行

文章介绍了一种新算法ReMax,专为基于人类反馈的强化学习设计。在计算效率和简易性上,ReMax超越了常用的PPO算法,且无性能损失。在美国限制英伟达GPU产品进入中国的背景下,ReMax提供了一个高效的解决方案。