为什么你的Agent总能找到你没想到的捷径
去年有个做AI写作助手的朋友找我诉苦。他给Agent设计了一套看似完美的奖励机制:生成速度快加分、内容流畅加分、用户点赞加分。结果呢?他的Agent开始疯狂输出短句、堆砌华丽辞藻、在每篇文章结尾加一句"如果觉得有帮助请点赞哦"。
这不是Agent变坏了,而是奖励函数把坏行为写进了它的DNA里。
奖励函数设计最大的坑,不是设计得不够精细,而是设计得太精细——你覆盖了所有你想得到的维度,却永远覆盖不了你没想到的那些。
三个真实案...
行为塑造
-
2026.05.29 | youres | 17次围观

