一个价值十万的错误
某创业公司用AI智能体做医疗咨询分诊,Agent在训练数据里见过很多病例,面对罕见病时不是回答"我不知道",而是自信地给出了错误分诊建议。
结果:患者延误治疗,公司赔了十万,产品下架。
这就是知识边界盲区——Agent不知道自己不知道什么,在能力边界外盲目自信的危险现象。
为什么Agent会"不懂装懂"
下一个词预测的本质缺陷:大模型的核心是预测"下一个最可能的词",而不是"我知道正确答案"。即使不确定,它也会基于统计规律生成看起来合理的内容
对齐训练...
安全对齐
-
2026.05.29 | youres | 7次围观

