为什么90%的RAG知识库都败在了分块这一步
搭建RAG知识库时,大多数人把精力花在选模型、挑向量数据库上,却忽略了一个决定性环节——文本分块(Chunking)。我帮超过20个团队排查过RAG效果差的问题,其中17个的根本原因不是模型不够强,而是分块策略把关键信息切得支离破碎。
举个真实案例:某金融公司的合规知识库,用固定512字符分块,检索"期权行权税务处理"时,返回的chunk里只有行权定义,税务处理部分被切到了下一个chunk,大模型拿到残缺上下文,生成的答案自然不靠...
分块策略
-
2026.06.09 | youres | 21次围观

