模型微调

  • 2026.05.29 | youres | 7次围观
    AI智能体知识更新困境:训练数据过时后如何低成本持续学习的实战方案
    一次因知识过期导致的百万级损失 2026年3月,某知名金融信息服务商的智能投顾Agent向高净值客户推荐了一家"即将发布重大利好"的上市公司股票。用户跟风买入,结果该公司当天宣布业绩暴雷,股价暴跌18%。 问题出在哪?这家公司的"重大利好"是训练数据截止日期前的信息,而实际已经 cancelled。Agent不知道这个信息已经失效,因为它最后一次知识更新是在2025年11月。 这就是AI智能体的知识更新困境:模型训练需要时间和成本,但现实世界的信息每秒都在刷新。 为什么...
  • 2026.05.21 | youres | 13次围观
    Tesseract-OCR训练自定义语言包:提升特定场景识别准确率
    为什么需要训练自定义语言包 在标准的OCR应用中,Tesseract-OCR默认支持100多种语言,包括中文、英文、法语、德语等主流语言。但在实际业务场景中,我们经常会遇到一些特殊情况:手写体文档、古旧印刷体、特定行业的专业术语、或者是具有特殊字体风格的设计稿。这些场景下,默认的语言包往往无法达到理想的识别准确率。 我曾经处理过一个项目,需要识别19世纪末的报纸扫描件。由于当时的印刷技术和现代完全不同,默认的中文简体语言包识别率不到30%。通过训练自定义语言包,最终将识别率...
1