同花顺 Logo
AIME助手
问财助手
RAG知识问答系统落地方案
2026-05-06 09:59:12
作者:李燕平
分享
文章提及标的
强生--
南天信息--
周期--

作者:南天信息(000948)云业务事业群技术总监李燕平

基于大语言模型的知识问答系统,受训练数据在覆盖范围、时效性与质量等方面存在局限,普遍存在“幻觉”问题,这为其在金融行业的落地应用带来了极大挑战与潜在风险。

RAG检索增强生(JNJ)成(Retrieval Augmented Generation)技术,通过将大模型的生成能力与外挂式实时知识库深度结合,可输出更为精准、更具时效性的应答。然而在RAG知识问答系统的落地过程中,问答准确率往往不尽如人意。

本文将基于过往RAG知识问答系统的实践经验,阐述如何运用工程化方法提升问答准确率,从而高效支撑业务目标落地。

RAG知识问答系统技术原理

知识库构建

对PDF、Word、PPT、网页等非结构化与半结构化知识进行文本切片处理,通过嵌入模型(Embedding)将文本向量化后存入向量数据库,构建高质量、可检索的知识库底座。

知识检索

对用户问题进行意图解析与改写增强,经嵌入模型向量化后,在向量数据库中执行相似度检索,返回高相关度的知识片段。在具体工程落地时,还可根据场景采用混合检索策略,进一步提升召回率与精准度。

融合检索结果

对召回的知识片段进行重排序(Rerank),筛选高相关性内容;将所选择的知识与用户问题融合构造成优化提示词(Prompt),为大模型提供更可靠、充分的上下文支撑。

生成最终答案

基于预训练大模型对增强后的上下文进行理解与推理,生成事实准确、逻辑清晰、贴合业务场景的最终应答。

RAG知识问答系统落地困境与解决方案

在RAG知识问答系统的实际落地过程中,常常会面临“Demo两三天、落地大半年”的窘境。工程化周期(883436)长,除涉及系统多、集成对接复杂外,问答准确率难以快速达标是另一核心原因;往往需要长期迭代与持续调优,才能满足业务要求。即便在系统正式上线后,仍需依托常态化知识运营,不断提升问答效果。

南天信息(000948)在RAG知识工程落地方面积累了丰富的经验,与大模型产品团队、开发与运营团队配合,通过以下方法提升问答准确率。

拓展多源高质量知识数据:接入更多高质量数据资源,通过相关工具从文档、过往业务数据中提炼QA对,引入多模态能力,加强对图片等识别功能。

加强全生命周期(883436)知识治理:避免“垃圾进、垃圾出”问题,通过系统化治理提升知识质量,实现存量知识优化与增量知识规范化。

- 存量知识:利用治理工具统一知识格式、修复内容错乱的文档;对难以自动化治理的资料,由技术与业务人员协同进行人工修正;对质量过低的文档则可予以剔除或重新编写。

- 增量知识:制定知识文档标准与编写模板,将规范嵌入采编与校验工具,从源头保障知识质量。

优化切片算法:根据业务场景灵活调整文档切片方式,提升知识片段的完整性与相关性:

- 字符级切片:按固定长度进行文本分割;

- 递归式切片:依据段落、换行等结构层级逐步拆分;

- 文档专属切片:针对Markdown、代码、PDF等不同格式采用特定分隔符;

- 语义化切片:基于嵌入模型实现语义连贯性切割,避免上下文断裂。

解析重构用户问题:通过问题改写、问题拆分、思维链(Chain of Thought)等方式增强查询表达,提升用户问题与知识切片的向量匹配精度。

引入融合检索机制:引入融合检索机制,在提供语义检索的基础上,适当引入传统的关键字检索,并行提高检索准确率。

优化结果重排算法:采用更精准的重排(Rerank)模型,使检索结果与用户显式意图及潜在需求对齐,挖掘更深层、更相关的知识片段。

优化提示词设计:针对不同问题类型与业务角色进行提示词优化,结合小样本学习(Few Shot)引导大模型生成更可靠、更贴合场景的回答。

优选嵌入算法模型:通过对比测试评估不同嵌入算法效果,选择与业务语料更匹配、检索精度更高的嵌入模型。

大模型微调:针对相关业务场景需求和语料,对基础大模型进行微调。鉴于其成本高、周期(883436)长、模型升级后需重新训练,建议仅作为高阶调优的备选方案。

知识迭代与知识运营:搭建自动化评测机制,建立以准确率、召回率为核心的指标体系;对历史对话进行标注与人工复核后,使优质数据回流知识库,实现智能迭代与闭环优化。

制定知识标准化运营方案,出台《知识接入格式规范》《异常知识处理规范》《知识采编与更新规范》《问答效果优化指南》等制度,保障知识运营长效稳定。

总结

在RAG知识问答系统落地过程中,系统整体效果与各环节紧密关联,各类影响因素相互依存、彼此制约。可单独或组合采用上述优化策略,通过分环节拆解、多轮迭代测试,持续验证并沉淀经验,逐步提升问答准确率。

实施过程中应坚持结果导向、逆向溯源:在确保大模型与检索算法充分适配的前提下,优先提升知识文档质量,从源头保障问答准确性。同时,通过知识的持续运营与动态更新,实现知识库智能迭代,形成完整的知识优化闭环,持续增强问答系统效果,最终支撑业务目标高效达成。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈