基于大模型的政府采购智能问答系统构建
稿件来源:初稿
□杭州市公共资源交易中心曹琼瑶 浙江工业大学王鑫 “我们可能会在明年年底左右拥有比任何人都聪明的人工智能。”4月8日,特斯拉CEO马斯克发出这样一个预测,他还表示,人工智能的能力将在五年内超过全人类之和。 人工智能等集成科技创新与应用,也正在系统性重塑传统产业生态,重塑各类商业体系。对政府采购来说,基于大模型的政府采购智能问答系统应如何构建? 问答机器人ChatGPT带来的启示 美国OpenAI公司于2022年11月30日发布了基于GPT-3.5大模型的问答机器人ChatGPT。ChatGPT引起了新一轮的人工智能应用热潮,特别是ChatGPT在回答用户问题时所表现出的智能涌现行为(可以生成一些历史上从来没有的答案),重燃了人们对实现通用人工智能(AGI)的信心。 支撑ChatGPT的GPT模型是一种预训练大语言模型,可调整参数规模达到千亿级别。大模型领域发展迅速,最新的大模型不仅仅是语言模型,已经发展为可以处理多模态数据(图像、视频、语音、时序数据)。目前国内外有很多提供大模型底座技术的公司,这些公司所研发的大模型一般被称为通用大模型,例如阿里的通用千问,百度的文心一言,OpenAI GPT-4o等。这些大模型面向所有行业,具有通用智能能力,但是由于在模型训练过程中缺乏特定行业数据和知识,在特定行业实践落地这些通用大模型时,一般还需要依次构建“行业大模型”“业务大模型”“大模型智能体(Agent)”。 集中采购机构作为贯彻国家宏观调控政策的执行部门,承担了大量政府采购工作,沉淀了海量采购信息,如:不同产品或服务的采购需求、行业标准、评审因素、合同主要条款等,配合政府采购领域各类法律法规、指导性案例等,汇聚成巨量原始数据。而大模型技术日新月异的发展,为科学合理利用这些原始数据构建基于大模型的政府采购智能问答系统提供了充分和必要条件。本文主要讨论如何将大模型技术应用于政府采购智能问答系统。 政府采购智能问答系统的构建 政府采购智能问答系统的构建可分为两阶段进行。 首先,第一阶段的工作重点为在通用大模型基础上增加政府采购行业数据进行二次模型训练,针对政府采购细分行业构建政府采购行业大模型(以下简称:政采大模型)。第一阶段的训练为离线训练,核心工作有4项:GPU算力资源到位、政采大模型训练范式设计、政府采购知识库数据集整理、通用大模型与政府采购知识库融合。 其次,在第二阶段可结合具体的智能问答业务,在政采大模型基础上构建政府采购智能问答业务大模型(以下简称:政采智能问答大模型)。第二阶段的训练以在线训练为主,核心工作有5项:政采问答知识库建立、政采业务原有智能问答小模型集成、智能问答专业软件工具开发、政采智能问答业务大模型中智能体推理范式设计、问答业务知识增强RAG框架设计。 无论在第一阶段中通用大模型与政府采购知识库融合,还是第二阶段中政采大模型与问答业务具体知识库融合,都需要解决大模型训练中如何利用、融合原有的业务数据和业务知识的问题。针对此问题,笔者推荐采用大模型与知识图谱技术相结合的方法。 究其技术本质而言,大语言模型,知识图谱都属于表示人类知识的方法。在自然语言处理领域,知识图谱是一种比较成熟的技术。现有的很多智能问答系统都基于知识图谱技术,比如目前政采云中就内嵌了政府采购知识图谱,可以基于它去实现智能问答、智能推荐等高级功能。以往之所以采用知识图谱去表示政府采购业务知识,是因为它可以利用图的结构去将政府采购领域的各类知识进行显性的结构化表达。 利用知识图谱表达的政府采购业务领域知识比较直观,具有良好的可解释性。比如针对采购人、采购代理机构提出的评审因素合规性问题,智能问答的系统可以予以准确迅速的判断,针对采购人提出的采购需求,如采购办公电脑一台,预算金额5000元,智能提供非倾向性的参数配置。尽管具有上述很多优点,目前政府采购知识图谱建设面临的主要困难是构建这样的图谱需要政府采购领域业务专家的大量时间和精力投入,进而导致构建成本高。 另外,知识图谱也解决不了政采知识中隐性知识表示问题,即在智能问答场景下会出现对非常规问题的无法回答。而大语言模型技术恰恰可以弥补上述缺点,利用此技术设计的模型训练无需政采业务专家太多时间投入,具有比较强的自推理能力,知识图谱技术无法生成的答案,大模型往往可以得到出人意料的良好答案。 总之,大语言模型技术与知识图谱技术在政府采购知识表示方面具有很好的互补性。笔者认为可以在两者结合方面开展下列几项关键工作: 第一,政府采购领域数据集构造。无论是政采大模型还是政采智能问答大模型都需要构建专业领域数据集来为通用大模型提供政府采购专业领域知识。其中构建政采大模型所需数据集A包含了构建政采智能问答大模型所需数据集B的核心骨干数据部分。数据集A包含了所有政府采购业务场景数据,比数据集B更全面。数据集B在政府采购智能问答业务方面的数据又比数据集A更深入、更全面、更详细。数据集中数据来源于三个方面:一是现有的政府采购领域数据集,如各地公开发布的采购文件、财政部国库司留言板、财政部指导性案例等;二是政府采购权威数据,比如政府采购专业图书、行业网站、法律法规文本等;三是历史问答数据,在政府采购现有的智能问答软件系统中沉淀的历史问答数据。 第二,政采大模型和政采智能问答大模型在构建过程中均没有完全采用数据微调的方式去融合原有政府采购知识,而是采用大模型与知识图谱融合的技术路线,从而达到缓解、避免大模型的“灾难性遗忘问题”的目的。 第三,使用LangChain提供的工具、组件来构建政采智能问答应用程序。LangChain框架可以链接各类软件组件,集成各方面资源,将知识库注入到大语言模型中,开发出用户界面良好、交互体验流畅的软件产品。 第四,在政采智能问答大模型中集成信息过滤能力。政采智能问答属于专业特定业务场景中的智能应用,用户可以接受不在政采业务范围之内的问题不被回答,或者进行无专业验证的回答。因此可以在潜在问题集合中过滤掉一些非目标问题,从而使得政采智能问答大模型可以不回答非政府采购领域的问题。在文本过滤器模型算法选择方面,建议采用以Transformer为代表的多项过滤器。 最终建构完成的问答系统主要包含5个核心步骤。 第一,政采用户向智能问答系统提出问题,利用信息过滤模块对非政采领域问题进行过滤,对政采问题进行精准识别。 第二,利用知识图谱与大模型融合技术将传统政采知识库中积累沉淀的专业知识与用户问题集成为输入提示词。 第三,输入提示词经政采智能问答大模型的推理运算得到初步回答文本。 第四,利用知识图谱技术从初步回答文本提取出关键信息,与现有的政采知识图谱进行实体匹配。现有知识图谱中存在着更具专业性的回答文本,并且这些文本是结构化存在的,这次匹配为最终回答提供了可解释性的依据。 第五,初步回答文本连同与知识图谱匹配之后的增强实体信息再次集成为输入提示词,最终的输入提示词经政采智能问答大模型的推理运算得到最终的回答文本。 前景预测:使用本文方法构建的政府采购智能问答系统,可为政府采购用户提供实时在线回答文本,答复内容更准确、更专业,具有更好的用户体验,为采购参与各方智能解答政采问题,智能生成采购需求(初稿)、评审因素(初稿)、合同内容(初稿),智能协助专家评审等提供支持。 |