文/中国大地财产保险股份有限公司 陈诚 何瑞
近年来,大语言模型在自然语言理解和生成方面取得了快速发展,给金融行业智能化转型带来了新的可能。保险公司的日常工作中涉及大量文本材料,特别是在制度解析、合规审查等方面,对语言文字的理解和处理能力要求较高。这使大模型在保险领域,尤其是在内部审计等专业性较强的环节,具备较高的应用潜力,但真正要在审计场景中稳定落地,仍面临例如算力受限、数据和文档结构化程度不足,以及专业性不够贴合等问题。本文结合公司内部审计的具体需求,尝试基于小参数量的大语言模型,通过精细微调,在较低资源条件下实现垂直场景应用,探索模型加持下的智能审计在实际业务中的落地路径。
行业内目前已有较多探索和落地案例,但是总体上多聚焦于销售知识问答、客服、理赔,而对于内部审计,特别是特定垂直场景任务的大模型应用则尚处起步。在综合判断和复杂推理方面,目前的大模型仍存在一定差距。内部审计涉及的判断性结论、对模糊风险的评价,以及对上下文的深度理解等,特别是基于大参数基座模型进行分析的情况下,即使通过超参数和较强的Prompt(提示词)进行限制,大模型依然会产生“幻觉”或遗漏重要细节。这些问题固然可以通过增加硬件投入,运行更大尺寸的模型和采用RAG(检索增强生成)等辅助手段进行缓解,但同时也大幅增加了大模型的应用成本。尤其在金融行业,从数据安全、隐私保障等多方面综合评估,一般会采用私有化部署方案,因此很难利用公有大模型服务降低成本。
那么是否存在一种相对较经济,又能够为业务提供强大助力的方案?基于对这个问题的探索,我们将目光投向了大模型的Fine-Tuning(微调)。微调是机器学习(尤其是深度学习)中的一种常见操作,指在预训练模型的基础上,通过额外的训练数据或任务特定的调整,使模型适应新任务或提升性能,尤其是LoRA(Low-Rank Adaptation,低秩自适应)这样的轻量化微调,在当前已经成为大模型低成本定制的不二之选。
在这一前提下,在综合评估业务价值、复杂度、硬件成本与处理能力后,首先从业务场景上,选择了业务场景垂直度和专业性较高,也是使用频率最高的审计底稿问题分析和建议场景。以常规审计为例,对底稿判断分析和建议年均多达4000~5000件,而常规审计项目往往又有较高的时效性要求,加入大模型辅助可极大提升工作效率,值得进行探索。在硬件基础和模型选择方面,考虑到硬件成本,以及对过去历年审计底稿数据的简单分析,我们将硬件限定在单张NVIDIA T4 16GB显存的硬件上,并采用了中文大模型中综合能力位居前列的Qwen2.5-1.5B作为基座模型,完成整个微调过程和推理部署。T4显卡被设计为一张适用于图像/语音识别、云端实时渲染等业务场景的硬件,无论从TFLOPS(仅8.1,半精度FP16)、显存带宽(320GB/s)还是Tensor核心数(320)都与当前主流的大模型微调及推理的设备相差甚远,但这样的硬件配置更符合我们这次的探索目标,即探索大模型在应用实践中(硬件)的下限。而在基座模型的选择上,我们综合比较了Qwen2.5与Deepseek R1的小参数版本,基于以下两点最终选择了Qwen2.5-1.5B进行进一步微调:基于硬件限制以及业务特点,单项问题的Token总数限制在5000左右,新增token限制在2000~2500,相较于Qwen2.5,DeepSeek R1的1.5B版本在单次推理中需要消耗更多的Token,在实际验证过程中有部分问题的分析引发显存溢出(OOM)。此外,DeepSeek的论文中指出,大于3B的模型经历多次反复的冷启动和RL奖励训练才能获得可测量的推理能力提升,在T4这样接近大模型推理硬件下限的设备上进行此类训练几乎不可能做到。
为了使通用大语言模型更好地适应保险公司内部审计的专业场景,需要通过微调注入领域知识和任务特性。高质量的训练数据集是微调效果的基础,其内容完整性与专业性直接影响模型的适应能力与输出质量。
在微调数据集构建方面,采用公司多年来内部审计项目中积累、汇总的大量底稿与问题分析文档,通过规则清洗与抽样人工筛选评判,从约4万余条问题中筛选出2.5万余条高质量“审计问题—分析—整改建议”语料,为模型微调奠定数据基础。在挑选出语料后,进一步将其分为训练测试集和验证集,考虑到业务端对模型泛用性要求,以及Zero-Shot的需求(可能需要对过去没有发现过的问题进行一定程度的分析和建议),需要多方面评价模型性能,在随机切分数据集之后,进一步特意将某几类问题从训练集划分进验证集。而被筛选为低质量的语料,也没有被直接放弃,而是只提取其中的问题形成问题集,该问题集和验证集将一起作为后续RLHF(基于人类反馈的强化学习)环节中模型效果测试,以及人工打分评价的用例数据。
在微调训练中,采用PEFT(参数高效微调)框架下的LoRA方法,将模型精度设置为bfloat16,冻结大部分预训练参数,仅对小部分关键参数进行训练,这种做法可以大幅度降低微调过程中的显存需求。在微调过程中,需要尝试多个不同的LoRA Rank(秩)值,以此平衡训练速度和显存占用,同时兼顾微调后的模型测试效果。为了加速Rank的选定过程,我们对预选的每一个Rank都进行了至少一轮微调,并用文本相似性算法,比较其在测试集上的生成结果与标准答案的相似性。在几轮尝试后最终选定了Rank=8的超参数设置,这一设置下模型的可训练参数约占总参数的1.18%,即冻结了约98.8%的参数,大幅削减了训练资源的消耗。
在微调训练过程中,为进一步提升模型在审计任务中的表现,引入了RLHF技术。具体做法是,在每一轮微调训练后,从验证集中抽取部分模型生成的审计问题分析与整改建议结果,并提交给审计专家进行人工评分。根据专家的评分结果,调整模型的微调策略,以优化其在后续训练中的表现。
这一迭代过程有效地将审计专家的专业知识融入模型训练中,提升了模型输出的专业性和实用性。同时,为了避免重复使用同一个训练集进行迭代,减少过拟合,在每次评分过程中会随机加入少量前述问题集中的数据,由审计专家编写新的分析和建议,然后在下一轮微调训练中加入,以扩充训练样本。
整个训练过程完全在单张T4显卡上完成,每一轮微调迭代周期(包括人工反馈评分)都控制在一周以内。值得注意的是,模型微调过程中的迭代次数及Loss(损失)并非越低越好,当模型的epoch(期,是指模型训练过程中所有训练样本都被正向和反向传播过一次的次数)超过1.8,或Loss值低于0.3(此时模型微调已过拟合)情形下,生成的答案质量,以及Zero-Shot的能力会出现断崖式下降。我们的做法是每100次迭代保存一次checkpoint(模型训练断点),将迭代的epoch控制在1.5以下,每次迭代后都会在验证集上进行验证,通过比较模型答案和人工答案的相似性,初步评估每个checkpoint的能力,相似性得分较高的checkpoint才会交由人工进行进一步打分。
最终模型经过10轮迭代(不包括挑选Rank所用的迭代),人工评价模型基本达到一般审计人员的编写水准,在验证数据集上的人工评分好评率为92%,在Zero-Shot问题上的好评率为68%。第10轮迭代的loss情况如图所示,根据对该轮微调中每个checkpoint的相似性初筛,最终选择了Loss在1.68左右的checkpoint,而并非最低的1.58。
图 第十轮迭代Loss
在推理框架上,考虑到模型的探索性质及有限的硬件资源,没有采用一般集成化部署框架,而是直接采用了比较高效的VLLM高速推理框架进行部署,调用框架的批量生成接口进行推理。模型在bfloat16精度下部署,占据大约9GB显存,加上5000 tokens的上下文,在20~30个问题并发进行推理时总显存占用约11GB,同时保持了85~122tokens/s的总推理速度,总体而言表现尚可,达到审计问题分析场景下的性能要求。
为了测试模型本身的表现,没有进一步在模型部署流程中附加RAG等辅助框架,而是仅对输入内容和输出结果进行格式、长度及业务规则限制,确保输入及输出内容安全可控。
在模型实际应用的表现上,通过收集模型日志及业务人员使用情况,发现模型同样存在幻觉,包括不符合的输出格式、内容输出与业务逻辑矛盾、编写脱离实际的内容或过于笼统等等,但总体比例较低,在可控范围内。然而在个别问题上,其表现出超过一般审计员的水平(详细统计见表1)。
表1 审计专家使用后评价
通过对1819条实际问题的实际试用,达到一般业务水平及以上的评价约86%,个别问题类别中的表现超过了90%。值得注意的是Zero-Shot类型,实际试用中发生仅3例,虽然该比例在整体数据中不具有统计代表性,但从评价结果上可以看出,模型确实具备一定程度的Zero-Shot问题处理能力。
同时,我们也对其他未经过微调的基座模型进行了抽样对比,可以看到在相同Prompt的情况下,经过“PEFT+RLHF”微调的模型表现与Qwen-32B模型的表现相当(见表2),但显存节约了84.29%,算力节约了95.31%。由此可见,在垂直场景下,通过对小参数大模型的微调,可以有效降低整体推理成本,为相应的任务带来提升。
表2 资源需求及评分对比
此次探索实践表明,基于小参数模型结合PEFT与RLHF技术,可在垂直场景下实现性能接近大型模型的推理能力,尤其适用于资源受限的条件,使中小型公司在低成本下拥抱AI成为了可能。
回顾整个探索及实践应用,在业务场景选择、基座模型选择和后续的模型微调策略及部署框架等一系列过程中,每个环节中审慎评估和POC反复验证都是不可或缺的。此外,在探索过程中我们认识到最重要的一点就是:语料的数量和质量对模型微调的最终效果起着决定性作用。
展望未来,我们将进一步聚焦于对小参数模型的垂直高效应用探索。例如,尝试采用更先进的MoE(混合专家系统)架构的基座模型,在维持硬件资源和推理效率的情况下提供更优解。构建领域知识增强框架,融合轻量化的RAG,以进一步降低幻觉带来的影响,持续挖掘和降低高质量AI服务的应用门槛,创造可复制的技术路径,助力企业智能化转型。
(此文刊发于《金融电子化》2025年6月上半月刊)