今天分享的是:大模型专题:文档解析技术加速大模型训练与应用
报告共计:43页
该演讲由合合信息常扬围绕文档解析技术在大模型训练与应用中的作用展开。大模型训练与应用面临诸多挑战,训练方面,高质量预训练数据难以跟上模型进化速度,需高效获取更多优质数据;应用方面,RAG技术要求从源文件精准提取内容,但非结构化数据解析困难,尤其是PDF文档 。文档解析技术历经概念阶段、字符识别方法探索与应用、简单及复杂结构文档分析与识别等阶段,发展至如今以深度学习和大模型为主导。当前存在的问题包括基于规则和深度学习/大模型的开源库在处理PDF扫描件时存在诸多不足 。TextIn文档解析技术算法框架包括文档解析、版面分析、文字识别、表格识别和公式识别等多方面。其中,版面分析涵盖物理和逻辑版面分析,物理版面分析聚合相关文字、确定布局,逻辑版面分析通过Transformer架构构建文档树状结构;文字识别有多种技术方案和辅助模型;表格识别通过多种模型和后处理逻辑确定表格结构;公式识别采用特定算法。经测试,TextIn在多方面指标上表现出色,如平均表格文本全对率、段落识别率等 。基于TextIn文档解析技术,在大模型应用上有诸多探索。开放域多模态信息抽取支持多种抽取模式,可智能提取非结构化文档关键信息;分析师问答产品借助RAG技术架构,实现精准信息检索、多源信息对比、关键内容总结等功能,提高分析师工作效率 。合合TextIn智能文档处理平台矩阵涵盖多种产品,其文档解析具备支持更多格式和版式、精度高、性能强等特性,为大模型训练与应用提供有力支持,未来可在多方面进一步优化和拓展应用。
以下为报告节选内容