金融界2024年3月27日消息,据国家知识产权局公告,深圳华强电子网集团股份有限公司申请一项名为“一种基于元器件行业的中英文混编文本的切词方法“,公开号CN117764069A,申请日期为2024年2月。
专利摘要显示,本发明公开了一种基于元器件行业的中英文混编文本的切词方法,涉及文本切词技术领域,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化语言模型;S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。本发明具备在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。
来源:金融界