金融界2024年4月8日消息,据国家知识产权局公告,腾讯科技(深圳)有限公司申请一项名为“基于主动学习的文本标记方法、装置、设备和存储介质“,公开号CN117828088A,申请日期为2024年1月。
专利摘要显示,本申请涉及计算机技术领域,尤其涉及自然语言处理技术领域,提供一种基于主动学习的文本标记方法、装置、设备和存储介质,用于提高文本标记的准确性和效率。该方法基于文本样本池对文本分类模型进行迭代训练时,除了使用标记文本本身外,还使用了预先标注的表征文本与标签间的因果关系的真实解释,使模型准确理解文本的深层语义信息,减少模型对文本表面语义含义的依赖,提高标签预测的泛化性和准确性;同时,还利用了各标记文本的真实解释和相应的评估值产生的损失,使模型能够准确对解释进行评估,以便选取出类别信息量较为丰富的多个候选文本进行标注,从而提高文本类别的丰富性同时降低标注占用的资源,提升文本标注效率。
来源:金融界