训练大模型要小心什么?这场研讨会热议AI语料建设与合规
创始人
2024-03-05 20:59:36
0

原标题:训练大模型要小心什么?这场研讨会热议AI语料建设与合规

据中国网络空间安全协会消息,2024年3月2日下午,中国网络空间安全协会人工智能安全治理专业委员会在北京召开“人工智能语料建设与合规”专题研讨会。来自专委会成员单位、律所和相关领域科研机构、企业、社会组织等单位的三十余位代表参会,围绕大模型语料版权、确权的重点议题进行交流。

研讨会以线上及线下相结合的方式开展,参会嘉宾围绕人工智能语料建设与合规展开交流,并针对人工智能模型训练阶段所涉及的知识产权相关法律问题进行全面深入探讨,旨在促进我国人工智能高质量发展。

训练大模型需兼顾版权合规

与会嘉宾认为,大规模高质量数据获取、使用的紧迫性与现行法律法规对著作权的明确性是推动人工智能发展与治理需要应对的重要课题。

版权作品保护无法外之地。第十四届全国人大代表,贵州贵达律师事务所主任朱山认为,网络空间和人工智能大模型训练要在兼顾发展与安全基础上循法而为,政策和制度保障要统筹兼顾依法保护与合理运用的平衡,要加快人工智能立法进程

第十四届全国人大代表、大湾区国际信息科技协会香港会长、数字化经济发展委员会委员杨德斌指出,为发展人工智能,语料是非常重要的资源。在训练人工智能过程中,需要尊重语料库版权。同时,也要考虑到中文和英文语料库来源的丰富性香港作为一个高度国际化城市,可以在收集中英文语料库和利用普通法保护版权著作上发挥国家所需、香港所长的作用。

第十四届全国人大代表、中手游联合创始人兼副董事长、国宏嘉信资本创始合伙人兼董事长冼汉迪认为,大模型训练存在较大侵权风险,建议在明确合法使用版权作品的前提下,有限豁免大模型使用语料的版权责任要鼓励技术创新,如开发智能版权识别技术等,更好地应对版权问题;要鼓励公众积极参与讨论,提升大众版权意识,推动知识产权教育,共同推动人工智能的健康发展。

第十三届全国人大代表、中共中央党校(国家行政学院)社会和生态文明教研部教授、博士生导师丁元竹提出,将版权所有者或内容创建者文本收入语料库前,须获得他们的明确认可,明确使用范围、期限。尽可能开放具有公共属性的文本材料。对受版权保护的文本要注明出处,明确原创作者。积极开发能够识别生成文本的水印技术。培育适应生成式人工智能环境下尊重版权的文化氛围,深入研究和严格定义生成式文本与人类知识生产的异同。

语料建设及数据获取需遵循法律规范

此次研讨会上,专家一致认为数据获取、语料建设需要遵循相关法规、标准和规范,要推动形成科学有效的语料库汇聚、处理、使用机制,以解决数据获取和使用的合法化问题,要在政策法规上统筹兼顾有效保护和合理运用的平衡,推进高质量语料流通使用,推动人工智能又好又快发展。

第十四届全国政协委员、首都经济贸易大学中国市场主体研究院院长屈庆超表示,中文语料库是数据要素的重要组成,如何进一步充分释放数据要素价值,要关注创新产权机制和促进数据要素流通两方面问题;要对中文语料库所有权、使用权、经营权等权属进行分类确权管理;支持链主企业,引导产业发展;探索中文语料数据资源资产化、市场化、产业化发展的有效模式和可行路径;夯实智能技术底座,组建创新联合体。

中华全国律师协会网络与高新技术专业委员会副主任、中伦律师事务所合伙人陈际红认为,大模型技术不断取得创新突破,也遇到一些挑战,其中之一就是大规模预训练数据获取与目前法律限制的矛盾。关于解决路径,近期来看,在现有法律框架下通过数据“登记进入-选择退出”、合理使用、共享协议、版权集体管理等机制解决数据获取和使用的合法化问题;远期看,对目前的法律制度进行革新,以适应和包容人工智能技术的发展。

浙江大学光华法学院教授、博士生导师张伟君提出,在人工智能技术国际竞争愈发激烈而我国的相关技术并不具有领先优势的现实面前,为了促进人工智能技术的进步,在各国都还在谨慎评估人工智能训练中使用数据是否构成合理使用的情况下,宜稳妥审慎处理相关数据获得授权

中国政法大学数据法治研究院教授、博士生导师张凌寒提出,大规模预训练数据或语料获取需要与目前法律框架规定相衔接,不仅需要处理好知识产权制度的关系,也需具备收集使用个人信息的合法性基础,要在鼓励发展的基础上,在制度设计中充分考虑“数据二十条”等国家政策方针可能指向的企业数据财产权益未来制度。

积极探索人工智能新立法

此次会议上,还从宏观层面探讨了人工智能合规的立法探索。

北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括认为,从国际地缘政治和人工智能全球竞逐态势看,公共数据资源投入意义重大,提升人工智能语料建设和生态水准十分迫切,积极发展人工智能数据治理技术与应用,推动培育安全合规、多方参与、共建共享的高水准产业。立足当下的产业和业务引导需求,在立法修改工作的研究准备以外,需要最高司法机关及时出台专项司法解释,例如个人信息民事侵权司法解释等,并且领导和推动各级司法机关持续推出相关典型案例,通过个案的司法裁判有效平衡和回应产业各方的前沿、具体需求。

国衡智慧城市科技研究院院长、国家发改委中国经济体制改革研究会理事曾勇指出,对AIGC的合规要求不宜过度,要重点参照当前所颁布的网络信息、隐私保护以及相关的法律法规;要提前积极介入,从人工智能布局源头就开始合理合规有效引导和监督,要兼顾现实和长远;再次,要大力支持和广泛推进人工智能尤其是生成式人工智能技术的突破和发展。

中国法学会法治研究所研究员、中国法学会网络与信息法学研究会理事兼副秘书长刘金瑞指出,利用包含受著作权保护的语料训练AI大模型的行为,无论是数据收集、数据处理还是结果生成阶段,根据我国《著作权法》相关规定,仍存在较高侵权风险,目前在司法中被认定为合理使用面临较大的难度。为了顺应和鼓励人工智能发展,充分释放数据价值,应该在平衡著作权人合法权益保护的前提下,积极探索我国人工智能训练语料合理使用的新立法。

出品:南都大数据研究院

采写:南都记者 张雨亭

相关内容

热门资讯

马斯克公布脑机接口重大成果,未... 在硅谷科技圈的聚光灯下,埃隆·马斯克(Elon Musk)再次以一场震撼全球的发布会,将人类对脑机接...
描绘智能未来新图景——聚焦福州... 坐上自动驾驶网约车,车外风景宜人,车速不疾不徐;车内无需人工操作,智慧大屏清晰显示车辆情况和路况信息...
原创 南... 这几年,中国在南海默默干了一件大事。 把一块块不起眼的礁石,变成了真正的海上岛屿。 修机场、建码头、...
新一代智能船舶“新红专”轮抵琼... 海口7月1日电(记者 王子谦)7月1日上午,全球首艘智能研究与教学实训两用船“新红专”轮靠泊海口新海...
华为申请一种数据处理方法及其装... 金融界2025年7月1日消息,国家知识产权局信息显示,华为技术有限公司申请一项名为“一种数据处理方法...
上海雍邑光电取得光斑角度测量装... 金融界2025年7月1日消息,国家知识产权局信息显示,上海雍邑光电科技有限公司取得一项名为“光斑角度...
原创 力... 在力诺药包三期中硼硅模制瓶车间里,一炉三线的全自动、智能化生产线正在生产模制瓶产品,包括容量5-50...
浙江赛灵特取得水力驱动装置及水... 金融界2025年7月1日消息,国家知识产权局信息显示,浙江赛灵特泵业科技有限公司取得一项名为“水力驱...
展讯半导体申请通信方法相关专利... 金融界2025年7月1日消息,国家知识产权局信息显示,展讯半导体(南京)有限公司申请一项名为“通信方...
大折叠主力机时代来临了!viv... 自大折叠诞生以来,两个重要的问题就如同达摩克利斯之剑悬于大折疊之上:如何让折叠屏更轻薄,如何让折叠屏...
格力朱磊:中国制造全球 85%... IT之家 6 月 29 日消息,据凤凰网财经报道,6 月 28-29 日,“2025 中国企业出海高...
Meta重组其人工智能部门,成... 通信世界网消息(CWW)据外媒报道,MetaCEO马克・扎克伯格宣布对公司人工智能部门进行重组,成立...
原创 无... 无人机拍摄的影像从横屏(水平方向)改为竖屏(垂直方向)是否会损失像素,这个问题涉及到多个方面的考量,...
“涪陵造”新能源变压器接入新疆... 近日,新疆喀什疏附80万千瓦光伏发电项目实现全容量并网发电。涪陵高新技术企业重庆南瑞博瑞变压器有限公...
退休是不可能的!董明珠承诺将为... 日前,格力电器 2024 年度股东大会于珠海顺利召开。会上格力电器董事长董明珠亲临现场,公司董事、总...
雄安未来之城场景汇丨融合创新,... 92项前沿技术亮相低空交通创新技术应用大赛决赛 融合创新,低空交通加速“飞”进生活 6月29日,第...
我科学家揭示 阿尔茨海默病早期... 6月26日,记者从中国科学院昆明动物研究所获悉,该所研究员姚永刚、张登峰带领团队,解析了阿尔茨海默病...
泉美智能取得智能仓储细胞培养箱... 金融界2025年7月1日消息,国家知识产权局信息显示,泉美智能科技(山东)有限公司取得一项名为“一种...
宁德时代在南宁、苏州成立新能源... 天眼查App显示,近日,时代骐骥新能源科技(南宁)有限公司、时代骐骥新能源科技(苏州)有限公司成立,...
广西电力设计院取得线路型避雷器... 金融界2025年7月1日消息,国家知识产权局信息显示,中国能源建设集团广西电力设计研究院有限公司取得...