专注于分享
分享好资源

李兵:“白泽”跨模态大模型高效赋能数字版权保护

28日下午,2023中国新产业峰会在人民网一号演播厅举行,本届峰会以“智能新时代、产业新未来”为主题,邀请多位头部企业与专精特新企业代表、专家学者齐聚一堂,共同探讨智能元年,科技与产业的融合共生,探讨赋能中小企业发展的新路径、新场景。

李兵:“白泽”跨模态大模型高效赋能数字版权保护

人民中科首席科学家李兵。人民网 王绍绍摄

机器辅助内容的生成、传播、聚合,给数字内容及其版权的智能化运营带来新机会、新模式的同时,也给版权保护带来了全新的挑战。人民中科首席科学家李兵介绍,基于“白泽”跨模态大模型,用户可高效率、低成本的智能化扫描、识别和分析互联网上的海量多模态数字内容,判断内容被使用和传播的情况。

李兵表示,随着技术的进步,内容呈现方式日趋视频化、互动化,内容形态已经从传统的文本、图片发展到以音视频为主的多模态。自动化工具的普及,使制作变得更加大众化、个人化的同时,使用和传播别人的内容也变得十分容易和方便,尤其是最近几年出现了基于生成式人工智能的全自动方法,效率远超以往的手工编辑或基于编辑软件的半自动方式。

李兵介绍,“白泽”是海量多源异构跨模态数据预训练的基础模型,并使用了先进的跨模态智能理解技术,能够对文本、图像、视频等多种模态信息进行统一理解、统一表达、统一度量,从而实现跨模态生成、跨模态搜索、开集视频标签、跨模态对话、细粒度跨模态搜索等功能。“白泽”数字版权保护平台正是基于“白泽”跨模态大模型强大的内容理解与发现能力,能够实现一站式智能化的版权运营与监测,具有以下特点:

服务功能全:平台实现了从版权管理、内容监测、固证取证、统计分析的一站式服务。只需提交目标内容,平台便自动进行监测,发现线索后可自动审核、自动取证,有效解决了线索发现难、手动取证时间长、人力成本高等问题。

监测范围广:平台实现了跨平台的内容扫描,覆盖数十家主流平台,实现从实时、三个月、半年、一年到更长时间内发布内容的监测。

监测手段多:平台除了支持文本、图像、视频单模态内容输入,还支持多种模态、多种线索内容同时输入,并支持多线索逻辑运算操作,充分利用跨模态理解和协同能力,发现数字内容、数字商品中的违规、伪造、雷同等信息。

监测精度高:平台能够实现文件级、片段级、秒级以及帧级的目标内容精准发现。从而实现快速精准取证。

抗攻击型强:数字内容及其版权的监测需要适应长期的博弈对抗,平台适应大面积裁剪、背景填充、屏幕翻拍、人脸变换、画中画、重编码、马赛克等多达20多种的常用手段,实现对抗环境下的目标内容发现。

监测速度快:平台采用了自主研发的基于“教导主任-教师-学生”的模型蒸馏与加速算法,能够实现在亿级规模上的秒级响应,从而实现对大规模复杂数据的快速监测能力。

监测数据丰富:平台能够提供版权违规内容,违规账号,违规账号属性以及关系、违规态势等多维度的监测信息,为探索版权运营提供了新模式和新的机制,也为未来相关数字版权标准定制和实施提供了非常重要的支撑依据。

“下一步,‘白泽’数字版权保护平台将继续完善版权登记和聚集、版权监测和保护、版权交易和资产化、版权运营和传播等核心模块,为数字内容的优质发展提供可信的人工智能技术。”李兵说。