科技日报记者 陆成宽
输入一张图书馆的图片和一段汽车鸣笛的音频,“紫东太初”就能发现其中的矛盾,分析出这段音频不太可能出现在图书馆的场景中;给出一张救护车图片、一段森林救火的视频和一段警笛音频,它也能识别并讲述一段完整的救援故事。
6月16日,在人工智能框架生态峰会2023上,中国科学院自动化研究所所长徐波在发布“紫东太初”全模态大模型时,展示了该模型的新“能耐”。
作为“紫东太初”1.0的升级版,“紫东太初”全模态大模型具备全模态理解能力、生成能力和关联能力,不仅能读懂文字、图像和音频,还能理解视频、3D点云、传感信号,可以结合图像、声音和视频完成场景分析,其理解和生成能力更加接近人类,向通用人工智能迈出关键一步。
从多模态到全模态持续探索
“‘紫东太初’全模态大模型以国产化基础软硬件平台昇腾AI为基础,其算法由中科院自动化所自主研发,算力则由武汉人工智能计算中心提供支持。”中科院自动化所研究员张家俊介绍,无论是算法、算力,还是硬件,“紫东太初”都是“中国造”。
“人类学习要受到现实世界中视觉、触觉、听觉、嗅觉等各种信号的综合影响,每一种不同类型的信号都是一种模态,人类的学习过程是全模态的。同样地,机器要想变得‘更聪明’,也需要像人一样,发展贯通图、文、音等多种模态的大模型。”张家俊在谈起开发全模态大模型的原因时解释道。
鉴于此,2019年,中科院自动化所就坚持以“图-音-文”多模态技术为核心,确立多模态大模型布局,整合所内图像、文本、语音等研究方向的优势资源开展集团式攻关,于2021年9月成功打造“紫东太初”1.0多模态大模型。“紫东太初”1.0助推人工智能从“一专一能”迈向“多专多能”,向发展通用人工智能迈出了坚实的第一步。
迈入数字经济时代,数据的范畴不断拓宽,不仅包含人类自身产生的语音、图像、文字等数据,还有机器产生的大量结构和非结构化数据。
徐波介绍,针对新需求与新趋势,新升级的“紫东太初”2.0在语音、图像和文本之外,加入了视频、传感信号、3D点云等更多模态,从技术架构上实现了结构化和非结构化数据的全模态开放式接入;突破了能对信息进行充分理解和灵活生成的多模态分组认知编解码技术,能融合多个任务的认知增强多模态关联技术等,大模型多模态认知能力大幅提升。
各行业可以根据各自需求“组装”模块
“‘紫东太初’2.0可以像人一样综合运用多种信号进行思考。”据研发团队介绍,它可以理解三维场景、传感信号等数字物联时代的重要信息,完成了音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成。
“目前,‘紫东太初’大模型已展现出广阔的产业应用前景,在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域开展了一系列引领性、示范性应用。”徐波说。
比如,在医疗场景下,“紫东太初”大模型部署于神经外科机器人MicroNeuro,可实现在术中实时融合视觉、触觉等多模态信息,协助医生对手术场景进行实时推理判断。同时与北京协和医院合作,利用“紫东太初”具备的较强逻辑推理能力,尝试在人类罕见病诊疗这个挑战性医学领域有所突破。
再比如,在法律咨询领域,“紫东太初”大模型仅用0.546秒就可对法律案件进行拆解、提取关键事件,在办公效率方面实现案件分析速度的百倍提升,可有效解决律师整体资源匮乏、服务成本高等问题。
“‘紫东太初’已经开放服务平台,支持各行业根据各自需求‘组装’模块,再输入少量的行业样本数据,就能产出自主可控的行业相关大模型。”张家俊说。
徐波表示,自动化所未来将以“紫东太初”大模型为基础,持续探索与类脑智能、博弈智能等技术路径的相互融合,最终实现可自主进化的通用人工智能,并将探索在更多领域发挥赋能价值,为促进我国数字经济快速发展贡献力量。
(中科院自动化所供图)