雷竞技-多模态AI重新定义人机交互方式—新闻—科学网

2024-12-29

将来的人工智能（AI）甚么样？想象一下，只需简单一个指令，它们便能贯通并履行复杂的使命；它们还能经由过程视觉捕获用户的脸色和动作，判定其情感状况。这不再是好莱坞科幻片子中的场景，而是正慢慢走进实际的“多模态AI”。

据美国《福布斯》网站近日报导，元宇宙平台公司、OpenAI和谷歌公司等巨子，都推出了各自的多模态AI系统，正竭尽全力地加年夜对此类系统的研发投资，力图提高各类模态内容输出的切确度，从而改良AI与用户的交互体验。

多模态AI标记着一种范式变化。它将深入改变良多行业的面孔，并重塑数字世界的款式。

付与AI“多重感官”功能

人类是若何领会世界的？我们依靠视觉、听觉和触觉等多种感官，从无数来历领受信息。人脑将这些纷纷复杂的数据模式融会，绘制出一幅活泼的实际“画卷”。

IBM公司官网如许界说多模态AI：能集成和处置来自多种模态（数据类型）的机械进修模子，这些模态包罗文本、图象、音频、视频等情势的输入。就像付与AI一整套感官，使它能从多个角度感知并理解输入的信息。

这类逾越分歧模态理解和建立信息的能力，超出此前偏重在集成和处置特定命据源的单模态AI，博得了各年夜科技巨子的青睐。

在本年的移动通讯年夜会上，高通公司将其开辟的多模态年夜模子初次摆设在安卓手机上。用户不管是输入照片，仍是语音等信息，都能与AI助手顺畅交换。例如，用户可以拍一张美食照片向AI助手发问：这些食材都是甚么？能做出甚么菜？每道菜的热量是几多？AI助手能基在照片信息，给出具体的谜底。

本年5月，OpenAI发布了多模态模子GPT-4o，其撑持文本、音频和图象的肆意组合输入和输出。随后，谷歌也在第二天推出了本身的最新多模态AI产物Gemini1.5Pro。

9月25日，元宇宙平台公司发布了其最新的开源年夜说话模子Llama3.2。公司首席履行官马克扎克伯格在主题演讲中暗示，这是该公司首个开源多模态模子，可同时处置文本和视觉数据，标记着AI在理解更复杂利用场景方面获得了重猛进展。

悄然鞭策各范畴变化

多模态AI正悄然改变着多个范畴的面孔。

在医疗保健范畴，IBM旗下“沃森健康”正对病人的影象学数据、病历文本和基因数据进行综合阐发，帮忙大夫更正确地诊断疾病，有力撑持大夫为病人制定个性化医治方案。

创意财产也正在履历一场变化。数字营销专家和片子制片人正借助这一手艺打造定制内容。试想，只需一个简单的提醒或概念，AI系统就可以编撰出令人着迷的脚本，生成故事板（即一系列插图摆列在一路构成的可视化故事）、创作配乐，乃至建造出初步场景剪辑。

教育和培训范畴也在多模态AI助力下向个性化进修迈进。美国纽顿公司开辟的自顺应进修平台能操纵多模态AI，深切阐发学生的进修行动、脸色和语音，及时调剂讲授内容和难度。尝试数据显示，这类方式能将学生的进修效力提高40%。

客户办事也是多模态AI系统使人兴奋的利用之一。聊天机械人不但能回应文本查询，还能理解客户的腔调，阐发客户的脸部脸色，并用恰当的说话和可视化线索作出回应。这类更接近人类的交换有望完全改变企业与客户的互动体例。

仍需降服手艺伦理挑战

但多模态AI成长也面对诸多挑战。

AI咨询公司“隐空间”开创人亨瑞艾德尔暗示，多模态AI的壮大的地方在在可以或许整合多种数据类型。但是，若何有用整合这些数据还是一个手艺困难。

另外，多模态AI模子在运行进程中常常需要耗损年夜量算力资本，这无疑增添了其利用本钱。

更值得留意的是，多模态数据包括更多小我信息。当多模态AI系统能轻松辨认人脸、声音甚至情感状况时，若何确保小我隐私获得尊敬与庇护？又该若何采纳有用办法，避免其被用在建立“深度捏造”或其他误导性内容？这些都是值得沉思的问题。

雷竞技-BPO行业整合方案提供者