okx

Meta开源AI模型ImageBind为虚拟世界开启多种可能

时间:2023-07-27|浏览:168

《科创板日报》5月10日报道,Meta公司宣布开源了一种名为ImageBind的全新AI模型,可以横跨6种不同模态,包括视觉、温度、文本、音频、深度信息和运动读数。相关源代码已托管至GitHub。

ImageBind是一种以视觉为核心的AI模型,可以理解和转换6种不同模态之间的数据。Meta展示了一些案例,比如听到狗叫可以画出一只狗,并给出深度图和文字描述;输入鸟的图像加海浪的声音可以得到鸟在海边的图像。

与之前只支持一个或两个模态且难以互动和检索的多模态AI模型相比,ImageBind具有突破性意义。它是第一个能够同时处理6种感官数据的AI模型,也是第一个在没有明确监督的情况下学习一个单一嵌入空间的AI模型。

ImageBind的核心方法是将所有模态的数据放入一个统一的联合嵌入空间,无需通过不同模态组合进行训练。利用近期的大型视觉语言模型,将视觉和其他模态扩展到新的联合嵌入空间。

对于那些原始数据中没有直接联系的模态,如语音和热量,ImageBind表现出了涌现能力,可以自动将它们联系起来。

有行业观察者将ImageBind与元宇宙联系在一起,为设计和体验身临其境的虚拟世界打开了大门。Meta的研究团队表示,未来还将加入触觉、语音、嗅觉和大脑功能磁共振信号,进一步探索多模态大模型的可能性。

同时,Meta表示ImageBind可以利用DINOv2的强大视觉功能进一步提高能力。DINOv2是Meta开源的计算机视觉预训练模型,与Meta的元宇宙愿景密不可分。Meta的CEO扎克伯格强调,DINOv2可以为元宇宙的建设提供强大支持,提升用户在元宇宙中的沉浸体验。

尽管ImageBind目前还只是研究项目,没有直接的消费者用户或实际应用,但随着模型的完善,AI应用场景将进一步扩展,元宇宙建设也将更加先进。

例如,当ImageBind融入虚拟现实设备时,使用者可以获得更沉浸式的体验,不仅可以感受游戏场景的温度,还能感知物理层面上的运动。

据国盛证券分析师刘高畅预测,随着多模态的发展,AI的泛化能力将提高,通用视觉、机械臂、物流搬运机器人、行业服务机器人和智能家居等将进入人们的生活。未来5-10年内,复杂多模态方案结合的大模型有望具备与世界交互的能力,在通用机器人和虚拟现实等领域得到应用。

来源:科创板日报 作者:科创板日报

« 上一条| 下一条 »
区块链交流群
数藏交流群

合作伙伴

數字黃金 非小号行情 茶百科 数字财经 借春秋 宠物丫 玩票票财经 旅游资讯网 皮卡丘资讯 币圈交流群 装修装饰网 借春秋财经 币爸爸 百悦米 币圈官网 起名取名网 趣开心资讯 今日黄金 培训资讯网 秒懂域名 金色币圈 黄金行情 聚币网 趣玩币 周公解梦 美白没斑啦 佩佩蛙官网 免费电影 谈股票 去玩呗SPA 玩合约 代特币圈 币圈ICO官网 兼职信息网 元宇宙Web 爱网站 天天财富 百科书库 谷歌留痕 宝宝起名 减肥瘦身吧 币圈论坛 二手域名 妈妈知道
在区块链世界中,智能合约不仅是代码的信任,更是商业的革命。通过了解其在供应链、版权保护等领域的应用,您将真正体验到智能合约的无限可能性
区块链世界GxPiKaQiu.com ©2020-2024版权所有 桂ICP备16002597号-2