2024年6月22日,在华为开发者大会2024(HDC 2024)上,天图万境与华为云携手推出了“视频声效大模型”解决方案,乍一看,不就又是一个音视频大模型嘛,可听完天图万境创始人图拉古的讲述,我们看到跨行业的人做AI进入了“变态”的地步,准确的讲,这种方法正在启迪AI超越人类。
按照通常的理解,大家修改架构,不管是大热的transformer,还是sora的dit,大家都在用大力出奇迹的方法,体现自家优势。
图拉古的研发似乎为行业找到了新的思路,人类的大脑可以处理非常复杂的事情,但是功耗峰值也就45瓦,如何让AI按照这样的方式进化,是全球科学家正在研究的方向。
大会上,图拉古谈到一种“联级神经元”的方法。他表示,人们通常讲到多模态,就好像是让一个人学会这个世界上所有的技能,顶级的手术医学技能,顶级的音乐演奏技能,顶级的微积分计算,顶级的赛车手等等,这显然是一件超级难的事情。但在事情期初,人们往往会过于乐观或者过度自信,比如当你的孩子刚出生,你也许就会幻想他聪明优秀,万人追捧,学会琴棋书画,舞得剑戟刀枪,可随着孩子慢慢长大,你也许会看到孩子另一面的特长,而不是面面俱到。
天图万境创始人 图拉古
图拉古说,“我们看到,国外的顶级研究机构已经在研究这种‘联级神经元’的架构设计,把专业的垂直 AI 模型作为一个神经元看待,这就像大脑一样,有负责语言的区域,有负责音乐的区域,有负责行动的区域,有负责平衡的区域,他们虽然都在一个头颅内,可是各自却是独立的,靠生物电通讯。
2019年时,世界上迎来了一台十分特殊的手术,整个手术室充满了浪漫古典的旋律,这正是当法国的医生给一位著名音乐家做手术时,为了保证他的小提琴技能不受影响,从而在手术过程中让他保持头脑清醒地拉了几个小时的小提琴。
还有一些事情,比如我们喝酒喝醉后,小脑会受到影响,所以人们走起路来左右摇摆,但是语言区还可以让你思维活跃的表达,这样的例子数不胜数。
仿照这样的大脑构架,我们可以把每个专用AI模型当做一个“神经元”来看待,让其中一个充当调度的AI,负责实现生物电的调度中心,让它通知其他对应的“AI神经元”,执行对应任务。多个“AI”神经元之间通过调度AI来通讯,形成了类人脑的“联级神经元”,每次行动能量消耗极低、算力极少,但是却可以完美准确的完成任务。
剩下的问题就是,如何教会AI进行学习和判断了。人类大脑获得的大部分信息,都是通过听觉和视觉来感知认识世界的,那我们也必须按照这样的方式去训练 AI,因为生命体已经用了5亿4000年来证明这种方式是最优解。
人类看到的世界是立体的,通常人们会用激光雷达来测量立体世界,这显然不是人类的进化方式。后来,人们用多目组成类人左右眼的形式,计算视差,获得立体世界。可是我们知道,人类闭上一只眼睛的时候,也可以准确的拿到面前的水杯,也可以知道自己距离物体的距离,甚至一些电影里还描绘了独眼侠客的特异功能。人脑具有自己的经验记忆推理能力,可以在单眼下获得准确稳定的深度,而我们的机器正是需要这样的能力。天图万境先后推出空间计算框架的多次升级的版本,实现了通过单目摄像头实时获取稳定的空间感知图,实现了世界首个空间计算AI。
天图万境紧接着推出了认识物体,认识世界的AI分割模型,这个模型最早用在电影抠像里,天图万境并没有过早地披露这一信息,直到今年,天图万境才告知大家,他们的抠像技术实际上是在训练AI认识世界,而并非在抠绿。他们在已有的图像上做分割,让机器知道画面里的物体都是什么,并理解在设定情景下什么物体应该保留或者去掉,甚至还可以执行其他特定的决策。
确实,如果说训练认识世界的数据,没什么比电影数据更具有想象力了,上天遁地,无所不能。而天图万境已经拥有了全亚洲最大的物理数据集和分割数据集,并正在提供给华为盘古大模型做专业训练。
除了通过眼睛认识世界,理解世界,听觉也是人类感知世界的重要方式。人类闭上眼睛,就可以知道是鸟叫还是虫鸣,可以听呼啸而过的车声,判断车辆的远近距离,甚至通过听到熟人的音色,还可以在众多朋友中判断这个人是谁。图拉古希望机器也有这样的能力。
现在,天图万境利用自己的AI感知视听技术,正在实现这一远大愿景。他们与华为云携手推出了“视频声效大模型”解决方案,正在向我们证明这一前沿技术的可行。
该技术支持用户仅需上传一个视频,不需要输入任何提示词,就可以获得连续的音频,这个音频包含了音色、声场、动态数量等等。比如一辆火车从远及近开来,你就可以获得一个小到大的声音;一个石头落入水中,你就可以听到石头落水的声音,甚至还包含那种不同物质传输的不同声音效果。更离谱的是,你可以听到泛起涟漪后的微弱声音,还有火箭发射巨大引擎的轰鸣声。
乍一看,这似乎没有什么了不起。可这正是图拉古之前所描述的愿景,让我们重新审视这个空间智能AI。
首先,这种复杂的处理运算,竟然是运行在一个本地消费级显卡上,更离谱的是,几乎是实时运行。
为什么说更离谱呢?首先,AI要识别这是什么,是火箭还是雷电,这群鸟是乌鸦还是海鸥,这辆车是火车还是汽车,如果是火车,那是蒸汽火车,还是电动火车等等。其次,AI还要知道火车的声音是什么样,火箭的声音是什么样,打雷闪电又是什么样,大的雷电和小的雷电声音有何不同,海鸥怎么叫等等。紧接着,AI要知道这里边的空间关系是什么,比如会不会有吸音,有没有混响,伪音。最难的在于,AI还要知道这个声源的运动关系,依托于运动关系做出即刻的声场效果,产生动态声音。对于成片画面而言,就是每一个声音都要跟画面完全匹配,出现闪电就要响,还要计算声音和光速的传播关系,看到闪电多久后才能有声音传播起来。当汽车急刹车的时候,还要出现刹车的声音等等;还要知道每一组不同的材质组合会发出什么样的声音。
在“视频声效大模型”解决方案发布之前,人们认识图拉古和天图万境,以为这是一家电影技术公司。是的,他们在电影技术领域有着远超同行的技术和绝对领先研究,但是人们不知道,他们的抠绿不是抠绿,而是在分割画面;他们的还原不是还原,而是在计算空间,他们的音频也不只是音频,他们让AI理解世界。
所以,图拉古和他团队此次发布的大模型也不是大模型,是AI时代的一股清流,是一种真正经过了人脑深度思考的结果,不是习惯性跟风和恐惧性前进。
最后,引用图拉古的话作为结束语:
“一个伟大的时代,会在一种良性循环中,徐徐展开;人类、AI、机器和谐相处,互帮互助的美好愿景,正在向我们阔步走来。”
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com