让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

2024-04-19 14:59:11 来源：IT之家

小大

微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能自动让图片中的人物自动说话。

VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。

研究人员承认，与所有其他模型一样，该模型目前还无法妥善处理头发等非刚性元素，但整体效果要比其它同类模型要更为优秀。

研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

关键词：

责任编辑：kj005

文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com

关键词：

2021三季度企业级SSD市场统计：三星出货份额过半

我国仍有1.4亿老年人使用功能机数字鸿沟问题凸显

8GB+256GB版本！OPPO Find N预售抢购一空

培养一名航天员到底有多难？

中华网数码

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

个保法颁布一周年：个性化广告发展需平衡隐私保护与用户体验

2022年全球折叠手机总销量将首度超过千万部大关

印度市场智能手机出货量出炉：vivo占比排名第三

平板电脑进入新的竞争阶段重新夺回市场主导权

2021年四季度中国手机市场苹果占有率位居第一

预测2022年中国市场智能机销量达3.4亿部同比增长8%

相关新闻

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

广汽传祺 GS4 MAX 车型上市，首销价 10.98 万元起

华为 Pura 70 标准版手机不支持星闪（NearLink）技术

Win10 RP 预览版设置应用挂出横幅，推荐本地用户登录微软账号

多项新技术首发！Redmi K50电竞版全线拉满无短板：

OPPO"双折"外观专利获授权：屏幕可折叠两次

小米量产商用屏下摄像头技术屏下前摄旗舰新机曝光

荣耀60 SE全面开启预售：曲面屏高颜值高像素超快充

安兔兔发布1月新机性能榜：骁龙8 Gen1霸占前七

三星旗舰平板Galaxy Tab S8官方规格曝光：搭载Android 12系统

数码推荐

数码图片

加多宝倾力助阵“3·15”，以高品质共筑消费者信赖基石

我的空运我做主，喜鹊到货源大厅功能上线！

重磅|滤镜主义落户大英带来高科定制抗衰新体验

聚焦国货、引领潮流，源机购带你智享科技生活

新闻排行

从“小树苗”到“大森林” 成都...

探索新赛道哪个领域能成为家电...

2021年全球TV出货下降6.2% 面板...

巨头争相布局全屋智能市场向AI...

Mini LED市场不及预期产业陷...

海南省市场监管局抽查10批次快热...

智能化开辟产品创新边界智能坐...

中国制造主导高端冰箱进入新一...

苹果或正开发Apple Music新功能...

欧洲智能手机2021年“现状”：三...

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

相关新闻

数码推荐

数码图片

加多宝倾力助阵“3·15”，以高品质共筑消费者信赖基石

我的空运我做主，喜鹊到货源大厅功能上线！

重磅|滤镜主义落户大英 带来高科定制抗衰新体验

聚焦国货、引领潮流，源机购带你智享科技生活

新闻排行

重磅|滤镜主义落户大英带来高科定制抗衰新体验