导航:首页 > 源码编译 > 英伟达tvai插值算法

英伟达tvai插值算法

发布时间:2024-09-10 03:17:40

‘壹’ 展现完美的自己 英伟达AI算法提升视频会议体验

受新冠疫情的影响,加速了各行业企业移动化办公的需求,这期间,有大量的用户和企业选择了线上视频会议。那么,我们如何在视频会议中展现更完美的自己呢?

近日,2021年国际计算机视觉与模式识别会议(CVPR 2021)正式召开。基于GAN研究的NVIDIA Maxine云AI视频流SDK现已在CVPR 2021上展出。让我们看一看GAN研究是如何重塑视频会议的呢?

起床、启动笔记本电脑、打开网络摄像头——得益于NVIDIA研究人员开发的AI技术,每次都能在视频通话中展现完美的自己。

Vid2Vid Cameo是用于视频会议的NVIDIA Maxine SDK背后的深度学习模型之一,它借助生成式对抗网络(GAN),仅用一张人物2D图像即可合成逼真的人脸说话视频。

要使用该模型,参与者需要在加入视频通话之前提交一张参照图像(真实照片或卡通头像)。在会议期间,AI模型将捕捉每个人的实时动作,并将其应用于之前上传的静态图像。

也就是说,上传一张穿着正装的照片之后,与会人员即使头发凌乱、穿着睡衣,也能在通话中以穿着得体工作服装的形象出现,因为AI可以将用户的面部动作映射到参照照片上。如果主体向左转,则技术可以调整视角,以便参与者看上去是直接面对摄像头的。

除了可以帮助与会者展现出色状态外,这项AI技术还可将视频会议所需的带宽降低10倍,从而避免抖动和延迟。它很快将在NVIDIA Video Codec SDK中作为AI Face Codec推出。

NVIDIA研究人员兼项目的联合创作者Ming-Yu Liu表示:“许多人的互联网带宽有限,但仍然希望与朋友和家人进行流畅的视频通话。这项基础技术除了可以为他们提供帮助外,还可用于协助动画师、照片编辑师和 游戏 开发者的工作。”

Vid2Vid Cameo本周发表于着名的国际计算机视觉与模式识别会议,这是NVIDIA在本次虚拟会议上发表的28篇论文之一。此外,它还在AI Playground上推出,在此所有人均可亲身体验我们的研究演示。

AI大出风头

在一部经典盗贼电影(同时也是Netflix的热门节目)的致谢中,NVIDIA研究人员将他们的人脸说话GAN模型迅速用于虚拟会议。演示重点介绍Vid2Vid Cameo的主要功能,包括面部重定向、动画头像和数据压缩

这些功能即将登陆NVIDIA Maxine SDK,为开发者提供经过优化的预训练模型,以便在视频会议和直播中实现视频、音频和增强现实效果。

开发者已经能采用Maxine AI效果,包括智能除噪、视频升采样和人体姿态估计。SDK支持免费下载,还可与NVIDIA Jarvis平台搭配用于对话式AI应用,包括转录和翻译。

来自AI的问候

Vid2Vid Cameo只需两个元素,即可为视频会议打造逼真的AI人脸说话动态,这两个元素分别是一张人物外貌照片和一段视频流,它们决定了如何对图像进行动画处理。

模型基于NVIDIA DGX系统开发,使用包含18万个高质量人脸说话视频的数据集进行训练。网络已掌握识别20个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征(包括眼睛、嘴和鼻子)的位置进行编码。

然后,它会从通话主导者的参照图像中提取这些关键点,这些关键点可以提前发送给其他的视频会议参与者,也可以重新用于之前的会议。这样一来,视频会议平台只需发送演讲者面部关键点的移动情况数据,无需将某参与者的大量直播视频流推送给其他人。

对于接收者一端,GAN模型会使用此信息,模拟参照图像的外观以合成一个视频。

通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低10倍,从而提供更流畅的用户体验。该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。

此外,还可以自由调整所生成的人脸说话视频的视角,可以从侧边轮廓或笔直角度,也可以从较低或较高的摄像头角度来显示用户。处理静态图像的照片编辑者也可以使用此功能。

NVIDIA研究人员发现,无论是参照图像和视频来自同一个人,还是AI负责将某个人的动作转移到另一个人的参照图像,Vid2Vid Cameo均能生成更逼真、更清晰的结果,优于先进的模型。

后一项功能可将演讲者的面部动作,应用于视频会议中的数字头像动画,甚至可以应用于制作视频 游戏 或卡通角色的逼真形象和动作。

Vid2Vid Cameo论文由NVIDIA研究人员Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰写。NVIDIA研究团队在全球拥有超过200名科学家,专注于AI、计算机视觉、自动驾驶 汽车 、机器人和图形等领域。

我们要感谢演员Edan Moses ,他在Netflix上的《纸钞屋》中担任教授的英语配音,感谢他在以上我们最新AI研究的介绍视频中做出的贡献。

写在最后,视频会议现已经成为人们日常生活的一部分,能够帮助数百万人工作、学习、 娱乐 ,甚至就医。NVIDIA Maxine集成了先进的视频、音频和对话式AI功能,给那些帮助我们保持联络的视频会议平台带来效率突破。(陶然)

阅读全文

与英伟达tvai插值算法相关的资料

热点内容
网页无法打开pdf 浏览:555
linux命令scp 浏览:519
怎样把图片转为pdf格式 浏览:115
linux变量类型 浏览:840
linux中网卡配置 浏览:704
appstore里面的软件怎么设定年龄 浏览:290
jpg在线转换pdf格式 浏览:600
java泛型详解 浏览:616
pdf介质框 浏览:210
苹果手机怎么用蓝牙传app软件到安卓 浏览:435
东方财富app怎么找场内基金 浏览:276
粉笔app怎么修改身份 浏览:529
价值投资选股公式源码 浏览:681
u盘文件夹变成了白色隐藏无法使用 浏览:876
python如何爬取火车票 浏览:977
生命哲学pdf 浏览:61
socket程序源码 浏览:156
修改文件夹用户和用户组 浏览:595
女生隐私软件不加密不要钱 浏览:560
压缩式雾化泵和雾化器一样吗 浏览:675