英偉達tvai插值演算法_展現完美的自己英偉達AI演算法提升視頻會議體驗

『壹』展現完美的自己英偉達AI演算法提升視頻會議體驗

受新冠疫情的影響，加速了各行業企業移動化辦公的需求，這期間，有大量的用戶和企業選擇了線上視頻會議。那麼，我們如何在視頻會議中展現更完美的自己呢？

近日，2021年國際計算機視覺與模式識別會議（CVPR 2021）正式召開。基於GAN研究的NVIDIA Maxine雲AI視頻流SDK現已在CVPR 2021上展出。讓我們看一看GAN研究是如何重塑視頻會議的呢？

起床、啟動筆記本電腦、打開網路攝像頭——得益於NVIDIA研究人員開發的AI技術，每次都能在視頻通話中展現完美的自己。

Vid2Vid Cameo是用於視頻會議的NVIDIA Maxine SDK背後的深度學習模型之一，它藉助生成式對抗網路(GAN)，僅用一張人物2D圖像即可合成逼真的人臉說話視頻。

要使用該模型，參與者需要在加入視頻通話之前提交一張參照圖像（真實照片或卡通頭像）。在會議期間，AI模型將捕捉每個人的實時動作，並將其應用於之前上傳的靜態圖像。

也就是說，上傳一張穿著正裝的照片之後，與會人員即使頭發凌亂、穿著睡衣，也能在通話中以穿著得體工作服裝的形象出現，因為AI可以將用戶的面部動作映射到參照照片上。如果主體向左轉，則技術可以調整視角，以便參與者看上去是直接面對攝像頭的。

除了可以幫助與會者展現出色狀態外，這項AI技術還可將視頻會議所需的帶寬降低10倍，從而避免抖動和延遲。它很快將在NVIDIA Video Codec SDK中作為AI Face Codec推出。

NVIDIA研究人員兼項目的聯合創作者Ming-Yu Liu表示：「許多人的互聯網帶寬有限，但仍然希望與朋友和家人進行流暢的視頻通話。這項基礎技術除了可以為他們提供幫助外，還可用於協助動畫師、照片編輯師和游戲開發者的工作。」

Vid2Vid Cameo本周發表於著名的國際計算機視覺與模式識別會議，這是NVIDIA在本次虛擬會議上發表的28篇論文之一。此外，它還在AI Playground上推出，在此所有人均可親身體驗我們的研究演示。

AI大出風頭

在一部經典盜賊電影（同時也是Netflix的熱門節目）的致謝中，NVIDIA研究人員將他們的人臉說話GAN模型迅速用於虛擬會議。演示重點介紹Vid2Vid Cameo的主要功能，包括面部重定向、動畫頭像和數據壓縮。

這些功能即將登陸NVIDIA Maxine SDK，為開發者提供經過優化的預訓練模型，以便在視頻會議和直播中實現視頻、音頻和增強現實效果。

開發者已經能採用Maxine AI效果，包括智能除噪、視頻升采樣和人體姿態估計。SDK支持免費下載，還可與NVIDIA Jarvis平台搭配用於對話式AI應用，包括轉錄和翻譯。

來自AI的問候

Vid2Vid Cameo只需兩個元素，即可為視頻會議打造逼真的AI人臉說話動態，這兩個元素分別是一張人物外貌照片和一段視頻流，它們決定了如何對圖像進行動畫處理。

模型基於NVIDIA DGX系統開發，使用包含18萬個高質量人臉說話視頻的數據集進行訓練。網路已掌握識別20個關鍵點，這些關鍵點可用於在沒有人工標注的情況下對面部動作進行建模。這些點對特徵（包括眼睛、嘴和鼻子）的位置進行編碼。

然後，它會從通話主導者的參照圖像中提取這些關鍵點，這些關鍵點可以提前發送給其他的視頻會議參與者，也可以重新用於之前的會議。這樣一來，視頻會議平台只需發送演講者面部關鍵點的移動情況數據，無需將某參與者的大量直播視頻流推送給其他人。

對於接收者一端，GAN模型會使用此信息，模擬參照圖像的外觀以合成一個視頻。

通過僅來回壓縮及發送頭部位置和關鍵點，而不是完整的視頻流，此技術將視頻會議所需的帶寬降低10倍，從而提供更流暢的用戶體驗。該模型可以進行調整，傳輸不同數量的關鍵點，以實現在不影響視覺質量的條件下，適應不同的帶寬環境。

此外，還可以自由調整所生成的人臉說話視頻的視角，可以從側邊輪廓或筆直角度，也可以從較低或較高的攝像頭角度來顯示用戶。處理靜態圖像的照片編輯者也可以使用此功能。

NVIDIA研究人員發現，無論是參照圖像和視頻來自同一個人，還是AI負責將某個人的動作轉移到另一個人的參照圖像，Vid2Vid Cameo均能生成更逼真、更清晰的結果，優於先進的模型。

後一項功能可將演講者的面部動作，應用於視頻會議中的數字頭像動畫，甚至可以應用於製作視頻游戲或卡通角色的逼真形象和動作。

Vid2Vid Cameo論文由NVIDIA研究人員Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰寫。NVIDIA研究團隊在全球擁有超過200名科學家，專注於AI、計算機視覺、自動駕駛汽車、機器人和圖形等領域。

我們要感謝演員Edan Moses ，他在Netflix上的《紙鈔屋》中擔任教授的英語配音，感謝他在以上我們最新AI研究的介紹視頻中做出的貢獻。

寫在最後，視頻會議現已經成為人們日常生活的一部分,能夠幫助數百萬人工作、學習、娛樂 ,甚至就醫。NVIDIA Maxine集成了先進的視頻、音頻和對話式AI功能,給那些幫助我們保持聯絡的視頻會議平台帶來效率突破。（陶然）

熱點內容

四川補貼認證下載什麼app 發布：2025-03-05 09:18:09 瀏覽：858

android設計風格發布：2025-03-05 08:57:48 瀏覽：426

視頻不支持我的加密發布：2025-03-05 08:57:07 瀏覽：342

布包pdf 發布：2025-03-05 08:52:02 瀏覽：267

程序員錄制課程表發布：2025-03-05 08:45:43 瀏覽：626

eclipsephp斷點調試發布：2025-03-05 08:31:41 瀏覽：895

虛擬成交量指標源碼發布：2025-03-05 08:30:09 瀏覽：838

什麼APP有背單詞小組發布：2025-03-05 08:25:58 瀏覽：43

蘋果2g視頻怎麼加密發布：2025-03-05 08:25:02 瀏覽：204

人工智慧程序員和古典錄音師相遇發布：2025-03-05 08:23:39 瀏覽：415

國產伺服器是怎麼來的發布：2025-03-05 08:23:31 瀏覽：116

蓄勢待發源碼發布：2025-03-05 08:13:45 瀏覽：458

伺服器如何清理log文件發布：2025-03-05 08:01:39 瀏覽：835

javaawtfont 發布：2025-03-05 07:59:11 瀏覽：627

php企業站後台發布：2025-03-05 07:50:54 瀏覽：417

日企程序員招聘發布：2025-03-05 07:45:51 瀏覽：113

伺服器中毒網頁投放廣告怎麼辦發布：2025-03-05 07:44:53 瀏覽：709

安卓快閃記憶體掉速是什麼原因發布：2025-03-05 07:44:53 瀏覽：409

fcfs調度演算法代碼發布：2025-03-05 07:36:48 瀏覽：686

應用加密安全提示問題如何重設發布：2025-03-05 07:30:32 瀏覽：54

導航:首頁 > 源碼編譯 > 英偉達tvai插值演算法

英偉達tvai插值演算法

與英偉達tvai插值演算法相關的資料