語音處理3a演算法_語音識別演算法有哪些

① 音頻3A測試

AGC可以自動調麥克風的收音量，使與會者收到一定的音量水平，不會因發言者與麥克風的距離改變時，聲音有忽大忽小聲的缺點。

ANS可探測出背景固定頻率的雜音並消除背景噪音，例如：風扇、空調聲自動濾除。呈現出與會者清晰的聲音。

AEC是對揚聲器信號與由它產生的多路徑回聲的相關性為基礎，建立遠端信號的語音模型，利用它對回聲進行估計，並不斷地修改濾波器的系數，使得估計值更加逼近真實的回聲。然後，將回聲估計值從話筒的輸入信號中減去，從而達到消除回聲的目的，AEC還將話筒的輸入與揚聲器過去的值相比較，從而消除延長延遲的多次反射的聲學回聲。根椐存儲器存放的過去的揚聲器的輸出值的多少，AEC可以消除各種延遲的回聲。

AEC

回聲消除的基本原理是以揚聲器信號與由它產生的多路徑回聲的相關性為基礎，建立遠端信號的語音模型，利用它對回聲進行估計，並不斷修改濾波器的系數，使得估計值更加逼近真實的回聲。然後，將回聲估計值從話筒的輸入信號中減去，從而達到消除回聲的目的。即利用接收到的音頻與本地採集的音頻做對比，添加反相的人造回聲，將遠端的聲音消除。

ANS

背景雜訊抑制（ANS）指的是將聲音中的背景雜訊識別並進行消除的處理。

背景雜訊分為平衡雜訊和瞬時雜訊兩類，平穩雜訊的頻譜穩定，瞬時雜訊的頻譜能量方差小，利用雜訊的特點，對音頻數據添加反向波形處理，即可消除雜訊。

AGC

自動增益控制（AGC）是指當直放站工作於最大增益且輸出為最大功率時，增加輸入信號電平，提高直放站對輸出信號電平控制的能力。自動增益控制主要用於調整音量幅值。

正常人交談的音量在40~60dB之間，低於25dB的聲音聽起來很吃力，超過100dB的聲音會讓人不適。AGC的作用就是將音量調整到人接受的范圍。

AGC的調整分為模擬部分和數字部分，模擬部分是麥克風的採集增益，數字部分是音頻數據的數字電平調整。

音頻3A處理：

音頻 3A處理在不同的應用場景三者的處理順序也不同，如在WebRTC中音頻數據回依次經過 AEC 和 NS（noise suppression）或者 NS 與 AECM（AECM 是WebRTC專門為移動端打造的演算法，計算量低，而AEC 是為PC打造的）。而在AEC(回聲消除演算法)，為什麼需要這個演算法呢？當一個設備在播放聲音經過空間中的多次反射會被麥克風再次捕捉並採集到系統當中，這時音頻的輸入既有空間反射的回聲也有本端說話聲，如果缺少此模塊就意味著通話中說話人一直可以聽到自己的聲音回來，這是非常差的一種體驗，這是需要避免的。這里AEC的作用就是通過播放的參考信號跟蹤出回聲並從採集信號中把回聲消除掉，隨後再經過降噪處理去除雜訊。而其中的AECM是在NS模塊之後通過獲取clean與noise數據進行分析，AEC則是NS模塊之前直接獲取noise數據進行分析。

音頻數據完成AEC與NS的處理後會進行 AGC 處理，其包括 AAGC（模擬域的自動增益控制）與DAGC（數字域的自動增益控制）。其中AAGC的主要作用是通過系統的採集音量設置介面調整輸入信號（大多用於PC端，移動端一般沒有輸入音量的系統介面），如藉助Windows上的的API調整採集音量等參數。AAGC可為輸入的音頻數據帶來明顯的質量優化，如提高信噪比，避免輸入信號溢出等。但由於我們服務的跨平台要求，我們需要構建一個面向多平台設備的框架，在不同的輸入平台和設備都會有不同的輸入音量，DAGC可以根據對輸入信號的跟蹤，盡量的調整信號到達期望大小(幅值或能量)，從而避免不同設備採集帶來的音量差異過大。完成AGC處理的音頻數據，即可進入Audio Encode進行編碼操作。

1.場景一致：多個app之間，一個場景一次性測試稱為一組。

2.設備一致：同樣的手機

3.手機音量一致：開始測試前確認手機音量是最大少一格（每個app可能打開關閉時候音量會有變化，需要修改手機設備音量）。

4.網路一致：手機連接網路一致

5.設備位置一致：手機與音響的位置需要固定

6.調音台不能放地上：地下有強電纜，會產生電磁干擾，造成較大低雜訊。測試aec的時候，需要將功放與調音台的連線斷開，並關閉功放。同時還需要消除台式機的靜電，否則也容易因為電流而產生底噪。

Adobe Audition 是一款音頻處理軟體，擁有先進的音頻混合、編輯、控制和效果處理功能，在音頻測試過程中經常用到。

涉及到的功能：

1.響度

2. 頻譜分析

3. 結合頻譜和音軌進行k歌伴奏人聲延遲測試

4.音頻降噪

② 語音識別演算法有哪些

DTW 特定人識別
HMM 非特定人識別
GMM
神經網路

③ 語音信號預處理

MFCC是計算語音信號的Mel頻率倒譜系數,Mel頻率是基於人耳聽覺特性提出來的，它與Hz頻率成非線性對應關系。Mel頻率倒譜系數(MFCC)則是利用它們之間的這種關系，計算得到的Hz頻譜特徵，MFCC已經廣泛地應用在語音識別領域。由於Mel頻率與Hz頻率之間非線性的對應關系，使得MFCC隨著頻率的提高，其計算精度隨之下降。因此，在應用中常常只使用低頻MFCC，而丟棄中高頻MFCC。

MFCC參數的提取包括以下幾個步驟：
 預濾波（低通）：前端帶寬為300-3400Hz的抗混疊濾波器。
 A/D變換：采樣頻率，線性量化精度。
 預加重：通過一個一階有限激勵響應高通濾波器，使信號的頻譜變得平坦，不易受到有限字長效應的影響。
 分幀：根據語音的短時平穩特性，語音可以以幀為單位進行處理，實驗中選取的語音幀長為32ms，幀疊為16ms。
 加窗：採用哈明窗對一幀語音加窗，以減小吉布斯效應的影響。
 快速傅立葉變換（Fast Fourier Transformation, FFT）：將時域信號變換成為信號的功率譜。
 三角窗濾波：用一組Mel頻標上線性分布的三角窗濾波器（共24個三角窗濾波器），對信號的功率譜濾波，每一個三角窗濾波器覆蓋的范圍都近似於人耳的一個臨界帶寬，以此來模擬人耳的掩蔽效應。
 求對數：三角窗濾波器組的輸出求取對數，可以得到近似於同態變換的結果。
 離散餘弦變換（Discrete Cosine Transformation, DCT）：去除各維信號之間的相關性，將信號映射到低維空間。
 譜加權：由於倒譜的低階參數易受說話人特性、信道特性等的影響，而高階參數的分辨能力比較低，所以需要進行譜加權，抑制其低階和高階參數。
 倒譜均值減（Cepstrum Mean Subtraction, CMS）：CMS可以有效地減小語音輸入信道對特徵參數的影響。
 差分參數：大量實驗表明，在語音特徵中加入表徵語音動態特性的差分參數，能夠提高系統的識別性能。可用到了MFCC參數的一階差分參數和二階差分參數。

采樣前的低通濾波，主要是消除采樣時的頻譜混疊。由硬體完成。
預加重主要是提高高頻的頻譜分量。軟體，硬體都可以完成。

預加重前，也可以用高通濾波器，消除低頻噪音。

如果計算mfcc是有了預加重。之前的預加重就不要做。

采樣前的硬體低通濾波是一定要做的。

計算mfcc時的濾波，看起的作用是什麼？如果是進一步消除噪音，那就必須做。

④ 什麼是2A(3A)演算法

3A演算法主要包括3項：
AWB：自動白平衡；AF：自動聚焦； AE：自動曝光

⑤ 什麼是3a演算法

「3A演算法理解 3A技術即自動對焦(AF)、自動曝光(AE)和自動白平衡(AWB)。3A數字成像技術利用了AF自動對焦演算法、AE自動曝光演算法及AWB 自動白平衡演算法來實現圖像對比度最大、改善主體拍攝物過曝光或曝光不足情況、使畫面在不同光線照射下的色差得到補償,從而呈現較高畫質的圖像信息。」

⑥ 文本、語音相似度演算法

前段時間公司項目用到了語音識別,圖像識別,視頻識別等,其實不能說是識別,應該說是相似度對比吧,畢竟相似度對比還上升不了到識別哈,等以後有了更深的理解再來討論修改下!這次就當做一個總結吧!

其實它的原理和視頻圖像相似度演算法類似，將一系列的向量,特徵,權重,進行合並,然後降維降到一維,其實這個演算法也就是採用降維技術,將所有的特徵都用一個唯一標識來表示.然後這個標識是經過這個演算法內部的計算,再利用海明距離計算相似度，視頻和圖片是經過漢明距離計算的

文本我們是採用simhash演算法：

1.我們給文本裡面的詞進行分詞,我們是用ik演算法,這個演算法就是while循環,讀取一行,然後調用ik智能分詞的類,智能去切割裡面的分詞;

2.根據裡面的詞頻,simhash演算法會加一個權重,當然,得詞頻達到多少個的時候才會有有權重,這也是它的缺點,一般文本數據較少的時候,他是不準確的,一般數據量在500+;演算法內部的話會將一系列的向量,特徵,權重,進行合並,然後降維降到一維,其實這個演算法也就是採用降維技術,將所有的特徵都用一個唯一標識來表示.然後這個標識是經過這個演算法內部的計算,然後得到的一個指紋簽名；

3.然後對比兩個文本的相似度就是將兩個指紋簽名進行海明距離計算,如果海明距離<8(根據業務和場景去判斷這個值，8是建議，參考)的話,表示兩個相似,小於3的話.表示兩個文本重復.

simhash演算法我們還可以做語音相似度,它的基本原理就是根據傅里葉變換處理得到聲波的形狀。

語音的坡度如果向上我們就用1表示,向下我們就用0表示,這樣的話,我們也可以用二進制碼去描述一首歌曲.得到一個唯一的指紋簽名,對比兩個音頻的相似度就是將兩個指紋簽名進行海明距離計算<8的話,我們就默認兩個音頻相似.

總結：都是把特徵降到一維，然後採用海明距離計算。計算的值小於多少時，就當做是相似。我這邊講的太淺了，實在領悟有限，時間有限，觸摸不深，等下次有新的領悟再來補充！

⑦ NetEq中DSP模塊音頻演算法探究

netEQ是webrtc中動態抖動緩沖區和錯誤隱藏的演算法，用來消除因為網路抖動或者丟包。在保持高質量通話的同時，兼顧數據的低延時。其中，兩大模塊分別為MCU、DSP。

MCU（Micro Control Unit）模塊是抖動緩沖區的微控制單元，由於抖動緩沖區作用是暫存接收到的數據包，因此 MCU 的主要作用是安排數據包的插入並控制數據包的輸出。數據包的插入主要是確定來自網路的新到達的數據包在緩沖區中的插入位置，而控制數據包的輸出則要考慮什麼時候需要輸出數據，以及輸出哪一個插槽的數據包。

DSP（digital signal processing）模塊是信號處理單元，主要負責對從 MCU 中提取出來的 PCM 源數據包進行數字信號處理。

本文將針對DSP模塊中設計到的相關演算法以及具體處理過程做詳細介紹和分析。

這里解釋一下DSP處理中幾個操作類型的意義：

加速 Accelerate： 變聲不變調的加速播放演算法

慢速 PreemptiveExpand： 變聲不變調的減速播放演算法

正常 Normal： 正常的解碼播放，不額外引入假數據

融合 Merge： 如果上一次是 Expand 造假出來的數據，那為了聽起來更舒服一些，會跟正常數據包做一次融合演算法

丟包隱藏 Expand（Packet Loss Concealment）： 丟包補償，最重要的無中生有演算法模塊，解決「真丟包」時沒數據的問題，造假專業戶

舒適噪音 ComfortNoise： 是用來產生舒適雜訊的，比單純的靜音包聽起來會更舒服的靜音狀態

a. 基音，指的是物體震動時所發出的頻率最低的音，其餘為泛音。也就是發音體整段震動，它攜帶著語音中的大部分能量。

b. 基音周期，聲音震動波形的周期，其頻率則為基頻。基音周期是語音處理演算法中的基本單位，是語音估計中的關鍵參數。

c. 基音檢測，是對基音周期的估計，目的是得出和聲音震動頻率完全一致的基音周期長度。

d. 短時自相關函數法，webrtc中用於基因檢測的方法。經典的短時自相關函數法進行基音檢測時，是使用一個窗函數，窗不動，語音信號移動。通過比較原始信號和他位移後的信號之間的相似性來確定基音周期，如果移位距離等於基音周期，那麼兩個信號便具有最大相似性。窗口長度N的選擇至少要大於基音周期的兩倍，N越大，得出的基音周期越准確，但計算量也會相應增加。反之，N越小，誤差越大，計算量越小。

e. WSOLA，Waveform Similarity Over-Lap Add，波形相似重疊相加法。在不改變語音音調並保證音質的前提下，使語音在時間軸上被拉伸或者壓縮，即變速不變調。
採用分解合成的思想，將原始語音以L為幀間距，以N為幀長進行拆分，以aL為幀間距進行合成，其中a為調整因子。為防止頻譜斷裂或相位不連續，合成時在原始語音信號的采樣點處，相鄰區域[-max, +max]內移動，尋找信號波形相關最大的波形，確定合成位置。

圖中是通過直接拷貝的方式實現慢速播放，造成了時域波形不連續。波形相似疊加法避免了上述問題的出現。

加速處理用來解決數據包在jitterbuffer中累積造成延時過大的情況。使用WSOLA演算法在時域上壓縮語音信號。

已上圖為例，長度為110個樣本。其中B區域為短時自相關函數法中的x(n)，長度相同的移動窗（A區域）為x(n-τ)，以τ為10開始移動，最大為100。在此過程中以拋物線擬合的方式求出相關性最大時的移動距離τ，進而得到該幀的基音周期P。

計算該數據流，中心點，前後兩個基音周期的相關性bestCorr。當相關性大於0.9，將兩個基音周期交叉混合並輸出；否則，按照正常處理直接輸出。

加速處理就是將兩個基音混合成一個個並代替原有的兩個基音來縮短語音長度。

加速後的語音數據存於neteq演算法緩沖區algorithm_buffer中。

neteq/accelerate.cc

減速處理用來解決網路狀況不好而導致音頻數據比較少時，為了人耳聽覺的連續性，使用WSOLA演算法在時域上拉伸信號，來延長網路等待時間。

過程與加速過程類似

減速處理是將兩個基音混合成一個，並插入到兩個基音中間來延長語音長度。因此，經過減速處理的語音幀增加了一個基音周期的時長。

減速後的語音數據存於neteq演算法緩沖區algorithm_buffer中。

neteq/preemptive_expand.cc

當音頻數據丟失，會利用參考數據在演算法緩沖區中創建、補齊缺失內容，實現丟包隱藏，保證聽覺體驗。

上圖中，丟包隱藏使用語音緩沖區中最新的256個樣本作為參考數據源，並將這些數據記為speechHistory（歷史數據）。speechHistory用於連續PLC的場景。

neteq/expand.cc

融合處理發生在播放的上一幀與當前數據幀不連續的情況。比如，上一幀為PLC幀，當前幀為正常幀。

neteq/merge.cc

正常處理一般用於提取的數據包剛好符合播放要求，然後將此包解碼後直接輸出到speech buffer等待播放。如果上次處理是PLC，還需要進行平滑。

neteq/normal.cc

rfc 3389。結合語音活動檢測演算法的舒適噪音生成可快速確定靜音出現的時間，並在出現靜音時產生人工噪音，直到語音活動重新恢復為止。產生的人工噪音可形成傳輸流不間斷的假象，因此電話中的背景聲音會從始至終保持連續，接聽者不會有電話掉線的感覺。

neteq/comfort_noise.cc

參考

https://blog.csdn.net/liuxiaoheng1992/article/details/79379514

https://nemocdz.github.io/post/淺談-webrtc-neteq/#丟包補償-1

《WebRTC語音引擎中NetEq技術的研究》吳江銳

⑧ 開語音廳做不好什麼原因

音質的要求更高。
1、整體穩定的技術。1對1語聊的技術門檻相對較低，多人語聊和特定場景相對復雜，技術實現難度比較大。以pia戲為例，如果經常出現卡頓、延遲和聽不清的情況，會將營造的劇情氣氛破壞殆盡，主播時不時要退出重新登錄，無法全身心投入，用戶聽到的是斷斷續續的聲音，不能沉浸到劇情中。即構自研的音視頻引擎，通過抖動緩沖技術、前向糾錯技術、丟幀補償技術減少網路抖動和弱網環境下的延遲，保障語音通話低延時且清晰。讓用戶在復雜網路環境和多類型手機的情況下，也能實現暢通優質的語音通話。
2、多人聊天的語音前處理以KTV語聊房為例，在房間當中，有人說話聲音、歌聲、伴奏都在房間呈現，每個人所處的地方，所用的設備也不一樣，這就有很大可能出現回聲、噪音，或是某個人設備不是很好，發出的聲音很小。即構成熟的語音前處理3A技術：回聲消除（AEC）、噪音抑制（ANS）、音量增益（AGC），杜絕回聲和嘯叫，降噪而無損音質。這樣歌者能展示甜美歌聲，聽眾也有良好的聽覺享受。
3、媒體次要信息同步而在KTV類的場景中，AB兩人輪麥合唱，如果輪到B唱歌時發現歌詞沒同步，就很難唱下去。這當中技術難點就在於歌詞等媒體次要信息是否能做到同步。即構的KTV解決方案中，支持將非媒體信息注入媒體流中，歌詞等媒體次要信息和音視頻信息放在同一個媒體通道傳輸的，做到歌詞與歌聲同步展示果。

⑨ 語音增強的方法分類

常用的語音增強演算法分為如下幾類：基於譜相減的語音增強演算法、基於小波分析的語音增強演算法、基於卡爾曼濾波的語音增強演算法、基於信號子空間的增強方法、基於聽覺掩蔽效應的語音增強方法、基於獨立分量分析的語音增強方法、基於神經網路的語音增強方法。這里只是介紹一下各種語音增強方法流程，待確定方向之後再深入研究。
語音增強不但與語音信號數字處理理論有關，而且涉及到人的聽覺感知和語音學范疇。再者，雜訊的來源眾多，因應用場合而異，它們的特性也各不相同。所以必須針對不同雜訊，採用不同的語音增強對策。某些語音增強演算法在實際應用中己經證明是有效的，它們大體上可分為四類：雜訊對消法、諧波增強法、基於參數估計的語音再合成法和基於語音短時譜估計的增強演算法。

⑩ ROCWARE RC08測評：當國產攝像頭開始內卷

「我們還是用手機視頻聊吧，你電腦的畫面太朦朧了。」

不同於手機攝像頭「軍事競賽」般的快速升級，電腦的攝像頭過得更像是一個小透明，不僅發布會鮮有提及，1080P畫質的攝像頭也僅出現在少數幾款旗艦筆記本電腦上。由於應用場景固定，用戶使用率低，以至於在2018年到2020年間還出現了不帶攝像頭的筆記本電腦。

兩者處境好比一個生在羅馬，一個生如騾馬。但是在後疫情時代，視頻會議、線上辦公、遠程教育需求激增，相比升級手上的設備，更為經濟的外設攝像頭重回消費者視野。

由於全球公共衛生事件，PC外設攝像頭的出貨量和訂單獲得極大增長，僅2020年同比增幅就超過200%，成為在線教育、遠程辦公等市場的新寵。除了基礎的高畫質，消費者對外設攝像頭的麥克風等外圍配置提出了更高的要求。值得注意的是，對於不少沒有配備揚聲器的辦公電腦用戶而言，甚至希望外設攝像頭配備揚聲器以彌補硬體劣勢，但是市面上一直缺少相關產品。

ROCWARE作為國內著名的音視頻通信設備及解決方案供應商——維海德的旗下品牌，較早地意識到市場變化，率先推出RC08 Mini全高清 USB音視頻一體化攝像機（下文簡稱RC08），集成1080P攝像頭、麥克風、全頻揚聲器，是市面上極少有的三合一產品。它不僅可以用於代替筆記本電腦的內置攝像頭，還能用來作為台式機配置的補充，以及更加精準的定位，算是為外設攝像頭市場開了一個好頭。

更商務的外觀，更適合如今的時代

上次使用外設攝像頭還是在15年前，一根可彎折的金屬支架以及一個水滴造型的攝像頭，紅色的工程塑料機身，今天看來十分模糊的畫質，但依然是那個時代的代表，甚至標配。

對比數年前的同類設備，RC08看起來要先進很多，因為它集合了1080P全高清攝像頭，全向麥克風、全頻揚聲器為一體。

RC08左側開孔為攝像頭，還配有TOF激光輔助自動對焦系統，這種配置在高端智能手機上出現的比較多，可大大提升鏡頭對焦速度。右側開孔為揚聲器，這是我個人很喜歡的一項配置，因為在不使用攝像頭的時候，RC08甚至可以充當一個小音箱使用。

機身背面有一個Type-C介面和一個觸摸按鍵，短按實現快速靜音，長按8秒可進行橫豎屏切換，這是一款支持豎屏模式的攝像頭，這項功能在同價位攝像頭中是極為少見的。

但是有一點，這顆觸摸按鍵在操作過程中不會像傳統按鍵給出反饋，是否靜音，是否成功切換模式，都是通過機身中央的狀態指示燈給出的提示進行判斷，而且按鍵表面的指紋圖案容易讓人將其錯認為指紋按鍵。如果允許，建議之後的產品提升按鍵的反饋力度，這樣盲操作也更為便利。除了攝像頭的基礎配置和功能，RC08本身配有阻尼旋轉軸支架，支持360 旋轉。

在細節上，RC08攝像頭內置隱私滑蓋，保護隱私安全，設計之用心可見一斑。

這款攝像頭相當於結合了三種設備，所以RC08與其說是一款外設攝像頭，看起來更像是一種復合型產品，所以它的應用場景遠不止給電腦充當外設攝像頭。

全高清畫質依舊是立生之本

對於攝像頭這種產品，RC08擴展多功能是一件好事，至少對於消費者來說，攝像頭有了更為豐富的應用場景。但是究其本質，輸出高清畫質依然是第一要務。

RC08最高支持1920 x 1080解析度，以及最高1080P 30幀視頻輸出，這樣的畫質是可以滿足今天視頻會議、遠程教育、線上辦公以及部分直播需求。這樣說可能沒感覺，如果對比現在的筆記本電腦的內置攝像頭，就會有非常明顯的體現。

下面這組圖是RC08和2021款高端筆記本，在同一場景下的攝像頭畫質對比，先使用筆記本的內置攝像頭拍攝，然後再給這款筆記本連接上RC08，進行第二次拍攝。

電腦內置攝像頭拍攝

RC08拍攝

對比結果高下立判，這組樣張拍攝於傍晚，有陽光照進房間，RC08輸出的畫面為1080P，筆記本內置攝像頭的畫面解析度僅為720P，不只是清晰度，亮度完全不在一個檔次上，電腦內置的攝像頭甚至不能很好地還原當時的人物和環境色彩，而RC08依託於畫質優化技術，使得不僅是人物的精神面貌，背景牆的紋理細節也有很好的呈現。

攝像頭拍攝的畫面，基本就是對方看到的畫面，不管是出於社交、辦公，還是求職，一個高素質攝像頭帶來的意義遠超於其本身。

另外，由於RC08支持90 廣角視野，使其可以用於多人同框聊天。或許我們可以想像這樣一個場景，將RC08裝在台式機或是其他帶有USB插口的大屏設備上，設置輸出設備後，你和你的團隊、同事、朋友等同屏與對方進行視頻會議或視頻聊天，而不用狼狽地擠在一個屏幕前，其意義和效果不亞於智能手機使用的廣角前置鏡頭。

除了提升視頻通話體驗，RC08較高的鏡頭素質使其也能應對部分直播需求。

為了更好地模擬直播效果，使用現在主流的OBS Studio進行測試，將視頻來源採集設備設置為RC08後，電腦便可以採集真正1920 x 1080解析度的畫面。這樣在直播，線上教學時能夠給對方更清晰畫面的顯示，例如在直播上課時，1080P的畫面可以將板書或者習題更清楚地展示出來，學生也能更好地學習和做筆記。

電腦攝像頭預覽和輸出的畫面

RC08預覽和輸出的畫面

對比採集電腦內置攝像頭的畫面，結果同樣表現明顯，RC08採集的畫面無論是在清晰度、亮度、色彩都要好於內置攝像頭。即便選擇直播軟體預設的2880 x 1880這樣的基礎和輸出解析度，RC08也能有不錯的畫質表現，不過畫幅會有所縮小，畢竟攝像頭的上限擺在這里。

所以就畫質而言，RC08的表現要明顯好於電腦內置的攝像頭，1080P的畫質表現也足以應對線上辦公、遠程教育和部分直播需要。

是攝像頭，亦是小音箱

對於RC08，我真正的沒想到的是它竟然還標配了一個全頻揚聲器。

這款攝像頭十分小巧輕盈，意味著它的音腔不會很大，在這么小的體積下要擁有一個響度足夠大，音質足夠好的外放表現是存在一定難度的。但是RC08實際外放效果意外地還不錯，對於沒有配備揚聲器的辦公電腦是一種很好的功能補充。

RC08能實現還不錯的外放效果，一方面在於RC08配備了一個全頻揚聲器，這種揚聲器的優勢在於所有的聲音都由一個單元發出，幾乎不存在相位失真，可以保證音色一致，聲音的凝聚力、結像表現好，不存在不同單元的聲音的干擾。另一方面在於RC08內置的風管式音腔，進一步提升外放，這種類型音腔一般出現在與電視搭配的條形音箱上，盡管由於尺寸受限無法相提並論，但在攝像頭產品中，已屬於降維打擊。

相對的，全頻揚聲器高中低三頻頻率范圍難以兼顧，要做一個高中低頻都很好的全頻，成本代價很高，而且最佳表現功率范圍相對比較窄。

但畢竟承載主體是一款外設攝像頭，全頻揚聲器提供的外放表現用於聽歌、看視頻以及對話聆聽綽綽有餘，這幾天聽歌、玩游戲，我都是使用RC08自帶的揚聲器，還挺帶感。

或許很多人都不知道，對於一個攝像頭來說，要添加上揚聲器並不能簡單地做1+1加法，還需要深厚的技術實力。

因為當外設攝像頭配備了揚聲器後，要注意另外一個問題——回聲。在視頻會議時，揚聲器發出的聲音很容易被近在咫尺的麥克風所拾取而形成回聲。市面上的同類產品往往會將麥克風放置在機身後側或側面，避免兩者同側出現。但是RC08能將麥克風和揚聲器放在同側，那麼它是怎麼解決回聲問題的？

依靠多年在音視頻領域的研發經驗，RC08有一套自研的音頻3A演算法，其中回聲消除（AEC）技術，能夠建立一個語音模型對回聲進行評估，然後不斷地修改濾波器系數，讓建立的語音模型估計值接近真實回聲值。最後再將回聲估計值從麥克風的輸入信號中相互抵消，從而達到消除回聲的目的。

而且RC08內置的ROCWARE自研的音頻3A演算法能解決的也不只是回聲。

當環境存在噪音時，自動雜訊消除(ANS)技術自動激活，對於這項技術你大可將其簡單理解成「給RC08戴了一個降噪耳機」，對有干擾的聲音信號進行壓制消除，同時改善語音信號的信噪比和語音清晰度，讓人與機器都能聽得清。

還有自動增益控制（AGC）技術，可自動調整聲音范圍，說話的聲音偏小時，自動放大語音信號，偏大時則自動抑制，保證輸出的聲音平穩。

所以對於RC08來說，它所需要的演算法比同類產品更為復雜，對演算法技術的要求自然也就更高。

除了畫質和拾音，還有什麼？

現在的外設攝像頭除了畫質本身，為了適應市場需求，需要具備比過去同類產品更為豐富的功能，例如豎屏模式和TOF激光輔助自動對焦。

長按RC08背面的按鍵8秒，前方狀態燈從藍色變為紫色，攝像頭自動重啟後表示成功轉換為豎屏模式。在該模式下，RC08同樣支持1080P拍攝以及1080P 30幀視頻錄制。值得注意的是，RC08豎屏模式下的解析度依舊是1080 x 1920，而非簡單裁剪畫面。

豎屏模式下拍攝

這項功能不僅可用於視頻聊天，還讓RC08可用於一定場景下的短視頻拍攝，甚至可以用於微博、抖音、快手等平台的直播，進一步拓展了外設攝像頭的應用場景。

有一說一，這項功能不僅是在同價位產品，甚至在同類型產品非常少見的。尤其是當你需要坐下來，用電腦給別人手機打視頻電話的時候，豎屏狀態下錄制的畫面可以占滿對方手機全屏，而橫屏未必，這也是為適應當下移動互聯網變化做出的升級。

視頻載入中...

除了豎屏模式之外，RC08的TOF激光輔助自動對焦系統也是一個亮點。TOF激光輔助自動對焦系統是一些高端智能手機上常見的配置，在RC08這樣的攝像頭上搭載我們還是第一次看到。從原理上看，TOF激光輔助對焦系統能夠幫助攝像頭的自動對焦實現更為快速而精準的對焦，那麼RC08的實際對焦表現怎樣呢？從上面的視頻我們能看到即便用戶在畫面前做出一些動作，攝像頭也能快速對焦，保證不虛焦，讓畫面保持清晰。

不過，由於RC08本身沒有標配補光燈，如果有需要的話，仍需額外選購相關設備。還有一點，有些用戶使用的顯示器比較厚，可能不太方便放置攝像頭。所以RC08支架底部留了一個三腳架標准螺絲孔位，方便用戶自己加裝支架。

值得注意的是，RC08本身支持免驅安裝，即插即用，而且這款攝像頭支持標准PTZ指令，可以通過ROCWARE控制軟體調整亮度、白平衡、變焦等。不過在連接電腦後，支持標准PTZ指令的社交軟體、會議軟體、直播軟體等，同樣可以設置攝像頭畫面。所以，不用拘泥於攝像頭本身的操作軟體。

一款標準的復合型產品

在用上RC08之前，我一直以為這就是一個普通的外設攝像頭，但沒想到它卻是一個結合攝像頭、揚聲器和麥克風的復合型產品，它所發揮的作用高於外設攝像頭這個品類。

綜合來看，RC08是一款非常少見的優秀音視頻一體的攝像頭，是專業製造商技術下沉市場的結果，而且對於之後的外設攝像頭來說，RC08更是一款在設計思路上值得借鑒的產品。

使用到今天，我已經習慣了有一個攝像頭放置於我的顯示器之上，或許這樣一款外置攝像頭將很快成為大多數人的標配外設。RC08清晰的畫面、完整地拾音、不錯的外放，加上399元的價格，作為一個需要經常與人視頻會議的上班族來說，這是一個具有很高性價比的辦公配置，何況電商平台還會有活動。即便平日不用，放在辦公室，甚至家中備用也非常合適，加上豎屏模式的存在，讓RC08也很適合網路主播使用。

導航:首頁 > 源碼編譯 > 語音處理3a演算法

語音處理3a演算法

與語音處理3a演算法相關的資料