常用的時域基音檢測演算法有哪些_怎樣對聲音素材進行刪除合並

㈠ NetEq中DSP模塊音頻演算法探究

netEQ是webrtc中動態抖動緩沖區和錯誤隱藏的演算法，用來消除因為網路抖動或者丟包。在保持高質量通話的同時，兼顧數據的低延時。其中，兩大模塊分別為MCU、DSP。

MCU（Micro Control Unit）模塊是抖動緩沖區的微控制單元，由於抖動緩沖區作用是暫存接收到的數據包，因此 MCU 的主要作用是安排數據包的插入並控制數據包的輸出。數據包的插入主要是確定來自網路的新到達的數據包在緩沖區中的插入位置，而控制數據包的輸出則要考慮什麼時候需要輸出數據，以及輸出哪一個插槽的數據包。

DSP（digital signal processing）模塊是信號處理單元，主要負責對從 MCU 中提取出來的 PCM 源數據包進行數字信號處理。

本文將針對DSP模塊中設計到的相關演算法以及具體處理過程做詳細介紹和分析。

這里解釋一下DSP處理中幾個操作類型的意義：

加速 Accelerate： 變聲不變調的加速播放演算法

慢速 PreemptiveExpand： 變聲不變調的減速播放演算法

正常 Normal： 正常的解碼播放，不額外引入假數據

融合 Merge： 如果上一次是 Expand 造假出來的數據，那為了聽起來更舒服一些，會跟正常數據包做一次融合演算法

丟包隱藏 Expand（Packet Loss Concealment）： 丟包補償，最重要的無中生有演算法模塊，解決「真丟包」時沒數據的問題，造假專業戶

舒適噪音 ComfortNoise： 是用來產生舒適雜訊的，比單純的靜音包聽起來會更舒服的靜音狀態

a. 基音，指的是物體震動時所發出的頻率最低的音，其餘為泛音。也就是發音體整段震動，它攜帶著語音中的大部分能量。

b. 基音周期，聲音震動波形的周期，其頻率則為基頻。基音周期是語音處理演算法中的基本單位，是語音估計中的關鍵參數。

c. 基音檢測，是對基音周期的估計，目的是得出和聲音震動頻率完全一致的基音周期長度。

d. 短時自相關函數法，webrtc中用於基因檢測的方法。經典的短時自相關函數法進行基音檢測時，是使用一個窗函數，窗不動，語音信號移動。通過比較原始信號和他位移後的信號之間的相似性來確定基音周期，如果移位距離等於基音周期，那麼兩個信號便具有最大相似性。窗口長度N的選擇至少要大於基音周期的兩倍，N越大，得出的基音周期越准確，但計算量也會相應增加。反之，N越小，誤差越大，計算量越小。

e. WSOLA，Waveform Similarity Over-Lap Add，波形相似重疊相加法。在不改變語音音調並保證音質的前提下，使語音在時間軸上被拉伸或者壓縮，即變速不變調。
採用分解合成的思想，將原始語音以L為幀間距，以N為幀長進行拆分，以aL為幀間距進行合成，其中a為調整因子。為防止頻譜斷裂或相位不連續，合成時在原始語音信號的采樣點處，相鄰區域[-max, +max]內移動，尋找信號波形相關最大的波形，確定合成位置。

圖中是通過直接拷貝的方式實現慢速播放，造成了時域波形不連續。波形相似疊加法避免了上述問題的出現。

加速處理用來解決數據包在jitterbuffer中累積造成延時過大的情況。使用WSOLA演算法在時域上壓縮語音信號。

已上圖為例，長度為110個樣本。其中B區域為短時自相關函數法中的x(n)，長度相同的移動窗（A區域）為x(n-τ)，以τ為10開始移動，最大為100。在此過程中以拋物線擬合的方式求出相關性最大時的移動距離τ，進而得到該幀的基音周期P。

計算該數據流，中心點，前後兩個基音周期的相關性bestCorr。當相關性大於0.9，將兩個基音周期交叉混合並輸出；否則，按照正常處理直接輸出。

加速處理就是將兩個基音混合成一個個並代替原有的兩個基音來縮短語音長度。

加速後的語音數據存於neteq演算法緩沖區algorithm_buffer中。

neteq/accelerate.cc

減速處理用來解決網路狀況不好而導致音頻數據比較少時，為了人耳聽覺的連續性，使用WSOLA演算法在時域上拉伸信號，來延長網路等待時間。

過程與加速過程類似

減速處理是將兩個基音混合成一個，並插入到兩個基音中間來延長語音長度。因此，經過減速處理的語音幀增加了一個基音周期的時長。

減速後的語音數據存於neteq演算法緩沖區algorithm_buffer中。

neteq/preemptive_expand.cc

當音頻數據丟失，會利用參考數據在演算法緩沖區中創建、補齊缺失內容，實現丟包隱藏，保證聽覺體驗。

上圖中，丟包隱藏使用語音緩沖區中最新的256個樣本作為參考數據源，並將這些數據記為speechHistory（歷史數據）。speechHistory用於連續PLC的場景。

neteq/expand.cc

融合處理發生在播放的上一幀與當前數據幀不連續的情況。比如，上一幀為PLC幀，當前幀為正常幀。

neteq/merge.cc

正常處理一般用於提取的數據包剛好符合播放要求，然後將此包解碼後直接輸出到speech buffer等待播放。如果上次處理是PLC，還需要進行平滑。

neteq/normal.cc

rfc 3389。結合語音活動檢測演算法的舒適噪音生成可快速確定靜音出現的時間，並在出現靜音時產生人工噪音，直到語音活動重新恢復為止。產生的人工噪音可形成傳輸流不間斷的假象，因此電話中的背景聲音會從始至終保持連續，接聽者不會有電話掉線的感覺。

neteq/comfort_noise.cc

參考

https://blog.csdn.net/liuxiaoheng1992/article/details/79379514

https://nemocdz.github.io/post/淺談-webrtc-neteq/#丟包補償-1

《WebRTC語音引擎中NetEq技術的研究》吳江銳

㈡怎樣對聲音素材進行刪除.合並,復制處理

第5章音頻素材製作與處理

本章主要學習音頻相關的基礎知識，包括模擬音頻與數字音頻的概念和各自的特點；數字音頻所具有的優勢；模擬音頻轉換為數字音頻的過程和技術指標；常用的數字音頻文件格式；語音合成技術與識別技術的基本原理。本章需要在實驗環節掌握Adobe Audition 2.0音頻處理軟體的基本操作，主要包括錄音、編輯和效果處理三個方面。

& 學習指導

1、模擬音頻聲音是振動的波，是隨時間連續變化的物理量。因此，自然界的聲音信號是連續的模擬信號，即模擬音頻信號。

聲波與普通波形一樣，可以用三個物理量來描述：振幅、周期和頻率。

（1）振幅：振幅是聲音波形振動的幅度，表示聲音的強弱。

（2）周期：周期是聲音波形完成一次全振動的時間。

（3）頻率：頻率是聲音波形在一秒鍾內完成全振動的次數，表示聲音的音調。

聲音具有三個要素：音調、音色和音強。

（1）音調：音調代表聲音的高低。與頻率有關，頻率越高，音調越高。

（2）音色：音色是聲音的特色。聲音分純音和復音兩種類型。純音的振幅和周期均為常數；復音是具有不同頻率和不同振幅的混合聲音，是影響聲音特色的主要因素。自然界的大部分聲音是復音。在復音中，頻率最低的聲音是「基音」，是聲音的基調。其他頻率的聲音是「諧音」。基音和諧音是構成聲音音色的重要因素。人的聲音、其它生物的聲音以及自然界各種聲響都具有自己獨特的音色。人們往往是依據音色來辨別聲源種類的。

（3）音強：音強是聲音的強度。音強與聲波的振幅成正比，振幅越大，音強越大。

2、模擬音頻的特點

（1）頻率范圍：模擬音頻信號由許多頻率不同的信號組成，每個信號都有各自的頻率范圍，稱為「頻域」或「頻帶」。人耳可聽到的聲音頻率在20Hz-20KHz之間，稱為「可聽域」。頻率高於20KHz的聲音信號稱為「超音頻信號」，頻率低於20Hz的聲音信號稱為「亞音信號」或者「次音信號」。多媒體技術所處理的聲音信號主要是20Hz-20KHz的音頻信號，它包括音樂、語音及自然界的各種聲響。另外，不同種類的聲源頻帶是不同的，例如人類語音頻帶在100Hz -10KHz；高級音響設備頻帶在20Hz-20KHz；而寬頻音響設備的頻帶在10Hz-40KHz。總之，頻帶越寬聲音的表現力越好。

（2）模擬音頻具有連續性。

（3）模擬音頻抗干擾能力差：模擬信號的一個重要的缺點就是雜訊容限較低，抗干擾能力差，雜訊是影響模擬音頻錄音質量的重要原因。音頻信號幅度與雜訊幅度的比值越大越好。音響放大器和揚聲器等還原設備的質量能夠直接影響重放的音質。音質與音色和頻率范圍有關。悅耳的音色、寬廣的頻率范圍，能夠獲得更好的音質。

3、數字音頻數字音頻是以二進制的方式記錄的音頻，是模擬音頻的數字化表達。

4、數字音頻的優勢相比模擬音頻信號，數字音頻信號具有很多優勢。

（1）在聲音存儲方面。模擬音頻記錄在磁帶或者唱片等模擬介質中。模擬介質難保存、易老化，造成音質下降。同時，磁帶的存儲效率很低，音頻錄制往往需要大量的磁帶介質進行存儲，成本很高。數字音頻可以文件的形式存儲在光存儲介質或磁存儲介質中，可以實現永久保存，並且存儲成低。

（2）在聲音處理方面。模擬音頻錄制難度高，需要盡量做到一次成功，後期處理難度大。數字音頻技術在聲音處理方面具有極大的優勢，在後期的音頻處理過程中，可以非常容易地進行多種修正以及加工。

（3）在聲音的壓縮方面。模擬音頻的壓縮率很難提高。數字音頻的壓縮優勢明顯。例如目前流行的MP3音頻格式，壓縮率達到10％左右的同時還能保持良好的音質，利於在互聯網上傳播。

5、模擬音頻/數字音頻轉換模擬音頻信號轉換為數字音頻信號的過程就是對於模擬音頻信號的數字化過程。模擬音頻信號的數字化過程與普通模擬信號數字化過程類似，需要三個步驟：采樣、量化和編碼。

（1）采樣：采樣就是每隔一定的時間間隔T，抽取模擬音頻信號的一個瞬時幅度值樣本，實現對模擬音頻信號在時間上的離散化處理。

（2）量化：量化就是將采樣後的聲音幅度劃分成為多個幅度區間，將落入同一區間的采樣樣本量化為同一個值。量化實現了對模擬信號在幅度上的離散化處理。

（3）編碼：編碼就是將采樣和量化之後的音頻信號轉換為「1」和「0」代表的數字信號。

6、模/數轉換質量的技術指標影響模/數轉換後的數字音頻信號質量的技術指標主要包括采樣頻率、采樣精度、聲道數和編碼演算法。

（1）采樣頻率。采樣頻率是對聲音波形每秒鍾進采樣的次數。奈奎斯特理論指出：采樣頻率不應低於模擬音頻信號最高頻率的兩倍，這樣才能將數字化的聲音還原為原始聲音。采樣頻率越高，聲音失真越小，音頻數據量越大。

（2）采樣精度。采樣精度表示對聲音振幅的量化精度，即將聲音波形的幅度劃分為多少個幅度區間。8位量化表示，將聲音波形的幅度劃分為28個區間。

（3）聲道數。聲道數表示同一時間產生的聲音波形數。如果每次生成一個聲波數據，稱為單聲道；每次生成二個聲波數據，稱為立體聲。立體聲表達的聲音效果豐富，但存儲空間會增加一倍。

（4）編碼演算法。編碼演算法的作用一方面是採用一定的格式來記錄數據，二是採用一定的演算法來壓縮數據。壓縮比是壓縮編碼的基本指標，表示壓縮的程度，是壓縮後的音頻數據量與壓縮前的音頻數據量的比值。壓縮程度越大，信息丟失越多、信號還原後失真越大。根據不同的應用，應該選用不同的壓縮編碼演算法。

7、數字音頻的存儲空間模擬音頻數字化過程中的采樣頻率和采樣精度越高，結果越接近原始聲音，但記錄數字聲音所需存儲空間也隨之增加。未經壓縮的音頻文件所需的存儲空間的計算公式如下：

存儲容量（位元組）=（采樣頻率×采樣精度）/8×聲道數×時間

8、數字音頻文件格式數字化音頻以文件的形式存儲在計算機內。由於音頻數字化過程中採用的技術指標不同，產生了不同的音頻文件格式。常見的數字音頻格式如下：

（1）WAV格式。微軟公司開發的一種聲音文件格式，也叫波形聲音文件，是最早的數字音頻格式。

（2）MIDI格式。也稱作樂器數字介面，是數字音樂/電子合成樂器的統一國際標准。MIDI文件中存儲的是一些指令，由音效卡按照指令將聲音合成出來。

（3）CDA格式。CDA格式是CD音樂格式，取樣頻率為44.1kHz，16位量化位數，CDA格式記錄的是波形流，是一種近似無損的格式。

（4）MP3格式。MP3格式是MPEG-1 Audio Layer 3，能夠以高音質、低采樣率對數字音頻文件進行壓縮。

（5）WMA格式。是微軟公司開發的網路音頻格式。

（6）MP4格式。採用了「知覺編碼」壓縮技術，加入了保護版權的編碼技術。MP4的壓縮比高於MP3，但音質卻沒有下降。

（7）QuickTime格式。蘋果公司推出的一種數字流媒體。

（8）RealAudio格式。Real Networks公司推出的一種文件格式，可以實時傳輸音頻信息。RealAudio文件格式主要有RA、RM、RMX三種，能夠隨著網路帶寬的不同而調整聲音的質量，在保證大多數人聽到流暢聲音的前提下，令帶寬較寬的聽眾獲得更好的音質。

（9）VOC格式。常用在DOS程序和游戲中，是隨音效卡一起產生的數字聲音文件。

（10）AU 格式。應用於互聯網上的多媒體聲音，是UNIX操作系統下的數字聲音文件。

（11）MAC格式。蘋果公司開發的聲音文件格式，廣泛應用與Macintosh平台軟體。

（12）AAC格式。是MPEG-2規范的一部分。壓縮能力強、壓縮質量高。可以在比MP3文件縮小30%的前提下提供更好的音質。

9、語音合成語音合成是指利用計算機合成語音的一種技術，使計算機能夠產生高清晰度、高自然度的連續語音，具有類似於人一樣的說話的能力。

語音合成可以通過將預先錄制並存儲的語音信號重新播放來實現。也可以採用數字信號處理的方法，通過激勵一個類似人們發聲時聲道諧振特性的時變數字濾波器，調整濾波器的相關參數，生成各種音調的語音。

語音合成可分為三個層次，分別是文字到語音、概念到語音、意向到語音。要合成出高質量的語言，必須遵循人類語言的表達規則，如語義學規則、詞彙規則、語音學規則。

10、語音合成技術分類按照合成方法分類。分為參數合成法、基音同步疊加法和基於資料庫的語音合成法。

（1）參數合成法。通過調整合成器參數實現語音合成。

（2）基音同步疊加法。通過對時域波形拼接實現語音合成。

（3）基於資料庫的語音合成法。採用預先錄制語音單元並保存在資料庫中，再從資料庫中選擇並拼接出各種語音內容。

按照技術方式分類。分為波形編輯合成、參數分析合成以及規則合成。

（1）波形編輯合成。將語句、短語、詞或音節作為合成單元。這些單元被分別錄音後進行壓縮編碼，組成一個語音庫。重放時，取出相應單元的波形數據，串接或編輯在一起，經解碼還原出語音。這種合成方式也稱為錄音編輯合成。

（2）參數分析合成。以音節、半音節或音素為合成單元。按照語音理論，對所有合成單元的語音進行分析，提取有關語音參數，這些參數經編碼後組成一個合成語音庫；輸出時，根據待合成的語音的信息，從語音庫中取出相應的合成參數，經編輯和連接，順序送入語音合成器。在合成器中，通過合成參數的控制，將語音波形重新還原出來。

（3）規則合成。規則合成存儲的是較小的語音單位，如音素、雙音素、半音節或音節的聲學參數，以及由音素組成音節、再由音節組成詞或句子的各種規則。當輸入字母符號時，合成系統利用規則自動地將它們轉換成連續的語音波形。

11、文語轉換系統文語轉換系統是語音合成的第一個層次，是將文字內容轉換為語音輸出的語音合成系統。

12、語音合成技術的需求和特點語音合成技術具有四個方面的需求和特點：自然度、清晰度、表現力和復雜度。

13、語音識別語音識別技術是讓計算機通過識別和理解，將語音轉變為文本或命令的技術，讓計算機能夠聽懂人類的語言。

14、語音識別系統分類語音識別系統按照其構成與規模有多種不同的分類標准。根據對說話人說話方式的要求，可以分為孤立字語音識別系統，連接字語音識別系統以及連續語音識別系統；根據對說話人的依賴程度可以分為特定人和非特定人語音識別系統；根據詞彙量大小，可以分為小詞彙量、中等詞彙量、大詞彙量以及無限詞彙量語音識別系統。

15、語音識別的關鍵技術語音識別技術主要包括特徵提取技術、模式匹配技術及模型訓練技術。此外，還涉及到語音識別單元的選取。語音識別單元有單詞、音節和音素三種。

（1）特徵提取技術。在豐富的語音信號中提取出對語音識別有用的信息，通過對語音信號進行分析處理，去除對語音識別無關緊要的冗餘信息，獲得影響語音識別的重要信息。

（2）模型訓練技術。按照一定準則，從已知模式中獲取表徵該模式本質特徵的模型參數。

（3）模式匹配技術。根據一定準則，使未知模式與模型庫中的某一個模型獲得最佳匹配。

16、音頻處理軟體Adobe Audition 該軟體是集音頻的錄制、混合、編輯和控制於一身的音頻處理工具軟體。可以輕松創建音樂、製作廣播短片、修復錄制缺陷。基本功能包括以下方面：

（1）錄音。

（2）混音。將不同音軌中的聲音混合在一起，綜合輸出經過混合的聲音效果。

（3）聲音編輯。例如聲音的淡入淡出、聲音移動和剪輯、音調調整、播放速度調整等。

（4）效果處理。軟體帶有不同類型的效果器，如壓縮器、限制器、均衡器、合唱效果器、延遲效果器、回升效果器等，能夠實時處理聲音的效果。

（5）降噪：實現在不影響音質的情況下，去除雜訊。

（6）聲音壓縮。軟體具有支持目前幾乎所有流行的音頻文件類型，並能夠實現類型的轉換和文件壓縮。

（7）協同創作。能夠與多種音樂軟體協同運行，實現音樂創作。

17、音頻處理軟體Adobe Audition基本操作 Adobe Audition 2.0 音頻處理軟體具有三種編輯模式界面，分別是多軌編輯模式、單軌編輯模式以及CD模式。多軌與單軌界面大致可以分為菜單欄、工具欄、文件/效果器列表欄、音軌顯示區、基本功能區和電平顯示區。

常用的音頻編輯方法主要是對音頻波形進行裁剪、切分、合並、鎖定、編組、刪除、復制以及對音頻進行包絡編輯和時間伸縮編輯。

音頻特效處理主要使用各種效果器，主要包括均衡效果處理、混響效果處理、壓限效果處理、延遲效果處理等。

& 習題解析

一、單選題

1．人耳可以聽到的聲音頻率范圍為。

A）20-20kHz
B）200-15 kHz

C）50-20 kHz
D）10-20 kHz

答案：A

解析：人耳聽到的聲音頻帶范圍是有限的，頻率低於20Hz和高於20000Hz的聲音信號人類聽不到，即表示人耳的可聽域在20-20000Hz之間。

2．格式的數字音頻是微軟公司開發的網路音頻格式。

A）WAV
B）WMA

C）MP3
D）RM

答案：B

解析：WMA格式是Windows Media Audio的縮寫，是微軟公司開發的網路音頻格式。其壓縮率一般可以達到1:18。

3．聲音的三個要素中不包括。

A）音調
B）音質

C）音色
D）音強

答案：B

解析：聲音具有三個要素：音調、音色和音強。

4．描述模擬音頻信號的三個物理量中，表示聲音的音調。

A）振幅
B）音色

C）頻率
D）音強

答案：C

解析：自然界的聲音信號是連續的模擬信號，可以用三個物理量來描述：振幅、周期、頻率。其中，頻率是聲音波形在一秒鍾內完成全振動的次數，表示聲音的音調。

5．描述模擬音頻信號的三個物理量中，表示聲音的強弱。

A）振幅
B）音色

C）頻率
D）周期

答案：A

解析：自然界的聲音信號是連續的模擬信號，可以用三個物理量來描述：振幅、周期、頻率。其中，振幅是聲音波形振動的幅度，表示聲音的強弱。

6．人們主要依據聲音的特點來區分和辨別聲源的種類。

A）振幅
B）音色

C）音強
D）音調

答案：B

解析：人的聲音、其它生物的聲音以及自然界各種聲響都具有自己獨特的音色。人們往往是依據音色來辨別聲源種類的。

7．人類語音的頻帶寬度是 Hz。

A）200-3400
B）100-10000

C）20-20000
D）20-15000

答案：B

解析：人類語音的頻帶寬度為100Hz-10000Hz。

8．模擬音頻的聲音質量主要與音色和有關。

A）聲音強度
B）頻率范圍

C）聲音音調
D）基音

答案：B

解析：模擬音頻的聲音質量簡稱「音質」，與音色和頻率范圍有關。悅耳的音色、寬廣的頻率范圍，能夠獲得更好的音質。

9．將模擬聲音信號轉換為數字音頻信號的數字化過程是。

A）采樣→編碼→量化
B）編碼→采樣→量化

C）量化→編碼→采樣
D）采樣→量化→編碼

答案：D

解析：模擬音頻信號的數字化過程與普通模擬信號數字化過程類似，需要三個步驟：采樣、量化和編碼。

10．將模擬音頻信號在時間上進行離散化處理，這一過程叫。

A）量化
B）編碼

C）采樣
D）壓縮

答案：C

解析：要使模擬音頻信號數字化，首先要在時間上對其進行離散化處理，這一過程叫采樣。

11．以下數字音頻文件格式中，稱為樂器數字介面，是數字音樂/電子合成樂器的統一國際標准。

A）MP3
B）WAV

C）MIDI
D）QuickTime

答案：C

解析：MIDI格式是Musical Instrument Digital Interface的縮寫，又稱作樂器數字介面，是數字音樂/電子合成樂器的統一國際標准。在MIDI文件中存儲的是一些指令，把這些指令發送給音效卡，由音效卡按照指令將聲音合成出來。

12．影響數字音頻信號質量的主要技術指標是。

A）采樣頻率和量化精度
B）壓縮和解壓縮

C）錄音和播放
D）模擬和壓縮

答案：A

解析：影響數字音頻信號質量的主要技術指標主要包括采樣頻率、采樣精度、聲道數和編碼演算法。這些指標決定了數字化音頻的質量。

13．奈奎斯特采樣理論指出，采樣頻率不低於聲音信號最高頻率的倍。

A）3
B）1/2

C）1/3
D）2

導航:首頁 > 源碼編譯 > 常用的時域基音檢測演算法有哪些

常用的時域基音檢測演算法有哪些

與常用的時域基音檢測演算法有哪些相關的資料