㈠ 音頻知識詳解(一)
現實生活中,我們聽到的聲音都是時間連續的,我們稱為這種信號叫 模擬信號 。模擬信號需要進行數字化以後才能在計算機中使用。
目前我們在計算機上進行音頻播放都需要依賴於 音頻文件 。 音頻文件 的生成過程是將 聲音信息采樣 、 量化 和 編碼 產生的數字信號的過程 ,人耳所能聽到的聲音,最低的頻率是從20Hz起一直到最高頻率20KHZ,因此音頻文件格式的最大帶寬是20KHZ。根據 奈奎斯特 的理論,只有 采樣頻率 高於 聲音信號最高頻率 的兩倍時,才能把數字信號表示的聲音還原成為原來的聲音,所以音頻文件的采樣率一般在40~50KHZ,比如最常見的CD音質采樣率44.1KHZ。
采樣 :波是無限光滑的,采樣的過程就是從波中抽取某些點的頻率值,就是 把模擬信號數字化 。如下圖所示:
采樣頻率 :單位時間內對模擬信號的采樣次數。采樣頻率越高,聲音的還原就越真實越自然,當然數據量就越大。采樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級。8KHz - 電話所用采樣率, 對於人的說話已經足夠,22.05KHz只能達到FM廣播的聲音品質(適用於語音和中等品質的音樂),44.1KHz則是是最常見的采樣率標准,理論上的CD音質界限,48KHz則更加精確一些(對於高於48KHz的采樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價值)。
采樣位數(也成量化級、樣本尺寸、量化數據位數) :每個采樣點能夠表示的數據范圍。采樣位數通常有8bits或16bits兩種,采樣位數越大,所能記錄聲音的變化度就越細膩,相應的數據量就越大。8位字長量化(低品質)和16位字長量化(高品質),16 bit 是最常見的采樣精度。
量化 :將采樣後離散信號的幅度用二進制數表示出來的過程稱為量化。(日常生活所說的量化,就是設定一個范圍或者區間,然後看獲取到的數據在這個條件內的收集出來)。
PCM : PCM(Pulse Code Molation),即脈沖編碼調制,對聲音進行采樣、量化過程,未經過任何編碼和壓縮處理。
編碼 :采樣和量化後的信號還不是數字信號,需要將它轉化為數字編碼脈沖,這一過程稱為編碼。模擬音頻進采樣、量化和編碼後形成的二進制序列就是數字音頻信號。
聲道數 :聲道數是指支持能不同發聲的音響的個數,它是衡量音響設備的重要指標之一。
碼率 :(也成位速、比特率) 是指在一個數據流中每秒鍾能通過的信息量,代表了壓縮質量。 比如MP3常用碼率有128kbit/s、160kbit/s、320kbit/s等等,越高代表著聲音音質越好。MP3中的數據有ID3和音頻數據組成,ID3用於存儲歌名、演唱者、專輯、音軌等我們可以常見的信息。
音頻幀 :音頻數據是流式的,本身沒有明確的一幀幀的概念,在實際的應用中,為了音頻演算法處理/傳輸的方便,一般約定俗成取2.5ms~60ms為單位的數據量為一幀音頻。這個時間被稱之為「采樣時間」,其長度沒有特別的標准,它是根據編解碼器和具體應用的需求來決定的。
模擬信號 -> 輸入設備(傳遞電壓值)-> 音效卡(經過采樣跟量化(即設置聲音大小等各種值))-> 磁碟(文件) -> 音效卡 -> 輸出設備 -> 模擬信號
我們聲音在物理上用波形表示,那麼我們將這些波形稱作為 模擬信號 。而我們計算機磁碟只能存儲(01010101)的格式。我們將模擬信號轉換成能夠被磁碟存儲的格式(010101)稱之為 數字信號 。這個轉換的過程我們叫 模數轉換 。
我們發出來的聲音(模擬信號)是連續的,我們如果要一直的對模擬信號進行轉化,產生的數字信號會很大。那麼我們就要采樣,而采樣精度就是每秒計算機對模擬信號進行采樣的次數。最常見的采樣精度就是上面提到的44.1khz/s,這個是經過大師們多年研究得出的數據,低於這個數據,效果就會很差,而高於這個數據,效果的差距不是很明顯。
采樣後就是變成了(0101010110100101...),那聲音的音量是有大小的,那這串數據,怎樣表示聲音的大小呢? 這就涉及到了比特率,它是指在一個數據流中每秒鍾能通過的信息量。 比特率就是將聲音的大小劃分為多少等級。舉例下:8比特,在二進制中,表示有8位,表示的十進制的值就是0(00000000)~256(11111111),那每個數值就代表著一個聲音大小。
經過采樣、量化、編碼後轉化成數字信號,然後存儲為文件。
文件是用來裝數字信號的 ,文件包括了比特率、采樣率、聲道、編碼方式、以及被編碼過後的數字信號。
文件格式 就是製造者自己規定的一種名稱,在每個文件格式都會特定支持幾種編碼格式。 打個比方就是文件就是一個容器,裡面可以裝不同的水,有的可以裝一種,有的可以裝好幾種。
經過采樣後的數字信號很大,有時候我們不需要這么大的,所以我們就要進行編碼壓縮,當然壓縮技術都是有損的。在不大影響音頻的效果的情況下,舍棄掉一些高頻或者低頻的數據。
編碼格式 可以理解為每種音頻格式不同的編解碼方式。
封裝格式就是文件格式,編碼就是編碼格式。
了解了基礎概念之後我們就可以列出一個經典的音頻播放流程(以MP3為例):
在iOS系統中apple對上述的流程進行了封裝並提供了不同層次的介面(圖片引自 官方文檔 )。
下面對其中的中高層介面進行功能說明:
可以看到apple提供的介面類型非常豐富,可以滿足各種類別類需求:
https://msching.github.io/ 大神之作
https://www.jianshu.com/p/5c5e95d89c4f 寫的相當不錯
https://www.jianshu.com/p/423726cc9090 知識點很全
https://www.jianshu.com/p/b3db09fb69dc 總結的挺好
https://www.jianshu.com/p/a75f2411225f 有點專業,了解一部分
http://blog.csdn.net/liusandian/article/details/52488078 概念很清晰易懂
㈡ 求叨叨馮聊音樂:音樂博士帶你從零開始學樂理
AI 科技評論按:作為中國音樂學習最高學府之一,中央音樂學院今日發布了一則音樂人工智慧博士招生啟事。該專業全名為「音樂人工智慧與音樂信息科技」,為中央音樂學院首次開設,導師陣容有來自清華大學、北京大學的人工智慧教授,聯合中央音樂學院院長共同組成雙導師培養制 (音樂導師+科技導師),著力培養「音樂與理工科交叉融合的復合型拔尖創新人才」。
據官網資料顯示,「音樂人工智慧與音樂信息科技」專業學制一共是 3 年,要求報考者必須是出身計算機、智能和電子信息類的考生。
建議閱讀書目方面,除了《音樂理論基礎》1 本與音樂理論掛鉤外,其餘 4 本推薦書目都跟人工智慧理論相關,它們分別為《數據結構與演算法》、《信號與系統引論》、《人工智慧:一種現代的方法》以及《神經網路與機器學習》
由於「音樂人工智慧與音樂信息科技」為跨學科專業,面試環節除了將考核本學科的專業能力之外,還會考核考生的音樂能力——演奏某種樂器或者單純進行演唱。
目前該專業已敲定的 3 名聯合培養導師分別為:
俞峰
中央音樂學院院長, 教授、博導,「萬人計劃」領軍人才,「四個一批」人才。中國指揮學會會長、全國藝術專業學位研究生教指委副主任、中國文聯第十屆全國委員會委員, 享受國務院政府特殊津貼。
孫茂松
清華大學教授、博導, 清華大學人工智慧研究院常務副院長, 原計算機系主任、黨委書記, 教育部教學信息化與教學方法創新指導委員會副主任委員, 中國科學技術協會第九屆全國委員會委員。主要研究領域為自然語言處理、人工智慧、機器學習和計算教育學。國家 973 計劃項目首席科學家, 國家社會科學基金重大項目首席專家。2017 年領銜研製出「九歌」人工智慧古詩寫作系統。
吳璽宏
北京大學教授、博導, 教育部新世紀優秀人才。北京大學信息科學技術學院副院長, 智能科學系主任, 言語聽覺研究中心主任, 致力於機器聽覺計算理論、語音信息處理、自然語言理解以及音樂智能等領域的研究, 先後主持國家級、省部級項目 40 余項, 獲國家授權發明專利 10 余項, 發表學術論文 200 余篇。在智能音樂創作、編配領域頗有成就。
有興趣報讀該專業的考生,須在 2019 年 3 月 1 日至 15 日期間在網上完成報名(網址:http://yz.chsi.com.cn/),考試將於今年 5 月在中央音樂學院舉行。
更多詳情可點擊:
進行了解。
專業開辦早有預兆?
如果一直有關注中央音樂學院的動態,就不會對該專業的開辦感到驚訝。
早在去年的 5 月份,中央音樂學院就與素以創新性交叉學科研究聞名的美國印第安納大學信息計算與工程學院共同簽署合作建設「信息學愛樂樂團」實驗室——所謂「信息愛樂」,指的是一套音樂人工智慧伴奏系統,由印第安納大學信息計算與工程學院音樂信息學實驗室主任教授 Christopher Raphael 所發明。
該系統的最大特點是會運用數學方法把音樂本身和音樂家的感受進行了全面解讀、演算,通過不斷的主動學習,形成更加貼近音樂家個性化表現需求的管弦樂團伴奏、協奏模板,為音樂家提供了更為豐富靈活的演奏機會。
完成簽署後,經過半年多的緊張籌備,雙方於去年 11 月 26 日合作舉辦中國首場由人工智慧進行伴奏的特殊音樂會——「AI 之夜音樂會」,來自中央音樂學院的 12 位不同專業的優秀獨奏家與「信息愛樂」聯袂演出了 12 首多種體裁風格的中外作品。
值得一提的是,本場音樂會加入了人工智慧協奏中國樂曲《長城隨想曲》,這是第一次音樂人工智慧技術與中國民族音樂進行碰撞。
圖片源自中央音樂學院官網
中央音樂學院院長俞峰教授在音樂會致辭中說道:「這是一場意義深遠的音樂會,我國整個音樂行業將由此進入到一個「人工智慧化」的時代,極大的提升了整個音樂行業,尤其是音樂教育行業的信息化水平。人工智慧技術與音樂藝術專業相結合將會實現整個行業的跨越式發展,一定會成為音樂行業實現產業化的典範。」
國內科研熱情日益高漲
除了中央音樂學院,試圖在人工智慧 + 音樂上做出成績的,尚有星海音樂學院及中央民族大學。
去年 5 月 16 日,由星海音樂學院管弦系與美國印第安納大學信息計算與工程學院音樂信息學實驗室合作的「音樂人工智慧輔助管弦樂教學聯合實驗室」正式掛牌啟動,雙方將就「音樂人工智慧輔助管弦樂教學」系統引入至日常教學中展開合作。
據了解,該系統可以讓學生們在日常專業練習過程中隨時聽到職業管弦樂團的完整樂曲伴奏,同時將自己與管弦樂團的合成演奏音頻轉化成高度結構化、可視化、可檢索、可比較研究的音樂數據帶到課堂上與專業老師共同探討;對專業老師而言,該系統可以實現對學生專業學習情況的縱向和橫向比較,獲得了解學生的第一手資料,從而完善教學內容和方法。
圖片源自「星海音樂學院」微信公眾號
去年 12 月 7 日,由中央民族大學與平安科技聯手的「人工智慧音樂聯合實驗室」簽字揭牌儀式在中央民族大學知行堂舉行。本次合作旨在發揮各自優勢、通過共同研發,實現人工智慧音樂創作由欣賞階段到專業階段再到專家階段的設想。
中央民族大學黨委常委、副校長宋敏在揭牌儀式上表示,人工智慧己列入國家規劃並進入逐步實施階段,正在不斷與各個領域結合,無疑將引領未來各行各業的發展,她希望雙方通過實驗室這一平台各自發揮優勢,提高民大學科建設水平和音樂創作水平,推進北京「四個中心」建設特別是文化中心建設,並積極助力中國優秀音樂文化走出。
圖片源自中央民族大學官網
另外,由復旦大學、清華大學聯合創辦,至今已是第 6 屆的中國聲音與音樂技術會議 CSMT(Conference on Sound and Music Technology),從 2013 年開始便就聲音與音樂技術這門多學科交叉領域源源不斷地為國內輸出學術見解,豐富了國內人工智慧 + 音樂領域的研究成果。
以 2018 年的會議為例,其徵文主題包括:
音樂聲學
聲音與音樂的信號處理
計算機聽覺
音頻信息安全
計算機音樂與錄音
·聽覺心理學
·聽覺與視覺相結合的多媒體應用
值得一提的是,去年的 CSMT 大會特別開辟了兩個 Special Session:一個用來探討面向一般 Audio 的計算機聽覺,試圖擴展 Music 之外的 Audio + AI 人工智慧在各行各業的應用,比如海洋艦船識別、設備診斷、AI 醫療、嗓音聲學、音頻監控、動物識別、農業保護、工業自動化等;另一個則是探討中國民族音樂與計算機等科學技術的交叉融合,顯示了該國內會議的前瞻性。
當下流行的 AI + 音樂演算法
對於當下的音樂人工智慧演算法研究,中國音樂學院音樂學系付曉東教授在發表於 2018 年 05 期《藝術探索》的《音樂人工智慧的倫理思考——演算法作曲的「自律」與「他律」》一文中按「自律」與「他律」將之進行了劃分。
其中「自律」指的是機器嚴格或非嚴格地遵循事先規定好的內部結構原則,對應於音響素材而生成音樂作品,最終的音響呈現受到內部結構原則的自律性限定;「他律」則指機器嚴格或非嚴格地遵循依據人類經驗規定好的外部結構原則,並映射為音響而生成作品,最終的音響呈現受到外部結構原則的他律性限定。
最終的梳理結果如下:
「自律」類音樂人工智慧演算法
「他律」類音樂人工智慧演算法
根據付教授的劃分准則,我們將能對當今流行的大部分人工智慧 + 音樂研究工作進行有效歸類。
值得一提的是,由中國科學技術大學、微軟人工智慧和研究院、蘇州大學團隊合作,講述歌麴生成的端到端旋律和編麴生成框架的論文《XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music》成功榮獲 KDD 2018 的 Research Track 最佳學生論文,雷鋒網 AI 科技評論對此做了相應解讀,有興趣的讀者可點擊 https://www.leiphone.com/news/201808/NkobLRDHxZsyadg5.html進行回看。
總的來說,未來人工智慧將在音樂領域發揮更加重要的作用,它可以幫助人們分析作品、創作以及分擔相當多的重復性工作,進一步激發創造力,探索音樂形式與內容方面的多種可行性。希望這種跨學科、融合性的合作,能夠對各類音樂創作邏輯進行總結與完善,並在感知、情感等方面做出突破,讓人工智慧在音樂的諸多領域形成創新,並在教學、社會服務等方面產生影響。
㈢ NetEq中DSP模塊音頻演算法探究
netEQ是webrtc中動態抖動緩沖區和錯誤隱藏的演算法,用來消除因為網路抖動或者丟包。在保持高質量通話的同時,兼顧數據的低延時。其中,兩大模塊分別為MCU、DSP。
MCU(Micro Control Unit)模塊是抖動緩沖區的微控制單元,由於抖動緩沖區作用是暫存接收到的數據包,因此 MCU 的主要作用是安排數據包的插入並控制數據包的輸出。數據包的插入主要是確定來自網路的新到達的數據包在緩沖區中的插入位置,而控制數據包的輸出則要考慮什麼時候需要輸出數據,以及輸出哪一個插槽的數據包。
DSP(digital signal processing)模塊是信號處理單元,主要負責對從 MCU 中提取出來的 PCM 源數據包進行數字信號處理。
本文將針對DSP模塊中設計到的相關演算法以及具體處理過程做詳細介紹和分析。
這里解釋一下DSP處理中幾個操作類型的意義:
加速 Accelerate: 變聲不變調的加速播放演算法
慢速 PreemptiveExpand: 變聲不變調的減速播放演算法
正常 Normal: 正常的解碼播放,不額外引入假數據
融合 Merge: 如果上一次是 Expand 造假出來的數據,那為了聽起來更舒服一些,會跟正常數據包做一次融合演算法
丟包隱藏 Expand(Packet Loss Concealment): 丟包補償,最重要的無中生有演算法模塊,解決 「真丟包」 時沒數據的問題,造假專業戶
舒適噪音 ComfortNoise: 是用來產生舒適雜訊的,比單純的靜音包聽起來會更舒服的靜音狀態
a. 基音,指的是物體震動時所發出的頻率最低的音,其餘為泛音。也就是發音體整段震動,它攜帶著語音中的大部分能量。
b. 基音周期,聲音震動波形的周期,其頻率則為基頻。基音周期是語音處理演算法中的基本單位,是語音估計中的關鍵參數。
c. 基音檢測,是對基音周期的估計,目的是得出和聲音震動頻率完全一致的基音周期長度。
d. 短時自相關函數法,webrtc中用於基因檢測的方法。經典的短時自相關函數法進行基音檢測時,是使用一個窗函數,窗不動,語音信號移動。通過比較原始信號和他位移後的信號之間的相似性來確定基音周期,如果移位距離等於基音周期,那麼兩個信號便具有最大相似性。窗口長度N的選擇至少要大於基音周期的兩倍,N越大,得出的基音周期越准確,但計算量也會相應增加。反之,N越小,誤差越大,計算量越小。
e. WSOLA,Waveform Similarity Over-Lap Add,波形相似重疊相加法。在不改變語音音調並保證音質的前提下,使語音在時間軸上被拉伸或者壓縮,即變速不變調。
採用分解合成的思想,將原始語音以L為幀間距,以N為幀長進行拆分,以aL為幀間距進行合成,其中a為調整因子。為防止頻譜斷裂或相位不連續,合成時在原始語音信號的采樣點處,相鄰區域[-max, +max]內移動,尋找信號波形相關最大的波形,確定合成位置。
圖中是通過直接拷貝的方式實現慢速播放,造成了時域波形不連續。波形相似疊加法避免了上述問題的出現。
加速處理用來解決數據包在jitterbuffer中累積造成延時過大的情況。使用WSOLA演算法在時域上壓縮語音信號。
已上圖為例,長度為110個樣本。其中B區域為短時自相關函數法中的x(n),長度相同的移動窗(A區域)為x(n-τ),以τ為10開始移動,最大為100。在此過程中以拋物線擬合的方式求出相關性最大時的移動距離τ,進而得到該幀的基音周期P。
計算該數據流,中心點,前後兩個基音周期的相關性bestCorr。當相關性大於0.9,將兩個基音周期交叉混合並輸出;否則,按照正常處理直接輸出。
加速處理就是將兩個基音混合成一個個並代替原有的兩個基音來縮短語音長度。
加速後的語音數據存於neteq演算法緩沖區algorithm_buffer中。
neteq/accelerate.cc
減速處理用來解決網路狀況不好而導致音頻數據比較少時,為了人耳聽覺的連續性,使用WSOLA演算法在時域上拉伸信號,來延長網路等待時間。
過程與加速過程類似
減速處理是將兩個基音混合成一個,並插入到兩個基音中間來延長語音長度。因此,經過減速處理的語音幀增加了一個基音周期的時長。
減速後的語音數據存於neteq演算法緩沖區algorithm_buffer中。
neteq/preemptive_expand.cc
當音頻數據丟失,會利用參考數據在演算法緩沖區中創建、補齊缺失內容,實現丟包隱藏,保證聽覺體驗。
上圖中,丟包隱藏使用語音緩沖區中最新的256個樣本作為參考數據源,並將這些數據記為speechHistory(歷史數據)。speechHistory用於連續PLC的場景。
neteq/expand.cc
融合處理發生在播放的上一幀與當前數據幀不連續的情況。比如,上一幀為PLC幀,當前幀為正常幀。
neteq/merge.cc
正常處理一般用於提取的數據包剛好符合播放要求,然後將此包解碼後直接輸出到speech buffer等待播放。如果上次處理是PLC,還需要進行平滑。
neteq/normal.cc
rfc 3389。結合語音活動檢測演算法的舒適噪音生成可快速確定靜音出現的時間,並在出現靜音時產生人工噪音,直到語音活動重新恢復為止。產生的人工噪音可形成傳輸流不間斷的假象,因此電話中的背景聲音會從始至終保持連續,接聽者不會有電話掉線的感覺。
neteq/comfort_noise.cc
參考
https://blog.csdn.net/liuxiaoheng1992/article/details/79379514
https://nemocdz.github.io/post/淺談-webrtc-neteq/#丟包補償-1
《WebRTC語音引擎中NetEq技術的研究》吳江銳
㈣ 音頻演算法專業博士哪個學校好
1、皇家理工學院(英文:KTHRoyalInstituteofTechnology;瑞典文:Kungligatekniskah_gskolan,簡稱:KTH)成則或立於1827年,坐落於瑞典王國首都斯德哥爾摩,是瑞典國內規模最大、歷史最悠久的理工院校,為北歐五校聯盟成員之一,此學校的音頻演算法專業博士深受業界承認。
2、東北大學(NortheasternUniversity),簡稱NEU,成立於1898年,坐落富有歷史底蘊,古老與現代並存的波士頓市中心,是位於美國東北部馬薩諸塞州州府波士頓市碰態的一所美國的著名私立研究型大學,在全球具有很高的聲譽。學校一共匯聚了來自全世界122個國家的精英,在實踐性學習、跨學科研究以及社區參與方面都處於世界領先地位。東北大學由8個學院組成,設有175個本科專業和227個笑盯源研究生專業,授予碩士、博士和職業教育學位。