導航:首頁 > 操作系統 > android聲波效果

android聲波效果

發布時間:2023-01-11 07:44:07

A. android音視頻【八】音頻基礎

前些文章講了視頻,我們開始音頻。

開始介紹前,先看一個聲音的波形圖:

聲音是一種壓力波,當敲擊鍵盤或者撞擊物體時,它們的震動會引起空氣的震動,使空氣產生疏密變化,由此就形成了一種聲波。

聲波的三要素是頻率、振幅、和波形,頻率代表音階的高低,振幅代表響度,波形代表音色。

頻率 : 頻率 越高,波長越短,低頻聲響的波長則越長,所以更容易越過障礙物,能量衰減就小,聲音傳播的就遠。反之則會得到相反的結論。

振幅:用不同的力度敲擊物體,它的聲音大小不一樣,它的能量也不一樣,聲音越大振幅越高。

波形/音色: 音色就是在同樣的頻率(音調)和響度(振幅)下,敲擊鍵盤或者撞擊物體是完全不同的。波的形狀代表了聲音的音色。

如何進行聲音進行保存呢? 對聲音的采樣常用麥克風等設備將聲音信號轉換成電信號,再用模/數轉換器將電信號轉換成一串用1和0表示的二進制數字(數字信號)。每秒對聲音采樣上萬次,獲得上萬個按照時間順序排列的二進制數字,然後將連續變化不斷的聲音轉化成了計算機可儲存並識別的二進制數字。

為了將模擬信號數字化,需要進行:采樣,量化,編碼。

首先要對模擬信號進行采樣,所謂采樣就是在時間軸上對信號進行數字化。根據奈奎斯特定理(也稱采樣定理),按比聲音最高頻率高 2 倍以上的頻率對聲音進行采樣,對於高質量的音頻信號,其頻率范圍在 20Hz ~ 20kHz ,所以采樣頻率一般為 44.1kHz ,這樣就保證采樣聲音達到 20kHz 也能被數字化,從而使得經過數字化處理之後,人耳聽到的聲音質量不會被降低。而所謂的 44.1 kHz 就是代表 1 s 會采樣 44100 次。

每個采樣又該如何表示呢?進行量化。量化是指在幅度軸上對信號進行數字化。量化位數越大,聲音的質量越高。常用的量化位數有8位、16位和32位。量化位數指用幾位二進制數來存儲采樣獲得的數據。量化位數為8即指用8位二進制數來存儲數據,如0001011

比如用 16 bit 的二進制信號來表示聲音的一個采樣,而 16 bit 所表示的范圍是 [-32768 , 32767] , 共有 65536 個可能取值,因此最終模擬的音頻信號在幅度上也分為了 65536 層。

編碼,就是按照一定的格式記錄采樣和量化後的數字數據,比如順序存儲或壓縮存儲等等。

這里涉及了很多種格式,通常所說的音頻的裸數據就是 PCM (Pulse Code Molation) 數據。描述一段 PCM 數據一般需要以下幾個概念:量化格式(sampleFormat)、采樣率(sampleRate)、聲道數 (channel) 。以 CD 的音質為例:量化格式為 16 bit (2 byte),采樣率 44100 ,聲道數為 2 ,這些信息就描述了 CD 的音質。而對於聲音的格式,還有一個概念用來描述它的大小,稱為數據比特率,即 1s 時間內的比特數目,它用於衡量音頻數據單位時間內的容量大小。而對於 CD 音質的數據,比特率為多少呢? 計算如下:

那麼在一分鍾里,這類 CD 音質的數據需要佔據多大的存儲空間呢?計算如下:

當然,如果 sampleFormat 更加精確 (比如用 4 個位元組來描述一個采樣),或者 sampleRate 更加密集 (比如 48kHz 的采樣率), 那麼所佔的存儲空間就會更大,同時能夠描述的聲音細節就會越精確。存儲的這段二進制數據即表示將模擬信號轉為數字信號了,以後就可以對這段二進制數據進行存儲,播放,復制,或者進行其它操作。

關於這3個過程,可以看下這篇文章,圖形表示采樣,量化,編碼的過程更容易理解。 https://www.bilibili.com/read/cv1771961/

所以說:

1)采樣:在時間軸上對信號數字化;

2)量化:在幅度軸上對信號數字化;

3)編碼:按一定格式記錄采樣和量化後的數字數據。

聲道(sound channel)是指聲音在錄制或播放時在不同空間位置採集或回放的相互獨立的音頻信號,所以聲道數也就是聲音錄制時的聲音源數量或者回放時相應的揚聲器數量。

常見的有:單聲道,立體聲道,4聲道,5.1聲道,7.1聲道等。在移動端一般是單聲道,立體聲道。

上面提到了 CD 音質的數據采樣格式,曾計算出每分鍾需要的存儲空間約為 10.09 MB ,如果僅僅是將其存儲在光碟或者硬碟中,可能是可以接受的,但是若要在網路中實時在線傳輸的話,那麼這個數據量可能就太大了,所以必須對其進行壓縮編碼。壓縮編碼的基本指標之一就是壓縮比,壓縮比通常小於 1 。壓縮演算法包括有損壓縮和無損壓縮。無損壓縮是指解壓後的數據可以完全復原。在常用的壓縮格式中,用的較多的是有損壓縮,有損壓縮是指解壓後的數據不能完全恢復,會丟失一部分信息,壓縮比越小,丟失的信息就比越多,信號還原後的失真就會越大。根據不同的應用場景 (包括存儲設備、傳輸網路環境、播放設備等),可以選用不同的壓縮編碼演算法,如 PCM 、WAV、AAC 、MP3 、Ogg 等。

WAV 編碼就是在 PCM 數據格式的前面加了 44 個位元組,分別用來存儲 PCM 的采樣率、聲道數、數據格式等信息。

特點: 音質好,大量軟體支持。

場景: 多媒體開發的中間文件、保存音樂和音效素材。

MP3 具有不錯的壓縮比,使用 LAME 編碼 (MP3 編碼格式的一種實現)的中高碼率的 MP3 文件,聽感上非常接近源 WAV 文件,當然在不同的應用場景下,應該調整合適的參數以達到最好的效果。

特點: 音質在 128 Kbit/s 以上表現還不錯,壓縮比比較高,大量軟體和硬體都支持,兼容性好。

場景: 高比特率下對兼容性有要求的音樂欣賞。

AAC 是新一代的音頻有損壓縮技術,它通過一些附加的編碼技術(比如 PS 、SBR) 等,衍生出了 LC-AAC 、HE-AAC 、HE-AAC v2 三種主要的編碼格式。LC-AAC 是比較傳統的 AAC ,相對而言,其主要應用於中高碼率場景的編碼 (>=80Kbit/s) ; HE-AAC 相當於 AAC + SBR 主要應用於中低碼率的編碼 (<= 80Kbit/s); 而新推出的 HE-AAC v2 相當於 AAC + SBR + PS 主要用於低碼率場景的編碼 (<= 48Kbit/s) 。事實上大部分編碼器都設置為 <= 48Kbit/s 自動啟用 PS 技術,而 > 48Kbit/s 則不加 PS ,相當於普通的 HE-AAC。

特點: 在小於 128Kbit/s 的碼率下表現優異,並且多用於視頻中的音頻編碼。

場景: 128 Kbit/s 以下的音頻編碼,多用於視頻中音頻軌的編碼。

Ogg 是一種非常有潛力的編碼,在各種碼率下都有比較優秀的表現,尤其是在中低碼率場景下。Ogg 除了音質好之外,還是完全免費的,這為 Ogg 獲得更多的支持打好了基礎,Ogg 有著非常出色的演算法,可以用更小的碼率達到更好的音質,128 Kbit/s 的 Ogg 比 192kbit/s 甚至更高碼率的 MP3 還要出色。但是目前因為還沒有媒體服務軟體的支持,因此基於 Ogg 的數字廣播還無法實現。Ogg 目前受支持的情況還不夠好,無論是軟體上的還是硬體上的支持,都無法和 MP3 相提並論。

特點: 可以用比 MP3 更小的碼率實現比 MP3 更好的音質,高中低碼率下均有良好的表現,兼容性不夠好,流媒體特性不支持。

場景: 語言聊天的音頻消息場景。

壓縮編碼的原理實際上就是壓縮調冗餘信號,冗餘信號是指哪些不能被人感知到的信號,包含人耳聽覺范圍之外的音頻信號以及被屏蔽掉的音頻信號等,這些冗餘信息進行編碼處理。

一般在音視頻通話,直播中,短視頻,以及大部分的視頻都是用aac編碼。

本篇主要是介紹了音頻的一些基礎知識和概念,對於後續學習音頻的編解碼有幫助,而不會一臉懵。

備注

B. 問下關於android編程的問題····聲波測距方面的

純理論上可行,幾乎無法實現,實際不可行。android裡面沒有聲波衰減擴散之類的api,只有接收語言或錄音的api。你可以採用錄音的方式去判斷信號強度,但是這個比目測的效果還要差,還要考慮環境干擾,實際傳送距離。可以考慮用比如藍牙,紅外,等,但是難度也很大,藍牙只能10米左右,10m內測量精度達不到cm級別,還不如用腳投票准,另外紅外需要對方向,就算有大神能寫出演算法,也用不到實際上。另外還有些理論上幾乎也不可行的什麼android設備上的攝像頭和光敏感應實現測量。

C. Android音頻採集

最近項目中需要實現手機採集聲音頻率實現設備律動的效果,整理了下Android與聲音相關的知識。 根據聲音振幅、頻率獲取顏色值,通過藍牙mesh發送指令給燈改變其顏色值。 Android聲音採集相關Api 快速傅里葉變換公式 Mesh網發送rgb值相關指令 人主觀感覺聲音的大小(音量),振幅與人離聲源的距離決定,振幅越大,離聲源的距離越小,響度越大。 LP= 20×lgP/P0 LP:聲壓級(db) P:聲壓(Pa) P0:基準聲壓:2*10-5Pa,該值是對800HZ聲音人耳剛能聽到的最低聲壓。 聲音的高低,由頻率決定,頻率越高,音調越高。 頻率是每秒經過一給定點的聲波數量,單位赫茲(Hz) 人耳能聽到20~20kHz的聲音。 音品,波形決定聲音的音色。 MediaRecorder:基於文件錄音,已集成錄音、編碼、壓縮 把模擬信號數字化的過程 采樣頻率越高,紅色間隔越密集,記錄音頻所用數據量越大,音頻質量越高。 采樣定理(奈奎斯特理論):當采樣頻率大於信號中最高頻率的2倍時,采樣後的數字信號完整地保留原始信號中的信息。人耳能聽到20~20kHz的聲音,為了保證聲音不失真,采樣頻率應在40kHz以上。 目前44100Hz是唯一可以保證兼容所有Android手機的采樣率。 指將模擬信號分成幾個等級,量化精度越高,聲音質量越好,單位Bit。 CD標准量化精度16Bit,DVD標准量化精度24Bit。 16Bit可以保證兼容所有Android手機。 音頻採集、播放可以疊加,可以同時從多個音頻源採集聲音,例如:單聲道/雙聲道。 即采樣時間,例如20ms一幀代表20ms為單位的數據量為一幀音頻。 一幀音頻幀大小 = 采樣率 x 位寬 x 采樣時間 x 通道數 例:采樣率8000,位寬8,通道2,采樣間隔20ms (8000 * 8/8 *2)/ (1000/20 ) = 320Byte //1位元組 = 8 bits 對audioData進行快速傅里葉變化,時域->頻域的變化,可以將信號的頻譜提取出來。 傅立葉變換就是多個正餘弦波疊加可以用來近似任何一個原始的周期函數,它實質是是頻域函數和時域函數的轉換。 Visualizer:檢索當前正在播放的音頻,對其進行編碼 以下基於AudioRecord採集的音頻數據後進行快速傅里葉變換得到頻率值

D. 移動端短語音消息音頻格式選擇

1. 移動端原生音頻支持

1.1 android Supported media formats

https://developer.android.com/guide/topics/media/media-formats

Format / File Type(s) / Container Formats

AAC LC••Support for mono/stereo/5.0/5.1 content with standard sampling rates from 8 to 48 kHz.• 3GPP (.3gp)

• MPEG-4 (.mp4, .m4a)

• ADTS raw AAC (.aac, decode in Android 3.1+, encode in Android 4.0+, ADIF not supported)

• MPEG-TS (.ts, not seekable, Android 3.0+)

HE-AACv1 (AAC+)•

(Android 4.1+)



HE-AACv2 (enhanced AAC+)•Support for stereo/5.0/5.1 content with standard sampling rates from 8 to 48 kHz.

AAC ELD (enhanced low delay AAC)•

(Android 4.1+)



(Android 4.1+)

Support for mono/stereo content with standard sampling rates from 16 to 48 kHz

AMR-NB••4.75 to 12.2 kbps sampled @ 8kHz3GPP (.3gp)

AMR-WB••9 rates from 6.60 kbit/s to 23.85 kbit/s sampled @ 16kHz3GPP (.3gp)

FLAC•

(Android 4.1+)



(Android 3.1+)

Mono/Stereo (no multichannel). Sample rates up to 48 kHz (but up to 44.1 kHz is recommended on devices with 44.1 kHz output, as the 48 to 44.1 kHz downsampler does not include a low-pass filter). 16-bit recommended; no dither applied for 24-bit.FLAC (.flac) only

MIDI•MIDI Type 0 and 1. DLS Version 1 and 2. XMF and Mobile XMF. Support for ringtone formats RTTTL/RTX, OTA, and iMelody• Type 0 and 1 (.mid, .xmf, .mxmf)

• RTTTL/RTX (.rtttl, .rtx)

• OTA (.ota)

• iMelody (.imy)

MP3•Mono/Stereo 8-320Kbps constant (CBR) or variable bit-rate (VBR)MP3 (.mp3)

Opus•

(Android 5.0+)

Matroska (.mkv)

PCM/WAVE•

(Android 4.1+)

•8- and 16-bit linear PCM (rates up to limit of hardware). Sampling rates for raw PCM recordings at 8000, 16000 and 44100 Hz.WAVE (.wav)

Vorbis•• Ogg (.ogg)

• Matroska (.mkv, Android 4.0+)

1.2 Supported Audio File and Data Formats in OS X

https://developer.apple.com/library/content/documentation/MusicAudio/Conceptual/CoreAudioOverview/SupportedAudioFormatsMacOSX/SupportedAudioFormatsMacOSX.html

Allowable data formats for each file format.

File FormatData Formats

AAC (.aac, .adts)'aac '

AC3 (.ac3)'ac-3'

AIFC (.aif, .aiff,.aifc)BEI8, BEI16, BEI24, BEI32, BEF32, BEF64, 'ulaw', 'alaw', 'MAC3', 'MAC6', 'ima4' , 'QDMC', 'QDM2', 'Qclp', 'agsm'

AIFF (.aiff)BEI8, BEI16, BEI24, BEI32

Apple Core Audio Format (.caf)'.mp3', 'MAC3', 'MAC6', 'QDM2', 'QDMC', 'Qclp', 'Qclq', 'aac ', 'agsm', 'alac', 'alaw', 'drms', 'dvi ', 'ima4', 'lpc ', BEI8, BEI16, BEI24,BEI32, BEF32, BEF64, LEI16, LEI24, LEI32, LEF32, LEF64, 'ms\x00\x02', 'ms\x00\x11', 'ms\x001', 'ms\x00U', 'ms \x00', 'samr', 'ulaw'

MPEG Layer 3 (.mp3)'.mp3'

MPEG 4 Audio (.mp4)'aac '

MPEG 4 Audio (.m4a)'aac ', alac'

NeXT/Sun Audio (.snd, .au)BEI8, BEI16, BEI24, BEI32, BEF32, BEF64, 'ulaw'

Sound Designer II (.sd2)BEI8, BEI16, BEI24, BEI32

WAVE (.wav)LEUI8, LEI16, LEI24, LEI32, LEF32, LEF64, 'ulaw', 'alaw'

Core Audio includes a number of audio codecs that translate audio data to and from Linear PCM. Codecs for the following audio data type are available in OS X v10.4. Audio applications may install additional encoders and decoders.

Audio data typeEncode from linear PCM?Decode to linear PCM?

MPEG Layer 3 ('.mp3')NoYes

MACE 3:1 ('MAC3')YesYes

MACE 6:1 ('MAC6')YesYes

QDesign Music 2 ('QDM2')YesYes

QDesign ('QDMC')NoYes

Qualcomm PureVoice ('Qclp')YesYes

Qualcomm QCELP ('qclq')NoYes

AAC ('aac ')YesYes

Apple Lossless ('alac')YesYes

Apple GSM 10:1 ('agsm')NoYes

ALaw 2:1 'alaw')YesYes

Apple DRM Audio Decoder ('drms')NoYes

AC-3NoNo

DVI 4:1 ('dvi ')NoYes

Apple IMA 4:1 ('ima4')YesYes

LPC 23:1 ('lpc ')NoYes

Microsoft ADPCMNoYes

DVI ADPCMYesYes

GSM610NoYes

AMR Narrowband ('samr')YesYes

µLaw 2:1 ('ulaw')YesYes

1.3 總結:

android/ios都可以對mp3解碼,但不能編碼,編碼依賴lame;

android/ios支持對aac進行編解碼;

mp3,aac均是音樂編碼器,android支持對amr窄帶與寬頻編解碼,ios文檔顯示對窄帶支持編解碼,但有人說ios4.3.x版本之後不再支持AMR,剔除了AMR的硬解,如需使用依賴libopencore庫;

結論:

h5 audio標簽對mp3支持最好(audio標簽除了firefox與opera都支持mp3,ogg,wav;flash播放器可以支持到mp3,aac,speex,nellymoser),考慮對純web的兼容性,使用mp3;

android,ios硬體對aac支持最好,考慮硬編碼的性能與效率,使用aac;

amr是語音編碼器,考慮使用場景,推薦amr.

對比微信,微信短語音,6.0之前用的amr,6.0之後用的silk_v3.

2.音頻基礎概念

2.1聲音三要素

聲音的特性可由三個要素來描述,即響度、音調和音色。

響度:人耳對聲音強弱的主觀感覺稱為響度。響度和聲波振動的幅度有關。一般說來,聲波振動幅度越大則響度也越大。當我們用較大的力量敲鼓時,鼓膜振動的幅度大,發出的聲音響;輕輕敲鼓時,鼓膜振動的幅度小,發出的聲音弱。音叉振動時發出的聲波為單音,即只有一個頻率成分。若設法將音叉的振動規律記錄下來,可發現其振動波形為一正弦波。當用不同力量敲擊某個音叉時,音叉發出的聲波幅度不同,這意味著聲音的響度不同。給出了兩個聲音波形,其幅度一大一小,幅度大的波形其聲音響度大,幅度小的波形其聲音響度小。另外,人們對響度的感覺還和聲波的頻率有關,同樣強度的聲波,如果其頻率不同,人耳感覺到的響度也不同。

音調:人耳對聲音高低的感覺稱為音調。音調主要與聲波的頻率有關。聲波的頻率高,則音調也高。當我們分別敲擊一個小鼓和一個大鼓時,會感覺它們所發出的聲音不同。小鼓被敲擊後振動頻率快,發出的聲音比較清脆,即音調較高;而大鼓被敲擊後振動頻率較慢,發出的聲音比較低沉,即音調較低。如果分別敲擊一個小音叉和一個大音叉時,同樣會感覺到小音叉所發聲音的音調較高,大音叉所發聲音音調較低。如果設法把大、小音叉所發出的聲波記錄下來,可發現小音叉在單位時間內振動的次數多,即頻率高,大音叉在單位時間內振動的次數少,即頻率低。給出了兩個頻率不同的聲音波形,從聲音可聽出,頻率高的聲音波形聽起來音調較高,而頻率低的聲音波形聽起來則音調較低。

音色:音色是人們區別具有同樣響度、同樣音調的兩個聲音之所以不同的特性,或者說是人耳對各種頻率、各種強度的聲波的綜合反應。音色與聲波的振動波形有關,或者說與聲音的頻譜結構有關。前面說過,音叉可產生一個單一頻率的聲波,其波形為正弦波。但實際上人們在自然界中聽到的絕大部分聲音都具有非常復雜的波形,這些波形由基波和多種諧波構成。諧波的多少和強弱構成了不同的音色。各種發聲物體在發出同一音調聲音時,其基波成分相同。但由於諧波的多少不同,並且各次諧波的幅度各異,因而產生了不同的音色。例如當我們聽胡琴和揚琴等樂器同奏一個曲子時,雖然它們的音調相同,但我們卻能把不同樂器的聲音區別開來。這是因為,各種樂器的發音材料和結構不同,它們發出同一個音調的聲音時,雖然基波相同,但諧波構成不同,因此產生的波形不同,從而造成音色不同。給出了小提琴和鋼琴的波形和聲音,這兩個聲音的響度和音調都是相同的,但聽起來卻不一樣,這就是因為這兩個聲音的音色不同(波形不同)。

2.2采樣率和采樣大小

聲音其實是一種能量波,因此也有頻率和振幅的特徵,頻率對應於時間軸線,振幅對應於電平軸線。波是無限光滑的,弦線可以看成由無數點組成,由於存儲空間是相對有限的,數字編碼過程中,必須對弦線的點進行采樣。采樣的過程就是抽取某點的頻率值,很顯然,在一秒中內抽取的點越多,獲取得頻率信息更豐富,**為了復原波形,一次振動中,必須有2個點的采樣**,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進行40k次采樣,用40kHz表達,這個40kHz就是采樣率。我們常見的CD,采樣率為44.1kHz。光有頻率信息是不夠的,我們還必須獲得該頻率的能量值並量化,用於表示信號強度。量化電平數為2的整數次冪,我們常見的CD位16bit的采樣大小,即2的16次方。采樣大小相對采樣率更難理解,因為要顯得抽象點,舉個簡單例子:假設對一個波進行8次采樣,采樣點分別對應的能量值分別為A1-A8,但我們只使用2bit的采樣大小,結果我們只能保留A1-A8中4個點的值而舍棄另外4個。如果我們進行3bit的采樣大小,則剛好記錄下8個點的所有信息。采樣率和采樣大小的值越大,記錄的波形更接近原始信號。

2.3有損和無損

根據采樣率和采樣大小可以得知,相對自然界的信號,音頻編碼最多隻能做到無限接近,至少目前的技術只能這樣了,相對自然界的信號,任何數字音頻編碼方案都是有損的,因為無法完全還原。在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用於素材保存及音樂欣賞,CD、DVD以及我們常見的WAV文件中均有應用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音頻中最佳的保真水準,並不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近。我們而習慣性的把MP3列入有損音頻編碼范疇,是相對PCM編碼的。強調編碼的相對性的有損和無損,是為了告訴大家,要做到真正的無損是困難的,就像用數字去表達圓周率,不管精度多高,也只是無限接近,而不是真正等於圓周率的值。

2.4頻率與采樣率的關系

采樣率表示了每秒對原始信號采樣的次數,我們常見到的音頻文件采樣率多為44.1KHz,這意味著什麼呢?假設我們有2段正弦波信號,分別為20Hz和20KHz,長度均為一秒鍾,以對應我們能聽到的最低頻和最高頻,分別對這兩段信號進行40KHz的采樣,我們可以得到一個什麼樣的結果呢?結果是:20Hz的信號每次振動被采樣了40K/20=2000次,而20K的信號每次振動只有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠比高頻的詳細。這也是為什麼有些音響發燒友指責CD有數碼聲不夠真實的原因,CD的44.1KHz采樣也無法保證高頻信號被較好記錄。要較好的記錄高頻信號,看來需要更高的采樣率,於是有些朋友在捕捉CD音軌的時候使用48KHz的采樣率,這是不可取的!這其實對音質沒有任何好處,對抓軌軟體來說,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質的保證之一,而不是去提高它。較高的采樣率只有相對模擬信號的時候才有用,如果被采樣的信號是數字的,請不要去嘗試提高采樣率。

亨利·奈奎斯特(Harry Nyquist)采樣定理:當對連續變化的信號波形進行采樣時,若采樣率fs高於該信號所含最高頻率的兩倍,那麼可以由采樣值通過插補技術正確的回復原信號中的波形,否則將會引起頻譜混疊(Aliasing),產生混疊噪音(Aliasing Noise),而重疊的部分是不能恢復的.(同樣適用於模擬視頻信號的采樣)

根據人聲語音的特點,人類的聽力感知范圍是從20Hz到20kHz。這個頻寬范圍被劃分成四個頻寬類別:窄帶、寬頻、超寬頻和全帶。

窄帶(narrowband)普通電話所覆蓋的頻寬,從300Hz到3.4kHz,對應采樣率6.8kHz。普通電話的采樣率是8kHz,對應頻寬4kHz,對於人聲語音是足夠的。

寬頻(wideband)從50Hz到7kH的頻寬,對應采樣率14khz,可以很好地捕捉和還原人聲,然而對於音樂聲還是不夠的。這是在人聲語音通話場景下的所謂高清語音。

超寬頻(super-wideband)從50Hz到14kHz,對應采樣率28kHz,基本可以覆蓋人聲和音樂聲,對於非專業音樂人的用戶來說,不管是人聲通話還是音樂直播,這樣的頻寬都是足夠的。

全帶(fullband)從20Hz到20kHz,對應40kHz采樣率,全面覆蓋人類的聽覺范圍,能夠滿足音樂發燒友或者專業音樂人的需求。超過40Hz都可以稱作全帶語音。CD的采樣率就是44.1kHz。

因此,窄帶(narrowband)的音質是能滿足人聲錄制回放的。

從四個角度衡量音頻編碼:

成本:開發成本,伺服器流量成本

音質:

系統影響:對系統資源的暫用,軟編解碼器比硬編解碼器佔用更多cpu

兼容性:對移動端以及web端的兼容

適合產品場景的編碼器具備以下四個特點

碼率相對低,滿足成本可控的要求,一般不要超過16kbps。一個sample用1bit就能編好,那麼8kHz采樣率(narrowband)對應8kbps的碼率,16kHz采樣率(wideband)對應16kbps的碼率。碼率的本質就是成本。

演算法復雜度要比較低,對系統CPU、內存和電量消耗少,對系統影響要盡量低。

音質可以適當作出犧牲,以保障上面三個因素,8kHz采樣率對人聲場景是夠用的,16kHz采樣率可以提供高清語音。

兼顧兼容性

3.主流音頻編碼器

音頻編碼格式的比較: https://zh.wikipedia.org/wiki/%E9%9F%B3%E9%A2%91%E7%BC%96%E7%A0%81%E6%A0%BC%E5%BC%8F%E7%9A%84%E6%AF%94%E8%BE%83

下圖列舉一組主流的音頻編解碼器,展示了隨著碼率變化,音質相應變化的情況。這是基於編解碼器聽音測試的結果繪畫出來的,對選取音頻編解碼器有參考意義。根據上面的分析並且參照下圖,發現碼率低於16kbps的低碼率人聲編解碼器(speech codecs)包含:Opus(SILK),Speex,AMR-NB,AMR-WB,和iLBC。

下圖是另外一組主流的音頻編解碼器,展示了隨著碼率的變化,演算法延遲時間相應變化的情況。根據上面的分析並且參照下圖,發現演算法延遲時間低於60毫秒,碼率低於16kbps的人聲編解碼器(speech codecs)包含:Opus(SILK)、Speex(NB,WB)、G.729、和G.729.1。

從圖中我們可以獲得如下幾方面信息:

對於固定碼率的編碼標准:如G.711或者G.722,圖中採用單點表示,說明這兩個編碼標準是固定碼率編碼標准。其他如Opus、Speex,它們的曲線是連續的,說明這類編碼標準是可變碼率的編碼標准。

從頻帶方面看:G.711、G.722、AMR和iLBC等標准適用於narrowband(8khz采樣率)和wideband(16khz采樣率)范圍,針對普通的語音通話場景。AAC和MP3適用於fullband(48khz采樣率)范圍,針對特殊的音樂場景。而Opus適用於整個頻帶,可以進行最大范圍的動態調節,適用范圍最廣。

從標準的收費情況看:適用於互聯網傳輸的iLBC、Speex和Opus都是免費且開源的;適用於音樂場景的MP3和AAC,需要license授權,而且不開源。

綜合上面的兩個圖,我們可以大致總結,比較適合人聲短語音的音頻編解碼器包含Opus(SILK)、Speex(NB,WB)、AMR-NB、AMR-WB、iLBC、G.729、和G.729.1。

碼率采樣率演算法延遲

OPUS(SILK)6-12,7-25,

8-30,12-40kbps

8,12,

16,24kHz

25ms

Speex2.15–24.6 kbps (NB)

4–44.2 kbps (WB)

8, 16,

32, 48kHz

30 ms(NB)

34 ms (WB)

AMR-NB4.75, 5.15, 5.90,

6.70, 7.40, 7.95,

10.20, 12.20 kbps

8kHz25ms (20ms per frame

plus 5ms look-ahead,

20ms for 12.2 kbps)

AMR-WB6.60, 8.85, 12.65,14.25, 15.85, 18.25, 19.85, 23.05, 23.85 kbps16kHz25ms (20ms per frame

plus 5ms look-ahead)

iLBC13.33 kbps

15.20 kbps

8kHz25 ms

40 ms

G.7298kbps8kHz15 ms

G.729.18 kbps,

12–32 kbps

8kHz

16kHz

48.94ms

Codec20.7, 1.2, 1.3, 1.4,

1.6, 2.4, 3.2 kbps

8kHz20–40 ms

(額外增加的,超低碼率)

短語音不同於實時語音,可以忽略延遲

上面都是為人聲場景設計的低碼率音頻編解碼器,具有碼率低(16kbps以下),演算法延遲低(大部分在40ms以下),和采樣率在8kHz和16kHz之間的特點,都可供短語音編碼方案選擇。其中,有幾個語音編解碼器值得在這里稍作介紹:

Opus(SILK)

https://en.wikipedia.org/wiki/Opus_(audio_format)

完全開源而且免費,包含了SILK、CELT、以及兩者的混合模式,是目前最為兼容並包的音頻編解碼器。在處理窄帶和寬頻人聲語音(speech)的時候,採用SILK; 在處理超寬頻和全帶音樂聲音(music)的時候,採用CELT。在人聲和音樂聲混合的場景中,甚至可以智能切換兩個編解碼器。WebRTC就採用了Opus作為語音編解碼器。而SILK是Skype網路電話所用的語音編解碼器。Opus真可謂是久經考驗的名門精品。根據即構科技的測試結果,Opus雖然在音樂場景中表現並非首選,但是在人聲場景中表現十分出色。

iLBC

完全開源而且免費的,由GIPS開發並被IETF標准化,曾經被QQ和Skype使用過,現在被WebRTC使用,是被世界頂級產品證明過的窄帶實時語音編解碼器。iLBC能夠通過平滑降低語音質量的方式來處理IP網路丟包。由於iLBC的語音幀塊之間是相互獨立的,在丟幀出現的時候也不會導致錯誤蔓延,因此具有較強的抗丟包能力。在窄帶應用環境中,iLBC具有延遲低,無斷續或雜音的特點,通話效果可以和行動電話媲美。

Speex

免費的人聲音頻編解碼器。因為Speex是為VoIP專門設計的,所以Speex對IP網路有很強的抗丟包能力。為了達到這個目的,Speex採用了CELP演算法。市場上狼人殺產品的游戲實時語音技術,廠商自研的方案採用了Speex。

Codec2

開源並且專利免費,碼率超低的人聲語音編解碼器。碼率在0.7 kbps至3.2 kbps。Codec2填補了開源編碼器在5 kbps碼率以下的空白。

評估音頻編碼指標,除碼率、采樣率、和演算法延遲以外,還要參考MOS、VBR/CBR、和基礎演算法等。其中,MOS (Mean Opinion Score)是語音編解碼器的主觀評估指標。MOS是一個廣為接受的有統計意義的主觀聽音指標。上面音視頻編解碼器的列表沒有把它包含進去,是因為同一個編解碼器,在不同碼率下,表現出來的MOS值是會變化的。對一個音頻編解碼器給出一個固定的MOS值,反而會起誤導的作用。另外,雖然MOS值已經是主觀的聽覺測試評估結果,但是音頻工程師在選用音頻編解碼器的時候,還要以自己親身的聽感作為最終的依據。

下圖是Nokia在2011年的時候對Opus、AMR、和G.722.1C等音頻編解碼器在無噪音和有噪音的環境里做的MOS語音測試的結果。我們可以從語音測試的結果看出:

1)MOS值會隨著碼率變化。固定的MOS值並沒有絕對的參考意義。

2)在低碼率情況下,AMR-NB和AMR-WB都表現相對出色。

參考:

1.Getting Started with Audio & Video: https://developer.apple.com/library/content/referencelibrary/GettingStarted/GS_MusicAudio/_index.html

2.Opus ios: https://github.com/chrisballinger/Opus-iOS

3.android opus: https://gitlab.com/axet/android-opus

4.opus_android: https://github.com/louisyonge/opus_android

5.opuscodec: https://github.com/martoreto/opuscodec

6.與大家討論如何用opencore amr在iOS上decode: https://blog.csdn.net/devday/article/details/6804553

7. ios支持 https://developer.apple.com/library/archive/documentation/MusicAudio/Conceptual/CoreAudioOverview/CoreAudioEssentials/CoreAudioEssentials.html#//apple_ref/doc/uid/TP40003577-CH10-SW13

E. 一些手機app真的可以發出聲波來驅走蚊子嗎

手機app發出的聲波,當然趕不走蚊子,如果僅僅依靠手機app就可以達到驅趕蚊子的效果,那麼全世界的蚊香廠包括電蚊拍廠估計早就倒閉了。

一、手機揚聲器根本發不出超聲波。

首先網上下載的app總是發出嗡嗡的聲音,那並不是超聲波。消滅蚊子目前最有效的方法就是蚊香和電蚊拍,一種物理方法,一種化學方法。但是建議是最好是用電蚊拍這種物理方法消滅蚊子,或者使用傳統的蚊帳。效果也非常好,而且蚊子並不是根據血型來選擇獵物的。蚊子是根據熱量和排出的二氧化碳量來選擇獵物的。所以一般代謝較快的人更吸引蚊子,所以胖子招蚊子,這句話並不是空穴來風。

F. 有沒有大神 用Android實現仿照Siri聲波曲線

代碼實現

波浪其實是由4條貝塞爾曲線組成的,可以在自定義View的onDraw函數中,用Path.quadTo函數畫出4條曲線。

Path.quadTo(float x1, float y1, float x2, float y2)

其中,x1,y1為控制點的坐標值,x2,y2為終點的坐標值;當控制點的x1位於起點與終點之間時,將畫出正弦曲線,此時y1控制正弦曲線的高度,即效果圖中波浪的高度由y1控制。
實現了曲線繪制和高度控制之後,如何讓曲線像波浪一樣動起來呢?
我的解決方法是在屏幕左邊,即x<0的位置,同樣繪制4條正弦曲線,並且啟動線程讓8條曲線都向右移動,當左邊4條曲線全部移動到屏幕內後,讓這8條曲線復位。如此周期進行。
解析

使用方法

在xml中,

<com.tao.view.SiriView
android:id="@+id/siriView"
android:layout_width="match_parent"
android:layout_height="100dp"
android:layout_centerInParent="true"/>

在Activity.Java中,

SiriView siriView = (SiriView) findViewById(R.id.siriView);
// 停止波浪曲線
siriView.stop();
// 設置曲線高度,height的取值是0f~1f
siriView.setWaveHeight(0.5f);
// 設置曲線的粗細,width的取值大於0f
siriView.setWaveWidth(5f);
// 設置曲線顏色
siriView.setWaveColor(Color.rgb(39, 188, 136));
// 設置曲線在X軸上的偏移量,默認值為0f
siriView.setWaveOffsetX(0f);
// 設置曲線的數量,默認是4
siriView.setWaveAmount(4);
// 設置曲線的速度,默認是0.1f
siriView.setWaveSpeed(0.1f);

G. android鈴聲剪輯軟體的波形圖怎麼實現的

首先我先從手機錄制聲音的原理來給你說吧。
我們的話筒並不能直接錄制我們的聲音。而是通過我們的聲音發出的聲波改變了電流量還是電阻忘了的大小,然後我們的手機CPU也就是我們手機的大腦,記錄這個變化的過程,當我們要播放我們的錄音的時候。手機,再把記錄的變化過程還原R鈴聲剪輯中的波形圖,也就是我們的聲波形狀。有些時候我們會看見波形圖,有些時候會高,有些時候會低。

H. 有沒有大神 用Android實現仿照Siri聲波曲線

類似蘋果siri的安卓軟體當然有,訊飛語音助手、網路語音助手。。。。還有的名字想不起來了,不過好像都不支持西班牙語,可以到美玩吧下載這些語音軟體試試看,

閱讀全文

與android聲波效果相關的資料

熱點內容
android錄屏工具 瀏覽:838
成都互動直播系統源碼 瀏覽:953
usb藍牙android 瀏覽:405
伺服器顯示error1什麼意思 瀏覽:708
python代碼精簡 瀏覽:457
文件加密了怎麼找到了 瀏覽:193
jellyfin插件怎麼選擇主伺服器 瀏覽:836
asp用戶注冊源碼 瀏覽:48
什麼是照片壓縮文件 瀏覽:392
java調用js代碼 瀏覽:979
崑山市民app怎麼修改身份信息 瀏覽:779
php登陸次數 瀏覽:744
python字元轉成數字 瀏覽:822
海川用的是什麼伺服器 瀏覽:376
口才是練出來的pdf 瀏覽:458
雲伺服器哪個公司性價比高 瀏覽:517
源碼論壇打包 瀏覽:558
php怎麼做成word 瀏覽:692
python批量生成密鑰 瀏覽:492
程序員要不要考社區人員 瀏覽:150