語音頻譜圖python_怎麼通過程序（如python）判斷一個音頻文件（如wav、mp3等格式）的聲音清晰度

❶ 【小項目-1】用python進行人聲伴奏分離和音樂特徵提取

比如采樣率為22050，音頻文件有36s，那麼x為長度為22050*36=793800的float。

用到了python庫 Spleeter
抽象地了解下原理吧
參考文章是這篇：Spleeter: a fast and efficient music source separation tool with pre-trained models
原理文章是這篇 SINGING VOICE SEPARATION: A STUDY ON TRAINING DATA
粗略掃了一眼，原理主要是用U-Net進行分割，然後這個Python工具主要是利用了一個pre-trained的model。

參考鏈接：機器之心的一篇文章

縱軸表示頻率（從0到10kHz），橫軸表示剪輯的時間。由於我們看到所有動作都發生在頻譜的底部，我們可以將頻率軸轉換為對數軸。

可以對頻率取對數。

感覺這個參數蠻有意思的

整個頻譜被投影到12個區間，代表音樂八度音的12個不同的半音（或色度）， librosa.feature.chroma_stft 用於計算。

先對音頻進行短時傅里葉變換

其中每行存儲一個窗口的STFT，大小為1025*1551

這里要注意理解怎麼基於stft的結果來畫頻譜圖

沒太了解，感覺就大概知道有這么個量可以用到就行。

librosa.feature.spectral_centroid 計算信號中每幀的光譜質心：

1. 先理解連續傅里葉變換

2. 再理解離散傅里葉變換
對連續函數進行離散采樣

3. 最後進入短時傅里葉變換
是先把一個函數和窗函數進行相乘，然後再進行一維的傅里葉變換。並通過窗函數的滑動得到一系列的傅里葉變換結果，將這些結果豎著排開得到一個二維的表象。

❷ 怎麼通過程序（如python）判斷一個音頻文件（如wav、mp3等格式）的聲音清晰度

我用wpf畫過wav的頻譜圖和語譜圖，這里有個參考http://www.codeproject.com/Articles/488655/Visualizing-Sound
波形圖應該更簡單吧計算聲音強度就好了至於mp3我想應該先解碼成pcm

❸ Python 簡單的擴音，音頻去噪，靜音剪切

數字信號是通過對連續的模擬信號采樣得到的離散的函數。它可以簡單看作一個以時間為下標的數組。比如，x[n]，n為整數。比如下圖是一個正弦信號(n=0,1, ..., 9)：

對於任何的音頻文件，實際上都是用這種存儲方式，比如，下面是對應英文單詞「skip」的一段信號(只不過由於點太多，筆者把點用直線連接了起來）：

衡量數字信號的能量（強度），只要簡單的求振幅平方和即可：

我們知道，聲音可以看作是不同頻率的正弦信號疊加。那麼給定一個聲音信號（如上圖），怎麼能夠知道這個信號在不同頻率區段上的強度呢？答案是使用離散傅里葉變換。對信號x[n], n=0, ..., N-1，通常記它的離散傅里葉變換為X[n]，它是一個復值函數。

比如，對上述英文單詞「skip」對應的信號做離散傅里葉變換，得到它在頻域中的圖像是：

可以看到能量主要集中在中低音部分（約16000Hz以下）。

在頻域上，也可以計算信號的強度，因為根據Plancherel定理，有：

對於一般的語音信號，長度都至少在1秒以上，有時候我們需要把其中比如25毫秒的一小部分單獨拿出來研究。將一個信號依次取小段的操作，就稱作分幀。技術上，音頻分幀是通過給信號加一系列的窗函數實現的。

我們把一種特殊的函數w[n]，稱作窗函數，如果對所有的n，有0<=w[n]<=1，且只有有限個n使得w[n]>0。比如去噪要用到的漢寧窗，三角窗。

漢寧窗

三角窗

我們將平移的窗函數與原始信號相乘，便得到信號的「一幀」：

w[n+d]*x[n]

比如用長22.6毫秒的漢寧窗加到「skip」信號大約中間部位上，得到一幀的信號：

可見除一有限區間之外，加窗後的信號其他部分都是0。

對一幀信號可以施加離散傅里葉變換（也叫短時離散傅里葉變換），來獲取信號在這一幀內（通常是很短時間內），有關頻率-能量的分布信息。

如果我們把信號按照上述方法分成一幀一幀，又將每一幀用離散傅里葉變換轉換到頻域中去，最後將各幀在頻域的圖像拼接起來，用橫坐標代表時間，縱坐標代表頻率，顏色代表能量強度（比如紅色代表高能，藍色代表低能），那麼我們就構造出所謂頻譜圖。比如上述「skip」發音對應的信號的頻譜圖是：

（使用5.8毫秒的漢寧窗）

從若干幀信號中，我們又可以恢復出原始信號。只要我們適當選取窗口大小，以及窗口之間的平移距離L，得到 ..., w[n+2L], w[n+L], w[n], w[n-L], w[n-2L], ...，使得對k求和有：

從而簡單的疊加各幀信號便可以恢復出原始信號：

最後，注意窗函數也可以在頻域作用到信號上，從而可以起到取出信號的某一頻段的作用。

下面簡單介紹一下3種音效。

1. 擴音

要擴大信號的強度，只要簡單的增大信號的「振幅」。比如給定一個信號x[n]，用a>1去乘，便得到聲音更大的增強信號：

同理，用系數0<a<1去乘，便得到聲音變小的減弱信號。

2. 去噪（降噪）

對於白噪音，我們可以簡單的用「移動平均濾波器」來去除，雖然這也會一定程度降低聲音的強度，但效果的確不錯。但是，對於成分較為復雜，特別是頻段能量分布不均勻的雜訊，則需要使用下面的雜訊門技術，它可以看作是一種「多帶通濾波器」。

這個特效的基本思路是：對一段雜訊樣本建模，然後降低待降噪信號中雜訊的分貝。

更加細節的說，是在信號的若干頻段f[1], ..., f[M]上，分別設置雜訊門g[1], ..., g[M]，每個門都有一個對應的閾值，分別是t[1], ..., t[M]。這些閾值時根據雜訊樣本確定的。比如當通過門g[m]的信號強度超過閾值t[m]時，門就會關閉，反之，則會重新打開。最後通過的信號便會只保留下來比雜訊強度更大的聲音，通常也就是我們想要的聲音。

為了避免雜訊門的開合造成信號的劇烈變動，筆者使用了sigmoid函數做平滑處理，即雜訊門在開-關2個狀態之間是連續變化的，信號通過的比率也是在1.0-0.0之間均勻變化的。

實現中，我們用漢寧窗對信號進行分幀。然後對每一幀，又用三角窗將信號分成若干頻段。對雜訊樣本做這樣的處理後，可以求出信號每一頻段對應的閾值。然後，又對原始信號做這樣的處理（分幀+分頻），根據每一幀每一頻段的信號強度和對應閾值的差（diff = energy-threshold），來計算對應雜訊門的開合程度，即通過信號的強度。最後，簡單的將各頻段，各幀的通過信號疊加起來，便得到了降噪信號。

比如原先的「skip」語音信號頻譜圖如下：

可以看到有較多雜音（在高頻，低頻段，藍色部分）。採集0.25秒之前的聲音作為雜訊樣本，對信號作降噪處理，得到降噪後信號的頻譜圖如下：

可以明顯的看到大部分噪音都被清除了，而語音部分仍完好無損，強度也沒有減弱，這是「移動平均濾波器」所做不到的。

3. 靜音剪切

在對音頻進行上述降噪處理後，我們還可以進一步把多餘的靜音去除掉。

剪切的原理十分簡單。首先用漢寧窗對信號做分幀。如果該幀信號強度過小，則捨去該幀。最後將保留的幀疊加起來，便得到了剪切掉靜音部分的信號。

比如，對降噪處理後的「skip」語音信號做靜音剪切，得到的新信號的頻譜圖為：

❹ python繪制語譜圖怎麼設置成黃藍色

語音的時域分析和頻域分析是語音分析的兩種重要方法，但是都存在著局限性。時域分析對語音信號的頻率特性沒有直觀的了解，頻域特性中又沒有語音信號隨時間的變化關系。而語譜圖綜合了時域和頻域的優點，明顯的顯示出了語音頻譜隨時間的變化情況、語譜圖的橫軸為時間，縱軸為頻率，任意給定頻率成分在給定時刻的強弱用顏色深淺來表示。顏色深的，頻譜值大，顏色淺的，頻譜值小。語譜圖上不同的黑白程度形成不同的紋路，稱之為聲紋，不同講話者的聲紋是不一樣的，可用作聲紋識別。

下面是在python中繪制語譜圖：

# 導入相應的包
import numpy, waveimport matplotlib.pyplot as pltimport numpy as npimport os

filename = 'bluesky3.wav'
# 調用wave模塊中的open函數，打開語音文件。f = wave.open(filename,'rb')
# 得到語音參數
params = f.getparams()
nchannels, sampwidth, framerate,nframes = params[:4]
# 得到的數據是字元串，需要將其轉成int型
strData = f.readframes(nframes)
wavaData = np.fromstring(strData,dtype=np.int16)
# 歸一化
wavaData = wavaData * 1.0/max(abs(wavaData))
# .T 表示轉置
wavaData = np.reshape(wavaData,[nframes,nchannels]).T
f.close()
# 繪制頻譜
plt.specgram(wavaData[0],Fs = framerate,scale_by_freq=True,sides='default')
plt.ylabel('Frequency')
plt.xlabel('Time(s)')
plt.show()

導航:首頁 > 編程語言 > 語音頻譜圖python

語音頻譜圖python

與語音頻譜圖python相關的資料