㈠ 濾波方法及python實現
對濾波的 總結 : 對特定頻率進行有效提取,並對提取部分進行特定的處理(增益,衰減,濾除)的動作被叫做濾波。
最常用的濾波器類型有三種: 通過式(Pass),擱架式(Shelving)和參量式(Parametric)。 濾波器都有一個叫 參考頻率(Reference Frequency)的東西 ,在不同類型的濾波器中,具體的叫法會有所不同。
通過式濾波器可以讓參考頻率一餘卜側的頻率成分完全通過該濾波器,同時對另一側的頻率成分做線性的衰減,就是,一邊讓通過,一邊逐漸被濾除。在信號學中,通過的區域被稱為通帶,濾除的區域被叫做阻帶,在通過式濾波器中,參考頻率通常被稱為截止頻率。
高通濾波器(high-pass filters):讓截止頻率後的高頻區域通過,另一側濾除,低通濾波器(low-pass filters):讓截止頻率前的低頻區域通過,另一側濾除,通
以下是高通濾波器與低通濾波器的核心參數:
截止頻率(Cut-off frequency) :決定了通帶(通過的頻率部分)與阻帶(阻止的頻率部分)的分界曲線,截止頻率的位置並非是在曲線開始彎曲的那個點,而是在-3dB的位置。以圖2左側的高通濾波器為例,截止頻率點之上的部分頻率並沒有全部被通過,而是有個曲線,在曲線回歸平直後其頻率才被完全通過。至於為什麼要將-3dB的位置設為截止頻率,是因為-3dB對氏慧於濾波器的設計而言是個非常重要的位置,如果設為其他位置,則會讓通過式濾波器的設計變得尤為復雜。
斜率(Slope) :表示的是通帶與阻帶的分界曲線的傾斜程度,也就是說斜率決定了分界曲線是偏向平緩的,還是偏向垂直的,斜率越大(更陡峭),人工處理的痕跡就越明顯。斜率的單位為dB/oct,中文稱為分貝每倍頻程。雖然繞口,但其實很簡單,如6dB/oct,意思為一個倍頻程的距離會產生6dB的衰減,數字濾波器常見的斜率選擇有6dB/oct,12dB/oct,18dB/oct,24dB/oct,30dB/oct等等(圖3)。
scipy.signal.filtfilt(b, a, x, axis=-1, padtype='odd', padlen=None, method='pad', irlen=None)
scipy.signal.butter(N, Wn, btype='low', analog=False, output='ba')
這里假設采樣頻率為1000hz,信號本身最大的頻率為500hz,殲毀答要濾除10hz以下和400hz以上頻率成分,即截至頻率為10hz和400hz,則wn1=2*10/1000=0.02,wn2=2*400/1000=0.8。Wn=[0.02,0.8]
㈡ 如何用python實現快速傅里葉變換
參考:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import scipy.fftpack
# Number of samplepoints
N = 600
# sample spacing
T = 1.0 / 800.0
x = np.linspace(0.0, N*T, N)
y = np.sin(50.0 * 2.0*np.pi*x) + 0.5*np.sin(80.0 * 2.0*np.pi*x)
yf = scipy.fftpack.fft(y)
xf = np.linspace(0.0, 1.0/(2.0*T), N/2)
fig, ax = plt.subplots()
ax.plot(xf, 2.0/N * np.abs(yf[:N//2]))
plt.show()
㈢ python 數據挖掘需要用哪些庫和工具
python 數據挖掘常用的庫太多了!主要分為以下幾大類:
第一數據獲取:request,BeautifulSoup
第二基本數學庫:numpy
第三 資料庫出路 pymongo
第四 圖形可視化 matplotlib
第五 樹分析基本的庫 pandas
數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘本質上像是機器學習和人工智慧的基礎,它的主要目的是從各種各樣的數據來源中,提取出超集的信息,然後將這些信息合並讓你發現你從來沒有想到過的模式和內在關系。這就意味著,數據挖掘不是一種用來證明假說的方法,而是用來構建各種各樣的假說的方法。
想要了解更多有關python 數據挖掘的信息,可以了解一下CDA數據分析師的課程。CDA數據分析師證書的含金量是很高的,簡單從兩個方面分析一下:首先是企業對於CDA的認可,經管之家CDA LEVEL Ⅲ數據科學家認證證書,屬於行業頂尖的人才認證,已獲得IBM大數據大學,中國電信,蘇寧,德勤,獵聘,CDMS等企業的認可。CDA證書逐漸獲得各企業用人單位認可與引進,如中國電信、中國移動、德勤,蘇寧,中國銀行,重慶統計局等。點擊預約免費試聽課。
㈣ 怎麼用python實現迭代傅里葉變換即GS演算法
import numpy as np
def read_data(filename):
'''讀取文本數據,格式:特徵1 特徵2 …… 類別'''
f=open(filename,'rt')
row_list=f.readlines() #以每行作為列表
f.close()
data_array=[]
labels_vector=[]
while True:
if not row_list:
break
row=row_list.pop(0).strip().split('\t') #去除換行號,分割製表符
temp_data_row=[float(a) for a in row[:-1]] #將字元型轉換為浮點型
data_array.append(temp_data_row) #取特徵值
labels_vector.append(row[-1]) #取最後一個作為類別標簽
return np.array(data_array),np.array(labels_vector)
def classify(test_data,dataset,labels,k):
'''分類'''
diff_dis_array=test_data-dataset #使用numpy的broadcasting
dis_array=(np.add.rece(diff_dis_array**2,axis=-1))**0.5 #求距離
dis_array_index=np.argsort(dis_array) #升序距離的索引
class_count={}
for i in range(k):
temp_label=labels[dis_array_index[i]]
class_count[temp_label]=class_count.get(temp_label,0)+1 #獲取類別及其次數的字典
sorted_class_count=sorted(class_count.items(), key=lambda item:item[1],reverse=True) #字典的值按降序排列
return sorted_class_count[0][0] #返回元組列表的[0][0]
㈤ Python 簡單的擴音,音頻去噪,靜音剪切
數字信號是通過對連續的模擬信號采樣得到的離散的函數。它可以簡單看作一個以時間為下標的數組。比如,x[n],n為整數。比如下圖是一個正弦信號(n=0,1, ..., 9):
對於任何的音頻文件,實際上都是用這種存儲方式,比如,下面是對應英文單詞「skip」的一段信號(只不過由於點太多,筆者把點用直線連接了起來):
衡量數字信號的 能量(強度) ,只要簡單的求振幅平方和即可:
我們知道,聲音可以看作是不同頻率的正弦信號疊加。那麼給定一個聲音信號(如上圖),怎麼能夠知道這個信號在不同頻率區段上的強度呢?答案是使用離散傅里葉變換。對信號x[n], n=0, ..., N-1,通常記它的離散傅里葉變換為X[n],它是一個復值函數。
比如,對上述英文單詞「skip」對應的信號做離散傅里葉變換,得到它在頻域中的圖像是:
可以看到能量主要集中在中低音部分(約16000Hz以下)。
在頻域上,也可以計算信號的強度,因為根據Plancherel定理,有:
對於一般的語音信號,長度都至少在1秒以上,有時候我們需要把其中比如25毫秒的一小部分單獨拿出來研究。將一個信號依次取小段的操作,就稱作分幀。技術上,音頻分幀是通過給信號加一系列的 窗 函數 實現的。
我們把一種特殊的函數w[n],稱作窗函數,如果對所有的n,有0<=w[n]<=1,且只有有限個n使得w[n]>0。比如去噪要用到的漢寧窗,三角窗。
漢寧窗
三角窗
我們將平移的窗函數與原始信號相乘,便得到信號的「一幀」:
w[n+d]*x[n]
比如用長22.6毫秒的漢寧窗加到「skip」信號大約中間部位上,得到一幀的信號:
可見除一有限區間之外,加窗後的信號其他部分都是0。
對一幀信號可以施加離散傅里葉變換(也叫短時離散傅里葉變換),來獲取信號在這一幀內(通常是很短時間內),有關頻率-能量的分布信息。
如果我們把信號按照上述方法分成一幀一幀,又將每一幀用離散傅里葉變換轉換到頻域中去,最後將各幀在頻域的圖像拼接起來,用橫坐標代表時間,縱坐標代表頻率,顏色代表能量強度(比如紅色代表高能,藍色代表低能),那麼我們就構造出所謂 頻譜圖 。比如上述「skip」發音對應的信號的頻譜圖是:
(使用5.8毫秒的漢寧窗)
從若干幀信號中,我們又可以恢復出原始信號。只要我們適當選取窗口大小,以及窗口之間的平移距離L,得到 ..., w[n+2L], w[n+L], w[n], w[n-L], w[n-2L], ...,使得對k求和有:
從而簡單的疊加各幀信號便可以恢復出原始信號:
最後,注意窗函數也可以在頻域作用到信號上,從而可以起到取出信號的某一頻段的作用。
下面簡單介紹一下3種音效。
1. 擴音
要擴大信號的強度,只要簡單的增大信號的「振幅」。比如給定一個信號x[n],用a>1去乘,便得到聲音更大的增強信號:
同理,用系數0<a<1去乘,便得到聲音變小的減弱信號。
2. 去噪(降噪)
對於白噪音,我們可以簡單的用「移動平均濾波器」來去除,雖然這也會一定程度降低聲音的強度,但效果的確不錯。但是,對於成分較為復雜,特別是頻段能量分布不均勻的雜訊,則需要使用下面的 雜訊門 技術,它可以看作是一種「多帶通濾波器」。
這個特效的基本思路是:對一段雜訊樣本建模,然後降低待降噪信號中雜訊的分貝。
更加細節的說,是在信號的若干頻段f[1], ..., f[M]上,分別設置雜訊門g[1], ..., g[M],每個門都有一個對應的閾值,分別是t[1], ..., t[M]。這些閾值時根據雜訊樣本確定的。比如當通過門g[m]的信號強度超過閾值t[m]時,門就會關閉,反之,則會重新打開。最後通過的信號便會只保留下來比雜訊強度更大的聲音,通常也就是我們想要的聲音。
為了避免雜訊門的開合造成信號的劇烈變動,筆者使用了sigmoid函數做平滑處理,即雜訊門在開-關2個狀態之間是連續變化的,信號通過的比率也是在1.0-0.0之間均勻變化的。
實現中,我們用漢寧窗對信號進行分幀。然後對每一幀,又用三角窗將信號分成若干頻段。對雜訊樣本做這樣的處理後,可以求出信號每一頻段對應的閾值。然後,又對原始信號做這樣的處理(分幀+分頻),根據每一幀每一頻段的信號強度和對應閾值的差(diff = energy-threshold),來計算對應雜訊門的開合程度,即通過信號的強度。最後,簡單的將各頻段,各幀的通過信號疊加起來,便得到了降噪信號。
比如原先的「skip」語音信號頻譜圖如下:
可以看到有較多雜音(在高頻,低頻段,藍色部分)。採集0.25秒之前的聲音作為雜訊樣本,對信號作降噪處理,得到降噪後信號的頻譜圖如下:
可以明顯的看到大部分噪音都被清除了,而語音部分仍完好無損,強度也沒有減弱,這是「移動平均濾波器」所做不到的。
3. 靜音剪切
在對音頻進行上述降噪處理後,我們還可以進一步把多餘的靜音去除掉。
剪切的原理十分簡單。首先用漢寧窗對信號做分幀。如果該幀信號強度過小,則捨去該幀。最後將保留的幀疊加起來,便得到了剪切掉靜音部分的信號。
比如,對降噪處理後的「skip」語音信號做靜音剪切,得到的新信號的頻譜圖為: