1. python中音頻圖像識別和網頁相關的庫合集!
1、OpenCV
OpenCV是最常用的圖像和視頻識別庫。毫不誇張地說,OpenCV能讓Python在圖像和視頻識別領域完全替代Matlab。
OpenCV提供各種應用程序介面,同時它不僅支持Python,還支持Java和Matlab。OpenCV出色的處理能力使其在計算機產業和學術研究中都廣受好評。
2、Librosa
Librosa是一個非常強大的音頻和聲音處理Python庫。Librosa可以用來從音頻段中提取各個部分,例如韻律,節奏以及節拍。
像Laplacia分割這樣極度復雜的演算法,在使用了Librosa之後只需幾行代碼就能輕而易舉的運用。
Python在被廣泛運用於數據科學領域前,曾經可是網頁開發領域的寵兒。因此也有很多用於網頁開發的庫。
3、Django
要想使用Python來開發一個網頁服務後端,Django一直都是不二之選。Django的設計理念便是,能用幾行代碼就建立一個網站的高級框架。
Django直接與大多數知名資料庫相連,這樣使用者就可以省下建立連接和數據模型開發的時間。Django的使用者只需專注於業務邏輯而不需擔心受創建、更新、讀取和刪除(Create,update,retrieve and delete, CURD)的操控,因為Django是一個由資料庫驅動的框架。
4、Flask
Flask是一個用於Python的輕量級網頁開發框架。其最寶貴的特點是能夠輕而易舉地進行能夠滿足任何需求的定製化處理。
有很多提供網站UI的知名Python庫和Python工具都是使用Flask構建的,例如Plotly Dash和Airflow。這些網站之所以使用Flask,正是由於其輕量級的特點。
誠然,還有許多優秀的Python庫應當被提及,但上述這些庫就足夠你研究好一陣子了。人生苦短,及時Python!
更多python知識,請關注python視頻教程!!
2. Python中怎樣實現離線音樂識別
Python中實現離線音樂識別方法:
1.先安裝PyAudio python -m pip install PyAudio-0.2.11-cp37-cp37m-win_amd64.whl
2.安裝語音識別 pip install SpeechRecognition
3.安裝離線語音識別 python -m pip install pocketsphinx-0.1.15-cp37-cp37m-win_amd64.whl
4.無普通話庫 下載地址https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/選 Mandarin文件夾 Mandarin->cmusphinx-zh-cn-5.2.tar.gz。
3. Python pyb音頻處理
Pyb可以讓你用簡單的方式處理音頻。
Pyb提供了簡潔的高層介面,極大的擴展了python處理音頻文件的能力。
GitHub鏈接: pyb-github
GitHub:
pyb的使用必須安裝對應的依賴軟體 ffmpeg 或 avconv
驗證是否安裝成功:
Open a WAV file
Open a mp3 file
Open a other file
切割音頻
分貝操作
分貝(decibel)是量度兩個相同單位之數量比例的計量單位,主要用於度量聲音強度,常用dB表示。
音頻鏈接
將一個文件添加到另一個文件的末尾
音頻長度
淡入淡出
重復音頻
再次淡入淡出
直接保存
所有ffmpeg支持的都支持
用標簽保存結果(元數據)
實例:
將mp3文件轉換成wav文件:
Python音頻處理庫 pyb
4. 有人在用python開發程序時使用到語音識別相關的東西嗎
調用網路語言識別API的
# -*- coding=utf-8 -*-
import base64
import urllib2
import urllib
import json
import wave
def get_token():
URL = 'http://openapi..com/oauth/2.0/token'
_params = urllib.urlencode({'grant_type': 'client_credentials',
'client_id': 'yours',#改成你自己的
'client_secret': 'yours'})#改成你自己的
_res = urllib2.Request(URL, _params)
_response = urllib2.urlopen(_res)
_data = _response.read()
_data = json.loads(_data)
return _data['access_token']
def wav_to_text(wav_file):
try:
wav_file = open(wav_file, 'rb')
except IOError:
print u'文件錯誤啊,親'
return
wav_file = wave.open(wav_file)
n_frames = wav_file.getnframes()
frame_rate = wav_file.getframerate()
if n_frames != 1 or frame_rate not in (8000, 16000):
print u'不符合格式'
return
audio = wav_file.readframes(n_frames)
seconds = n_frames/frame_rate+1
minute = seconds/60 + 1
for i in range(0, minute):
sub_audio = audio[i*60*frame_rate:(i+1)*60*frame_rate]
base_data = base64.b64encode(sub_audio)
data = {"format": "wav",
"token": get_token(),
"len": len(sub_audio),
"rate": frame_rate,
"speech": base_data,
"cuid": "B8-AC-6F-2D-7A-94",
"channel": 1}
data = json.mps(data)
res = urllib2.Request('http://vop..com/server_api',
data,
{'content-type': 'application/json'})
response = urllib2.urlopen(res)
res_data = json.loads(response.read())
print res_data['result'][0]
if __name__ == '__main__':
wav_to_text('demo.wav')
5. 如何用PYTHON代碼寫出音樂
什麼是MIDI
說到用代碼寫曲子,有一個東西大家一定要了解就是MIDI。MIDI是一種樂器數字介面,是編曲界最廣泛的音樂標准格式。MIDI並不是真正意義上的音樂文件,大家可以把它理解成樂譜,需要有環境編譯MIDI文件,才可以生成音樂。這個關系有點像代碼和編譯器的關系。市面上可以解析MIDI文件的軟體有很多種,本文將用到MuseScore2的軟體,以下就是這個軟體的截圖,界面中的五線譜就是MIDI文件的呈現。這個樂譜是可以播放的,並且可以導出為MP3格式的音樂文件。
下面我們就介紹下生成MIDI文件所使用的Python庫。
python-midi庫介紹
市面上差不多有十多種python庫可以編寫MIDI格式的文件,本文會推薦大家使用PYTHON-MIDI。我覺得python-midi的優勢是不光可以自己寫程序生成MIDI,而且還可以對MIDI文件進行解析。這樣的功能配合機器學習演算法,或許可以幫助我們實現機器的自動編曲,當然這是後話。先來看下如何安裝python-midi。
1.首先進入,將整個項目克隆下來。
2.在程序目錄下執行以下命令安裝,
python setup.py install11
3.如果想執行某個以mid為後綴的MIDI文件,只要執行以下命令即可:
midimp.py test.mid11
接下來介紹下如何寫代碼生成midi文件。
實操
在python-midi庫中,每個樂譜用Pattern對象表示,樂譜中的每個音軌(通常音樂都有很多軌道組成,每種樂器是一個軌道)用Track對象表示。每個音符的開端用midi.NoteOnEvent表示,結束用midi.NoteOffEvent表示,可以在參數中定義每個字元的音長和音高。示例代碼如下:
生成的是一個簡單的音階:
6. Python語音識別,調用的是哪個客戶端介面函數
調用騰訊雲的語音識別(一句話識別)介面-Python版。
安裝語音識別,語音識別器編碼,處理Ubuntu伺服器,處理WSL。
要運行我們代碼的語音識別庫,我們首先需要安裝語音識別,然後還必須安裝PyAudio。首先,我們從主包開始:sudo pip3 install SpeechRecognition安裝應該遵循完全相同的格式,但我似乎缺少了讓它正常工作的軟體包,試圖安裝PyAudio會出錯。這些軟體包應該刪除該錯誤。那時我不需要更新apt,但先更新它並不壞處。sudo apt-get install libasound-dev portaudio19-dev libportaudio2libportaudiocpp0有了它,您應該可以安裝PyAudio:sudo pip3 install PyAudio語音識別器編碼。
運行WSL(Linux版Windows子系統)的Windows機器。它也使用了Ubuntu 16.04,所以安裝過程是一樣的。不過說到使用麥克風,WSL並不那麼簡單。為了通過Ubuntu終端應用程序控制麥克風,需要安裝PulseAudio。
7. 怎麼通過程序(如python)判斷一個音頻文件(如wav、mp3等格式)的聲音清晰度
我用wpf畫過wav的頻譜圖和語譜圖,這里有個參考http://www.codeproject.com/Articles/488655/Visualizing-Sound
波形圖應該更簡單吧 計算聲音強度就好了 至於mp3我想應該先解碼成pcm
8. 如何用python調用百度語音識別
1、首先需要打開網路AI語音系統,開始編寫代碼,如圖所示,編寫好回車。