① python 適合大數據量的處理嗎
python可以處理大數據,python處理大數據不一定是最優的選擇。適合大數據處理。而不是大數據量處理。 如果大數據量處理,需要採用並用結構,比如在hadoop上使用python,或者是自己做的分布式處理框架。
python的優勢不在於運行效率,而在於開發效率和高可維護性。針對特定的問題挑選合適的工具,本身也是一項技術能力。
Python處理數據的優勢(不是處理大數據):
1. 異常快捷的開發速度,代碼量巨少
2. 豐富的數據處理包,不管正則也好,html解析啦,xml解析啦,用起來非常方便
3. 內部類型使用成本巨低,不需要額外怎麼操作(java,c++用個map都很費勁)
4. 公司中,很大量的數據處理工作工作是不需要面對非常大的數據的
5. 巨大的數據不是語言所能解決的,需要處理數據的框架(hadoop, mpi)雖然小眾,但是python還是有處理大數據的框架的,或者一些框架也支持python。
(1)python數據降噪效果評價擴展閱讀:
Python處理數據缺點:
Python處理大數據的劣勢:
1、python線程有gil,通俗說就是多線程的時候只能在一個核上跑,浪費了多核伺服器。在一種常見的場景下是要命的:並發單元之間有巨大的數據共享或者共用(例如大dict)。
多進程會導致內存吃緊,多線程則解決不了數據共享的問題,單獨的寫一個進程之間負責維護讀寫這個數據不僅效率不高而且麻煩
2、python執行效率不高,在處理大數據的時候,效率不高,這是真的,pypy(一個jit的python解釋器,可以理解成腳本語言加速執行的東西)能夠提高很大的速度,但是pypy不支持很多python經典的包,例如numpy。
3. 絕大部分的大公司,用java處理大數據不管是環境也好,積累也好,都會好很多。
參考資料來源:網路-Python
② 分析excel和python在處理數據時各自的優劣點
兩者都是數據分析處理工具,excel上手簡單,操作界面人性化,小批量數據處理神器;
python需要點編程基礎,安裝步驟、導入庫、編譯器、語法讓很多人不懂了,但它在擴展性強,存在大量外部擴展庫,什麼批量合並excel工作簿、批量發送郵件、自動化生成報表之類,雖然這些excel都可以,但涉及到VB語言,遠不及python語法簡單;但是如果一份幾百條數據,需要統計一個結果,excel插入透視表,分類匯總兩步搞定,你非要用python,先是導入pandas/numpy,又是xlrd,接著又是groupby,一頓操作猛如虎,看著十分高大上,人家excel2秒鍾早已搞定;
數據處理:兩者都很熟練的情況下,不考慮數據數量,基本平分秋色,excel成熟體系的快捷鍵、功能;python豐富的各類外部庫;
數據分析:這個的話excel雖然有規劃求解、方差分析、T檢驗之類的工具,但是你要搞個k-mean聚類、決策樹之類的,excel是不行的,還有就是處理數據級與運行效率的問題,excel單表100W,能處理得差不多就二三十萬,多了就卡死了,python就不存在這個問題。
總而言之,公司日常報表,財務類、考勤類、部門小組業績類,這些基本excel就可以搞定,但你要搞大數據分析,隨隨便便幾百萬條數據,excel表示心有餘而力不足。
③ Python氣象數據處理與繪圖(4):顯著性檢驗
其實在(2)中已經提到了相關系數和回歸系數,在計算過程中,直接返回了對應的p-value,因此可以直接使用p-value。
計算兩個獨立樣本得分均值的T檢驗。
這是對兩個獨立樣本具有相同平均值(預期值)的零假設的雙邊檢驗。此測試假設默認情況下總體具有相同的方差。在合成分析中通常用到t-test。
當a,b為變數場時,即[time,lat,lon]時,a,b兩個數組的經緯度需相同。
nan_policy 可選{『propagate』, 『raise』, 『omit』}
「propagate」:返回nan
「raise」:報錯
「omit」:執行忽略nan值的計算
計算得到的P值用於繪圖,當p<0.01時,通過99%顯著性檢驗,p<0.05,通過95%顯著性檢驗,以此類推。
圖形繪制只需在原有填色圖上疊加打點圖層,實際上打點也是特殊的圖色,只不過將顏色換成了點,實際上用到的還是contourf函數。
通過contourf對應參數調節打點圖層的細節。
④ Python 簡單的擴音,音頻去噪,靜音剪切
數字信號是通過對連續的模擬信號采樣得到的離散的函數。它可以簡單看作一個以時間為下標的數組。比如,x[n],n為整數。比如下圖是一個正弦信號(n=0,1, ..., 9):
對於任何的音頻文件,實際上都是用這種存儲方式,比如,下面是對應英文單詞「skip」的一段信號(只不過由於點太多,筆者把點用直線連接了起來):
衡量數字信號的 能量(強度) ,只要簡單的求振幅平方和即可:
我們知道,聲音可以看作是不同頻率的正弦信號疊加。那麼給定一個聲音信號(如上圖),怎麼能夠知道這個信號在不同頻率區段上的強度呢?答案是使用離散傅里葉變換。對信號x[n], n=0, ..., N-1,通常記它的離散傅里葉變換為X[n],它是一個復值函數。
比如,對上述英文單詞「skip」對應的信號做離散傅里葉變換,得到它在頻域中的圖像是:
可以看到能量主要集中在中低音部分(約16000Hz以下)。
在頻域上,也可以計算信號的強度,因為根據Plancherel定理,有:
對於一般的語音信號,長度都至少在1秒以上,有時候我們需要把其中比如25毫秒的一小部分單獨拿出來研究。將一個信號依次取小段的操作,就稱作分幀。技術上,音頻分幀是通過給信號加一系列的 窗 函數 實現的。
我們把一種特殊的函數w[n],稱作窗函數,如果對所有的n,有0<=w[n]<=1,且只有有限個n使得w[n]>0。比如去噪要用到的漢寧窗,三角窗。
漢寧窗
三角窗
我們將平移的窗函數與原始信號相乘,便得到信號的「一幀」:
w[n+d]*x[n]
比如用長22.6毫秒的漢寧窗加到「skip」信號大約中間部位上,得到一幀的信號:
可見除一有限區間之外,加窗後的信號其他部分都是0。
對一幀信號可以施加離散傅里葉變換(也叫短時離散傅里葉變換),來獲取信號在這一幀內(通常是很短時間內),有關頻率-能量的分布信息。
如果我們把信號按照上述方法分成一幀一幀,又將每一幀用離散傅里葉變換轉換到頻域中去,最後將各幀在頻域的圖像拼接起來,用橫坐標代表時間,縱坐標代表頻率,顏色代表能量強度(比如紅色代表高能,藍色代表低能),那麼我們就構造出所謂 頻譜圖 。比如上述「skip」發音對應的信號的頻譜圖是:
(使用5.8毫秒的漢寧窗)
從若干幀信號中,我們又可以恢復出原始信號。只要我們適當選取窗口大小,以及窗口之間的平移距離L,得到 ..., w[n+2L], w[n+L], w[n], w[n-L], w[n-2L], ...,使得對k求和有:
從而簡單的疊加各幀信號便可以恢復出原始信號:
最後,注意窗函數也可以在頻域作用到信號上,從而可以起到取出信號的某一頻段的作用。
下面簡單介紹一下3種音效。
1. 擴音
要擴大信號的強度,只要簡單的增大信號的「振幅」。比如給定一個信號x[n],用a>1去乘,便得到聲音更大的增強信號:
同理,用系數0<a<1去乘,便得到聲音變小的減弱信號。
2. 去噪(降噪)
對於白噪音,我們可以簡單的用「移動平均濾波器」來去除,雖然這也會一定程度降低聲音的強度,但效果的確不錯。但是,對於成分較為復雜,特別是頻段能量分布不均勻的雜訊,則需要使用下面的 雜訊門 技術,它可以看作是一種「多帶通濾波器」。
這個特效的基本思路是:對一段雜訊樣本建模,然後降低待降噪信號中雜訊的分貝。
更加細節的說,是在信號的若干頻段f[1], ..., f[M]上,分別設置雜訊門g[1], ..., g[M],每個門都有一個對應的閾值,分別是t[1], ..., t[M]。這些閾值時根據雜訊樣本確定的。比如當通過門g[m]的信號強度超過閾值t[m]時,門就會關閉,反之,則會重新打開。最後通過的信號便會只保留下來比雜訊強度更大的聲音,通常也就是我們想要的聲音。
為了避免雜訊門的開合造成信號的劇烈變動,筆者使用了sigmoid函數做平滑處理,即雜訊門在開-關2個狀態之間是連續變化的,信號通過的比率也是在1.0-0.0之間均勻變化的。
實現中,我們用漢寧窗對信號進行分幀。然後對每一幀,又用三角窗將信號分成若干頻段。對雜訊樣本做這樣的處理後,可以求出信號每一頻段對應的閾值。然後,又對原始信號做這樣的處理(分幀+分頻),根據每一幀每一頻段的信號強度和對應閾值的差(diff = energy-threshold),來計算對應雜訊門的開合程度,即通過信號的強度。最後,簡單的將各頻段,各幀的通過信號疊加起來,便得到了降噪信號。
比如原先的「skip」語音信號頻譜圖如下:
可以看到有較多雜音(在高頻,低頻段,藍色部分)。採集0.25秒之前的聲音作為雜訊樣本,對信號作降噪處理,得到降噪後信號的頻譜圖如下:
可以明顯的看到大部分噪音都被清除了,而語音部分仍完好無損,強度也沒有減弱,這是「移動平均濾波器」所做不到的。
3. 靜音剪切
在對音頻進行上述降噪處理後,我們還可以進一步把多餘的靜音去除掉。
剪切的原理十分簡單。首先用漢寧窗對信號做分幀。如果該幀信號強度過小,則捨去該幀。最後將保留的幀疊加起來,便得到了剪切掉靜音部分的信號。
比如,對降噪處理後的「skip」語音信號做靜音剪切,得到的新信號的頻譜圖為:
⑤ ssa數據降噪演算法簡易實例
原始數據是[1 9 2 8 3 7]
嵌入:
比如選擇的窗口長度L為3,得到的矩陣就是:
[1 9 2]
[9 2 8]
[2 8 3]
[8 3 7]
SVD分解:
Python里自帶一個函數進行分解,就不用它參考文獻上寫的啥X乘X的轉置了,函數是這個:
u, s, v = np.linalg.svd(嵌入得到的矩陣)
得到的三個結果是這樣的
u是個形狀為(4, 4)的矩陣,為啥是4我不知道
[-0.34748861 -0.67722177 0.41306458 -0.5 ]
[-0.62332023 0.4373678 -0.41253036 -0.5 ]
[-0.38669102 -0.52074809 -0.57383924 0.5 ]
[-0.58411781 0.28089413 0.57437346 0.5 ]
s是,形狀為(3,)
[18.29004176 9.97102473 0.23030046]
奇藝譜就是s里取最大值,這里為 18.29004175999194
v是,形狀是(3, 3)
[-0.62349202 -0.50409505 -0.59761683]
[ 0.44777196 -0.85683898 0.25559193]
[ 0.64090402 0.10823653 -0.7599519 ]
重構:
重構矩陣的計算方法是 newMatrix = value * u1 * v1
value就是奇藝譜,SVD分解里得到的s里的最大值,上面也提了一下,這里value是: 18.29004175999194
u1是在u的基礎上,取第一行,為
[-0.34748861 -0.62332023 -0.38669102 -0.58411781]
v1是在u的基礎上,取第一行,為
[-0.62349202 -0.50409505 -0.59761683]
計算時需要對u1進行轉置,轉置後的u1是:
[-0.34748861]
[-0.62332023]
[-0.38669102]
[-0.58411781]
重構完的矩陣就是:
[3.96265415 3.203817 3.79820225]
[7.10815385 5.74696232 6.81316231]
[4.40970654 3.56526011 4.22670177]
[6.66110146 5.38551921 6.3846628 ]
最後把重構完的矩陣再轉變為一維數組:
設這個一維數組叫ret[],對於重構完的矩陣,對每一條次對角線進行計算,並把結果添加到ret[]里
利用兩個動態的變數,這里分別叫sigma和alpha,sigma是每條次對角線的數據的和,alpha是次對角線長度
ret.append(sigma/alpha)
就相當於添加了每條次對角線的平均值。
過程大概是這樣的:
pos is( 0 , 0 ) sigma+
alpha is 1 now
ret[] append
pos is( 1 , 0 ) sigma+,
pos is( 0 , 1 ) sigma+
alpha is 2 now
ret[] append
pos is( 2 , 0 ) sigma+
pos is( 1 , 1 ) sigma+
pos is( 0 , 2 ) sigma+
alpha is 3 now
ret[] append
pos is( 3 , 0 ) sigma+
pos is( 2 , 1 ) sigma+
pos is( 1 , 2 ) sigma+
alpha is 3 now
ret[] append
pos is( 3 , 1 ) sigma+
pos is( 2 , 2 ) sigma+
alpha is 2 now
ret[] append
pos is( 3 , 2 ) sigma+
alpha is 1 now
ret[] append
處理後的數據ret[]為:
[3.9626541544632476 5.155985423726059 4.651623704998423 5.67984129396347 4.806110489242382 6.384662797164128]
就是最終結果
備註:
因為窗口長度L的選擇不宜超過數據長度的1/3,這里數據長度是6,L為了為了算著方便選的3,所以這個例子的效果不好,但是領會精神。
做為參考的話,處理數據的時候,數據長度是300+,L選的4。
源碼訪問:https://git.twtstudio.com/chenpeiqi/ssa/tree/master
參考文獻https://www.ixueshu.com/document/.html
⑥ python做數據分析怎麼樣
我使用python這門語言也有三年了,被其簡潔、易讀、強大的庫所折服,我已經深深愛上了python。其pythonic語言特性,對人極其友好,可以說,一個完全不懂編程語言的人,看懂python語言也不是難事。
在數據分析和交互、探索性計算以及數據可視化等方面,相對於R、MATLAB、SAS、Stata等工具,Python都有其優勢。近年來,由於Python庫的不斷發展(如pandas),使其在數據挖掘領域嶄露頭角。結合其在通用編程方面的強大實力,我們完全可以只使用Python這一種語言去構建以數據為中心的應用程序。
由於python是一種解釋性語言,大部分編譯型語言都要比python代碼運行速度快,有些同學就因此鄙視python。但是小編認為,python是一門高級語言,其生產效率更高,程序員的時間通常比CPU的時間值錢,因此為了權衡利弊,考慮用python是值得的。
Python強大的計算能力依賴於其豐富而強大的庫:
Numpy
Numerical Python的簡稱,是Python科學計算的基礎包。其功能:
1. 快速高效的多維數組對象ndarray。
2. 用於對數組執行元素級計算以及直接對數組執行數學運算的函數。
3. 線性代數運算、傅里葉變換,以及隨機數生成。
4. 用於將C、C++、Fortran代碼集成到Python的工具。
除了為Python提供快速的數組處理能力,NumPy在數據分析方面還有另外一個主要作用,即作為在演算法之間傳遞數據的容器。對於數值型數據,NumPy數組在存儲和處理數據時要比內置的Python數據結構高效得多。此外,由低級語言(比如C和Fortran)編寫的庫可以直接操作NumPy數組中的數據,無需進行任何數據復制工作。
SciPy
是一組專門解決科學計算中各種標准問題域的包的集合,主要包括下面這些包:
1. scipy.integrate:數值積分常式和微分方程求解器。
2. scipy.linalg:擴展了由numpy.linalg提供的線性代數常式和矩陣分解功能。
3. scipy.optimize:函數優化器(最小化器)以及根查找演算法。
4. scipy.signal:信號處理工具。
5. scipy.sparse:稀疏矩陣和稀疏線性系統求解器。
6. scipy.special:SPECFUN(這是一個實現了許多常用數學函數(如伽瑪函數)的Fortran庫)的包裝器。
7. scipy.stats:標准連續和離散概率分布(如密度函數、采樣器、連續分布函數等)、各種統計檢驗方法,以及更好的描述統計法。
8. scipy.weave:利用內聯C++代碼加速數組計算的工具。
註:NumPy跟SciPy的有機結合完全可以替代MATLAB的計算功能(包括其插件工具箱)。
SymPy
是python的數學符號計算庫,用它可以進行數學表達式的符號推導和演算。
pandas
提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。
pandas兼具NumPy高性能的數組計算功能以及電子表格和關系型資料庫(如SQL)靈活的數據處理功能。它提供了復雜精細的索引功能,以便更為便捷地完成重塑、切片和切塊、聚合以及選取數據子集等操作。
對於使用R語言進行統計計算的用戶,肯定不會對DataFrame這個名字感到陌生,因為它源自於R的data.frame對象。但是這兩個對象並不相同。R的data.frame對象所提供的功能只是DataFrame對象所提供的功能的一個子集。也就是說pandas的DataFrame功能比R的data.frame功能更強大。
matplotlib
是最流行的用於繪制數據圖表的Python庫。它最初由John D. Hunter(JDH)創建,目前由一個龐大的開發人員團隊維護。它非常適合創建出版物上用的圖表。它跟IPython(馬上就會講到)結合得很好,因而提供了一種非常好用的互動式數據繪圖環境。繪制的圖表也是互動式的,你可以利用繪圖窗口中的工具欄放大圖表中的某個區域或對整個圖表進行平移瀏覽。
TVTK
是python數據三維可視化庫,是一套功能十分強大的三維數據可視化庫,它提供了Python風格的API,並支持Trait屬性(由於Python是動態編程語言,其變數沒有類型,這種靈活性有助於快速開發,但是也有缺點。而Trait庫可以為對象的屬性添加檢校功能,從而提高程序的可讀性,降低出錯率。) 和NumPy數組。此庫非常龐大,因此開發公司提供了一個查詢文檔,用戶可以通過下面語句運行它:
>>> from enthought.tvtk.toolsimport tvtk_doc
>>> tvtk_doc.main()
Scikit-Learn
是基於python的機器學習庫,建立在NumPy、SciPy和matplotlib基礎上,操作簡單、高效的數據挖掘和數據分析。其文檔、實例都比較齊全。
小編建議:初學者使用python(x, y),其是一個免費的科學和工程開發包,提供數學計算、數據分析和可視化展示。非常方便!
其官網:www.pythonxy.com(由於某種原因,國內上不去,需要翻牆)
下載地址:ftp://ftp.ntua.gr/pub/devel/pythonxy/(小編到網上搜到的一個地址,親測可以用)
下圖展示了python(x, y) 強大功能。
⑦ 如何評價Python的數據分析Cubes框架
最近一直在用keras,說點個人感受。1、keras根植於python及theano,人氣比較旺。2、提供較為上層的框架,搞個深度學習的原型非常方便。3、更新很快,我記得幾個月前還沒有multi-task的能力,最近再查就提供了graph的對象。4、最重要的,文檔很全。這點超過其它類似的基於theano的框架(Lasagne, Opendeep, Blocks)
⑧ 如何用python svd降噪
from recsys.algorithm.factorize import SVD
svd = SVD()
svd.load_data(dataset)
svd.compute(k=100, mean_center=True)
ITEMID1 = 1 # Toy Story
svd.similar(ITEMID1)
# Returns:
# [(1, 1.0), # Toy Story
# (3114, 0.87060391051018071), # Toy Story 2
# (2355, 0.67706936677315799), # A bug's life
# (588, 0.5807351496754426), # Aladdin
# (595, 0.46031829709743477), # Beauty and the Beast
# (1907, 0.44589398718134365), # Mulan
# (364, 0.42908159895574161), # The Lion King
# (2081, 0.42566581277820803), # The Little Mermaid
# (3396, 0.42474056361935913), # The Muppet Movie
# (2761, 0.40439361857585354)] # The Iron Giant
ITEMID2 = 2355 # A bug's life
svd.similarity(ITEMID1, ITEMID2)
# 0.67706936677315799