python数据降噪效果评价_Python 适合大数据量的处理吗

① python 适合大数据量的处理吗

python可以处理大数据，python处理大数据不一定是最优的选择。适合大数据处理。而不是大数据量处理。如果大数据量处理，需要采用并用结构，比如在hadoop上使用python，或者是自己做的分布式处理框架。

python的优势不在于运行效率，而在于开发效率和高可维护性。针对特定的问题挑选合适的工具，本身也是一项技术能力。

Python处理数据的优势（不是处理大数据）：

1. 异常快捷的开发速度，代码量巨少

2. 丰富的数据处理包，不管正则也好，html解析啦，xml解析啦，用起来非常方便

3. 内部类型使用成本巨低，不需要额外怎么操作（java，c++用个map都很费劲）

4. 公司中，很大量的数据处理工作工作是不需要面对非常大的数据的

5. 巨大的数据不是语言所能解决的，需要处理数据的框架（hadoop， mpi）虽然小众，但是python还是有处理大数据的框架的，或者一些框架也支持python。

(1)python数据降噪效果评价扩展阅读：

Python处理数据缺点：

Python处理大数据的劣势：

1、python线程有gil，通俗说就是多线程的时候只能在一个核上跑，浪费了多核服务器。在一种常见的场景下是要命的：并发单元之间有巨大的数据共享或者共用（例如大dict）。

多进程会导致内存吃紧，多线程则解决不了数据共享的问题，单独的写一个进程之间负责维护读写这个数据不仅效率不高而且麻烦

2、python执行效率不高，在处理大数据的时候，效率不高，这是真的，pypy（一个jit的python解释器，可以理解成脚本语言加速执行的东西）能够提高很大的速度，但是pypy不支持很多python经典的包，例如numpy。

3. 绝大部分的大公司，用java处理大数据不管是环境也好，积累也好，都会好很多。

参考资料来源：网络-Python

② 分析excel和python在处理数据时各自的优劣点

两者都是数据分析处理工具，excel上手简单，操作界面人性化，小批量数据处理神器；
python需要点编程基础，安装步骤、导入库、编译器、语法让很多人不懂了，但它在扩展性强，存在大量外部扩展库，什么批量合并excel工作簿、批量发送邮件、自动化生成报表之类，虽然这些excel都可以，但涉及到VB语言，远不及python语法简单；但是如果一份几百条数据，需要统计一个结果，excel插入透视表，分类汇总两步搞定，你非要用python，先是导入pandas/numpy,又是xlrd，接着又是groupby，一顿操作猛如虎，看着十分高大上，人家excel2秒钟早已搞定；
数据处理：两者都很熟练的情况下，不考虑数据数量，基本平分秋色，excel成熟体系的快捷键、功能；python丰富的各类外部库；
数据分析：这个的话excel虽然有规划求解、方差分析、T检验之类的工具，但是你要搞个k-mean聚类、决策树之类的，excel是不行的，还有就是处理数据级与运行效率的问题，excel单表100W，能处理得差不多就二三十万，多了就卡死了，python就不存在这个问题。
总而言之，公司日常报表，财务类、考勤类、部门小组业绩类，这些基本excel就可以搞定，但你要搞大数据分析，随随便便几百万条数据，excel表示心有余而力不足。

③ Python气象数据处理与绘图(4)：显着性检验

其实在(2)中已经提到了相关系数和回归系数，在计算过程中，直接返回了对应的p-value，因此可以直接使用p-value。

计算两个独立样本得分均值的T检验。
这是对两个独立样本具有相同平均值（预期值）的零假设的双边检验。此测试假设默认情况下总体具有相同的方差。在合成分析中通常用到t-test。

当a,b为变量场时，即[time,lat,lon]时，a,b两个数组的经纬度需相同。
nan_policy 可选{‘propagate’, ‘raise’, ‘omit’}
“propagate”：返回nan
“raise”：报错
“omit”：执行忽略nan值的计算

计算得到的P值用于绘图，当p<0.01时，通过99%显着性检验，p<0.05，通过95%显着性检验，以此类推。
图形绘制只需在原有填色图上叠加打点图层,实际上打点也是特殊的图色，只不过将颜色换成了点，实际上用到的还是contourf函数。

通过contourf对应参数调节打点图层的细节。

④ Python 简单的扩音，音频去噪，静音剪切

数字信号是通过对连续的模拟信号采样得到的离散的函数。它可以简单看作一个以时间为下标的数组。比如，x[n]，n为整数。比如下图是一个正弦信号(n=0,1, ..., 9)：

对于任何的音频文件，实际上都是用这种存储方式，比如，下面是对应英文单词“skip”的一段信号(只不过由于点太多，笔者把点用直线连接了起来）：

衡量数字信号的能量（强度），只要简单的求振幅平方和即可：

我们知道，声音可以看作是不同频率的正弦信号叠加。那么给定一个声音信号（如上图），怎么能够知道这个信号在不同频率区段上的强度呢？答案是使用离散傅里叶变换。对信号x[n], n=0, ..., N-1，通常记它的离散傅里叶变换为X[n]，它是一个复值函数。

比如，对上述英文单词“skip”对应的信号做离散傅里叶变换，得到它在频域中的图像是：

可以看到能量主要集中在中低音部分（约16000Hz以下）。

在频域上，也可以计算信号的强度，因为根据Plancherel定理，有：

对于一般的语音信号，长度都至少在1秒以上，有时候我们需要把其中比如25毫秒的一小部分单独拿出来研究。将一个信号依次取小段的操作，就称作分帧。技术上，音频分帧是通过给信号加一系列的窗函数实现的。

我们把一种特殊的函数w[n]，称作窗函数，如果对所有的n，有0<=w[n]<=1，且只有有限个n使得w[n]>0。比如去噪要用到的汉宁窗，三角窗。

汉宁窗

三角窗

我们将平移的窗函数与原始信号相乘，便得到信号的“一帧”：

w[n+d]*x[n]

比如用长22.6毫秒的汉宁窗加到“skip”信号大约中间部位上，得到一帧的信号：

可见除一有限区间之外，加窗后的信号其他部分都是0。

对一帧信号可以施加离散傅里叶变换（也叫短时离散傅里叶变换），来获取信号在这一帧内（通常是很短时间内），有关频率-能量的分布信息。

如果我们把信号按照上述方法分成一帧一帧，又将每一帧用离散傅里叶变换转换到频域中去，最后将各帧在频域的图像拼接起来，用横坐标代表时间，纵坐标代表频率，颜色代表能量强度（比如红色代表高能，蓝色代表低能），那么我们就构造出所谓频谱图。比如上述“skip”发音对应的信号的频谱图是：

（使用5.8毫秒的汉宁窗）

从若干帧信号中，我们又可以恢复出原始信号。只要我们适当选取窗口大小，以及窗口之间的平移距离L，得到 ..., w[n+2L], w[n+L], w[n], w[n-L], w[n-2L], ...，使得对k求和有：

从而简单的叠加各帧信号便可以恢复出原始信号：

最后，注意窗函数也可以在频域作用到信号上，从而可以起到取出信号的某一频段的作用。

下面简单介绍一下3种音效。

1. 扩音

要扩大信号的强度，只要简单的增大信号的“振幅”。比如给定一个信号x[n]，用a>1去乘，便得到声音更大的增强信号：

同理，用系数0<a<1去乘，便得到声音变小的减弱信号。

2. 去噪（降噪）

对于白噪音，我们可以简单的用“移动平均滤波器”来去除，虽然这也会一定程度降低声音的强度，但效果的确不错。但是，对于成分较为复杂，特别是频段能量分布不均匀的噪声，则需要使用下面的噪声门技术，它可以看作是一种“多带通滤波器”。

这个特效的基本思路是：对一段噪声样本建模，然后降低待降噪信号中噪声的分贝。

更加细节的说，是在信号的若干频段f[1], ..., f[M]上，分别设置噪声门g[1], ..., g[M]，每个门都有一个对应的阈值，分别是t[1], ..., t[M]。这些阈值时根据噪声样本确定的。比如当通过门g[m]的信号强度超过阈值t[m]时，门就会关闭，反之，则会重新打开。最后通过的信号便会只保留下来比噪声强度更大的声音，通常也就是我们想要的声音。

为了避免噪声门的开合造成信号的剧烈变动，笔者使用了sigmoid函数做平滑处理，即噪声门在开-关2个状态之间是连续变化的，信号通过的比率也是在1.0-0.0之间均匀变化的。

实现中，我们用汉宁窗对信号进行分帧。然后对每一帧，又用三角窗将信号分成若干频段。对噪声样本做这样的处理后，可以求出信号每一频段对应的阈值。然后，又对原始信号做这样的处理（分帧+分频），根据每一帧每一频段的信号强度和对应阈值的差（diff = energy-threshold），来计算对应噪声门的开合程度，即通过信号的强度。最后，简单的将各频段，各帧的通过信号叠加起来，便得到了降噪信号。

比如原先的“skip”语音信号频谱图如下：

可以看到有较多杂音（在高频，低频段，蓝色部分）。采集0.25秒之前的声音作为噪声样本，对信号作降噪处理，得到降噪后信号的频谱图如下：

可以明显的看到大部分噪音都被清除了，而语音部分仍完好无损，强度也没有减弱，这是“移动平均滤波器”所做不到的。

3. 静音剪切

在对音频进行上述降噪处理后，我们还可以进一步把多余的静音去除掉。

剪切的原理十分简单。首先用汉宁窗对信号做分帧。如果该帧信号强度过小，则舍去该帧。最后将保留的帧叠加起来，便得到了剪切掉静音部分的信号。

比如，对降噪处理后的“skip”语音信号做静音剪切，得到的新信号的频谱图为：

⑤ ssa数据降噪算法简易实例

原始数据是[1 9 2 8 3 7]

嵌入：

比如选择的窗口长度L为3，得到的矩阵就是：

[1 9 2]

[9 2 8]

[2 8 3]

[8 3 7]

SVD分解：

Python里自带一个函数进行分解，就不用它参考文献上写的啥X乘X的转置了，函数是这个：

u, s, v = np.linalg.svd(嵌入得到的矩阵)

得到的三个结果是这样的

u是个形状为(4, 4)的矩阵，为啥是4我不知道

[-0.34748861 -0.67722177 0.41306458 -0.5 ]

[-0.62332023 0.4373678 -0.41253036 -0.5 ]

[-0.38669102 -0.52074809 -0.57383924 0.5 ]

[-0.58411781 0.28089413 0.57437346 0.5 ]

s是，形状为(3,)

[18.29004176 9.97102473 0.23030046]

奇艺谱就是s里取最大值，这里为 18.29004175999194

v是，形状是(3, 3)

[-0.62349202 -0.50409505 -0.59761683]

[ 0.44777196 -0.85683898 0.25559193]

[ 0.64090402 0.10823653 -0.7599519 ]

重构：

重构矩阵的计算方法是 newMatrix = value * u1 * v1

value就是奇艺谱，SVD分解里得到的s里的最大值，上面也提了一下，这里value是： 18.29004175999194

u1是在u的基础上，取第一行，为

[-0.34748861 -0.62332023 -0.38669102 -0.58411781]

v1是在u的基础上，取第一行，为

[-0.62349202 -0.50409505 -0.59761683]

计算时需要对u1进行转置，转置后的u1是：

[-0.34748861]

[-0.62332023]

[-0.38669102]

[-0.58411781]

重构完的矩阵就是：

[3.96265415 3.203817 3.79820225]

[7.10815385 5.74696232 6.81316231]

[4.40970654 3.56526011 4.22670177]

[6.66110146 5.38551921 6.3846628 ]

最后把重构完的矩阵再转变为一维数组：

设这个一维数组叫ret[]，对于重构完的矩阵，对每一条次对角线进行计算，并把结果添加到ret[]里

利用两个动态的变量，这里分别叫sigma和alpha,sigma是每条次对角线的数据的和，alpha是次对角线长度

ret.append(sigma/alpha)

就相当于添加了每条次对角线的平均值。

过程大概是这样的：

pos is( 0 , 0 ) sigma+

alpha is 1 now

ret[] append

pos is( 1 , 0 ) sigma+，

pos is( 0 , 1 ) sigma+

alpha is 2 now

ret[] append

pos is( 2 , 0 ) sigma+

pos is( 1 , 1 ) sigma+

pos is( 0 , 2 ) sigma+

alpha is 3 now

ret[] append

pos is( 3 , 0 ) sigma+

pos is( 2 , 1 ) sigma+

pos is( 1 , 2 ) sigma+

alpha is 3 now

ret[] append

pos is( 3 , 1 ) sigma+

pos is( 2 , 2 ) sigma+

alpha is 2 now

ret[] append

pos is( 3 , 2 ) sigma+

alpha is 1 now

ret[] append

处理后的数据ret[]为：

[3.9626541544632476 5.155985423726059 4.651623704998423 5.67984129396347 4.806110489242382 6.384662797164128]

就是最终结果

备注：

因为窗口长度L的选择不宜超过数据长度的1/3，这里数据长度是6，L为了为了算着方便选的3，所以这个例子的效果不好，但是领会精神。

做为参考的话，处理数据的时候，数据长度是300+，L选的4。

源码访问：https://git.twtstudio.com/chenpeiqi/ssa/tree/master

参考文献https://www.ixueshu.com/document/.html

⑥ python做数据分析怎么样

我使用python这门语言也有三年了，被其简洁、易读、强大的库所折服，我已经深深爱上了python。其pythonic语言特性，对人极其友好，可以说，一个完全不懂编程语言的人，看懂python语言也不是难事。

在数据分析和交互、探索性计算以及数据可视化等方面，相对于R、MATLAB、SAS、Stata等工具，Python都有其优势。近年来，由于Python库的不断发展（如pandas），使其在数据挖掘领域崭露头角。结合其在通用编程方面的强大实力，我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。

由于python是一种解释性语言，大部分编译型语言都要比python代码运行速度快，有些同学就因此鄙视python。但是小编认为，python是一门高级语言，其生产效率更高，程序员的时间通常比CPU的时间值钱，因此为了权衡利弊，考虑用python是值得的。

Python强大的计算能力依赖于其丰富而强大的库：

Numpy

Numerical Python的简称，是Python科学计算的基础包。其功能：

1. 快速高效的多维数组对象ndarray。

2. 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。

3. 线性代数运算、傅里叶变换，以及随机数生成。

4. 用于将C、C++、Fortran代码集成到Python的工具。

除了为Python提供快速的数组处理能力，NumPy在数据分析方面还有另外一个主要作用，即作为在算法之间传递数据的容器。对于数值型数据，NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外，由低级语言（比如C和Fortran）编写的库可以直接操作NumPy数组中的数据，无需进行任何数据复制工作。

SciPy

是一组专门解决科学计算中各种标准问题域的包的集合，主要包括下面这些包：

1. scipy.integrate：数值积分例程和微分方程求解器。

2. scipy.linalg：扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。

3. scipy.optimize：函数优化器（最小化器）以及根查找算法。

4. scipy.signal：信号处理工具。

5. scipy.sparse：稀疏矩阵和稀疏线性系统求解器。

6. scipy.special：SPECFUN（这是一个实现了许多常用数学函数（如伽玛函数）的Fortran库）的包装器。

7. scipy.stats：标准连续和离散概率分布（如密度函数、采样器、连续分布函数等）、各种统计检验方法，以及更好的描述统计法。

8. scipy.weave：利用内联C++代码加速数组计算的工具。

注：NumPy跟SciPy的有机结合完全可以替代MATLAB的计算功能（包括其插件工具箱）。

SymPy

是python的数学符号计算库，用它可以进行数学表达式的符号推导和演算。

pandas

提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能，以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。

对于使用R语言进行统计计算的用户，肯定不会对DataFrame这个名字感到陌生，因为它源自于R的data.frame对象。但是这两个对象并不相同。R的data.frame对象所提供的功能只是DataFrame对象所提供的功能的一个子集。也就是说pandas的DataFrame功能比R的data.frame功能更强大。

matplotlib

是最流行的用于绘制数据图表的Python库。它最初由John D. Hunter（JDH）创建，目前由一个庞大的开发人员团队维护。它非常适合创建出版物上用的图表。它跟IPython（马上就会讲到）结合得很好，因而提供了一种非常好用的交互式数据绘图环境。绘制的图表也是交互式的，你可以利用绘图窗口中的工具栏放大图表中的某个区域或对整个图表进行平移浏览。

TVTK

是python数据三维可视化库，是一套功能十分强大的三维数据可视化库，它提供了Python风格的API，并支持Trait属性(由于Python是动态编程语言，其变量没有类型，这种灵活性有助于快速开发，但是也有缺点。而Trait库可以为对象的属性添加检校功能，从而提高程序的可读性，降低出错率。) 和NumPy数组。此库非常庞大，因此开发公司提供了一个查询文档，用户可以通过下面语句运行它：

>>> from enthought.tvtk.toolsimport tvtk_doc

>>> tvtk_doc.main()

Scikit-Learn

是基于python的机器学习库，建立在NumPy、SciPy和matplotlib基础上，操作简单、高效的数据挖掘和数据分析。其文档、实例都比较齐全。

小编建议：初学者使用python(x, y)，其是一个免费的科学和工程开发包，提供数学计算、数据分析和可视化展示。非常方便！

其官网：www.pythonxy.com（由于某种原因，国内上不去，需要翻墙）

下载地址：ftp://ftp.ntua.gr/pub/devel/pythonxy/（小编到网上搜到的一个地址，亲测可以用）

下图展示了python(x, y) 强大功能。

⑦ 如何评价Python的数据分析Cubes框架

最近一直在用keras，说点个人感受。1、keras根植于python及theano，人气比较旺。2、提供较为上层的框架，搞个深度学习的原型非常方便。3、更新很快，我记得几个月前还没有multi-task的能力，最近再查就提供了graph的对象。4、最重要的，文档很全。这点超过其它类似的基于theano的框架（Lasagne, Opendeep, Blocks）

⑧ 如何用python svd降噪

from recsys.algorithm.factorize import SVD

svd = SVD()
svd.load_data(dataset)
svd.compute(k=100, mean_center=True)

ITEMID1 = 1 # Toy Story
svd.similar(ITEMID1)
# Returns:
# [(1, 1.0), # Toy Story
# (3114, 0.87060391051018071), # Toy Story 2
# (2355, 0.67706936677315799), # A bug's life
# (588, 0.5807351496754426), # Aladdin
# (595, 0.46031829709743477), # Beauty and the Beast
# (1907, 0.44589398718134365), # Mulan
# (364, 0.42908159895574161), # The Lion King
# (2081, 0.42566581277820803), # The Little Mermaid
# (3396, 0.42474056361935913), # The Muppet Movie
# (2761, 0.40439361857585354)] # The Iron Giant

ITEMID2 = 2355 # A bug's life
svd.similarity(ITEMID1, ITEMID2)
# 0.67706936677315799

导航:首页 > 编程语言 > python数据降噪效果评价

python数据降噪效果评价

与python数据降噪效果评价相关的资料