python降采样_怎么使用Python中Pandas库Resample实现重采样完成线性插值

㈠怎样用python实现图像去噪

#coding:utf-8
importsys,os
fromPILimportImage,ImageDraw

#二值数组
t2val={}
deftwoValue(image,G):
foryinxrange(0,image.size[1]):
forxinxrange(0,image.size[0]):
g=image.getpixel((x,y))
ifg>G:
t2val[(x,y)]=1
else:
t2val[(x,y)]=0

#降噪
#根据一个点A的RGB值，与周围的8个点的RBG值比较，设定一个值N（0<N<8），当A的RGB值与周围8个点的RGB相等数小于N时，此点为噪点
#G:Integer图像二值化阀值
#N:Integer降噪率0<N<8
#Z:Integer降噪次数
#输出
#0：降噪成功
#1：降噪失败
defclearNoise(image,N,Z):

foriinxrange(0,Z):
t2val[(0,0)]=1
t2val[(image.size[0]-1,image.size[1]-1)]=1

forxinxrange(1,image.size[0]-1):
foryinxrange(1,image.size[1]-1):
nearDots=0
L=t2val[(x,y)]
ifL==t2val[(x-1,y-1)]:
nearDots+=1
ifL==t2val[(x-1,y)]:
nearDots+=1
ifL==t2val[(x-1,y+1)]:
nearDots+=1
ifL==t2val[(x,y-1)]:
nearDots+=1
ifL==t2val[(x,y+1)]:
nearDots+=1
ifL==t2val[(x+1,y-1)]:
nearDots+=1
ifL==t2val[(x+1,y)]:
nearDots+=1
ifL==t2val[(x+1,y+1)]:
nearDots+=1

ifnearDots<N:
t2val[(x,y)]=1

defsaveImage(filename,size):
image=Image.new("1",size)
draw=ImageDraw.Draw(image)

forxinxrange(0,size[0]):
foryinxrange(0,size[1]):
draw.point((x,y),t2val[(x,y)])

image.save(filename)

image=Image.open("d:/1.jpg").convert("L")
twoValue(image,100)
clearNoise(image,4,1)
saveImage("d:/5.jpg",image.size)

㈡ PYTHON语言如何取到声音的频率（其他语言也可行）

先得到时域信号，然后做傅立叶变换，得到频谱。
感觉题主可能对python比较熟悉？那就别换语言了。稍微网络谷歌以下肯定能找到python的傅立叶变换的库。

㈢怎么使用Python中Pandas库Resample，实现重采样，完成线性插值

#python中的pandas库主要有DataFrame和Series类(面向对象的的语言更愿意叫类) DataFrame也就是
#数据框(主要是借鉴R里面的data.frame)，Series也就是序列，pandas底层是c写的性能很棒，有大神
#做过测试处理亿级别的数据没问题，起性能可以跟同等配置的sas媲美
#DataFrame索引 df.loc是标签选取操作，df.iloc是位置切片操作
print(df[['row_names','Rape']])
df['行标签']
df.loc[行标签,列标签]
print(df.loc[0:2,['Rape','Murder']])
df.iloc[行位置,列位置]
df.iloc[1,1]#选取第二行，第二列的值，返回的为单个值
df.iloc[0,2],:]#选取第一行及第三行的数据
df.iloc[0:2,:]#选取第一行到第三行（不包含）的数据
df.iloc[:,1]#选取所有记录的第一列的值，返回的为一个Series
df.iloc[1,:]#选取第一行数据，返回的为一个Series
print(df.ix[1,1]) # 更广义的切片方式是使用.ix，它自动根据你给到的索引类型判断是使用位置还是标签进行切片
print(df.ix[0:2])
#DataFrame根据条件选取子集类似于sas里面if、where ,R里面的subset之类的函数
df[df.Murder>13]
df[(df.Murder>10)&(df.Rape>30)]
df[df.sex==u'男']
#重命名相当于sas里面的rename R软件中reshape包的中的rename
df.rename(columns={'A':'A_rename'})
df.rename(index={1:'other'})
#删除列相当于sas中的drop R软件中的test['col']<-null
df.drop(['a','b'],axis=1) or del df[['a','b']]
#排序相当于sas里面的sort R软件里面的df[order(x),]
df.sort(columns='C') #行排序 y轴上
df.sort(axis=1) #各个列之间位置排序 x轴上
#数据描述相当于sas中proc menas R软件里面的summary
df.describe()
#生成新的一列跟R里面有点类似
df['new_columns']=df['columns']
df.insert(1,'new_columns',df['B']) #效率最高
df.join(Series(df['columns'],name='new_columns'))
#列上面的追加相当于sas中的append R里面cbind()
df.append(df1,ignore_index=True)
pd.concat([df,df1],ignore_index=True)
#最经典的join 跟sas和R里面的merge类似跟sql里面的各种join对照
merge()
#删除重行跟sas里面nokey R里面的which(!plicated(df[])类似
df.drop_plicated()
#获取最大值最小值的位置有点类似矩阵里面的方法
df.idxmin(axis=0 ) df.idxmax(axis=1) 0和1有什么不同自己摸索去
#读取外部数据跟sas的proc import R里面的read.csv等类似
read_excel() read_csv() read_hdf5() 等
与之相反的是df.to_excel() df.to_ecv()
#缺失值处理个人觉得pandas中缺失值处理比sas和R方便多了
df.fillna(9999) #用9999填充
#链接数据库不多说 pandas里面主要用 MySQLdb
import MySQLdb
conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="mysql",use_unicode=True,charset="utf8")
read_sql() #很经典
#写数据进数据库
df.to_sql('hbase_visit',con, flavor="mysql", if_exists='replace', index=False)
#groupby 跟sas里面的中的by R软件中dplyr包中的group_by sql里面的group by功能是一样的这里不多说
#求哑变量
miper=pd.get_mmies(df['key'])
df['key'].join(mpier)
#透视表和交叉表跟sas里面的proc freq步类似 R里面的aggrate和cast函数类似
pd.pivot_table()
pd.crosstab()
#聚合函数经常跟group by一起组合用
df.groupby('sex').agg({'height':['mean','sum'],'weight':['count','min']})

#数据查询过滤

test.query("0.2
将STK_ID中的值过滤出来
stk_list = ['600809','600141','600329']中的全部记录过滤出来，命令是：rpt[rpt['STK_ID'].isin(stk_list)].
将dataframe中，某列进行清洗的命令
删除换行符：misc['proct_desc'] = misc['proct_desc'].str.replace('\n', '')
删除字符串前后空格：df["Make"] = df["Make"].map(str.strip)
如果用模糊匹配的话，命令是：
rpt[rpt['STK_ID'].str.contains(r'^600[0-9]{3}$')]

对dataframe中元素，进行类型转换

df['2nd'] = df['2nd'].str.replace(',','').astype(int) df['CTR'] = df['CTR'].str.replace('%','').astype(np.float64)

#时间变换主要依赖于datemie 和time两个包
http://www.2cto.com/kf/201401/276088.html
#其他的一些技巧
df2[df2['A'].map(lambda x:x.startswith('61'))] #筛选出以61开头的数据
df2["Author"].str.replace("<.+>", "").head() #replace("<.+>", "")表示将字符串中以”<”开头;以”>”结束的任意子串替换为空字符串
commits = df2["Name"].head(15)
print commits.unique(), len(commits.unique()) #获的NAME的不同个数，类似于sql里面count(distinct name)
#pandas中最核心最经典的函数apply map applymap

㈣如何通过python寻找背景图片的最小重复单元

这个问题跟image registration很相似，其实就是假设图像A和图像B之间存在一个平移(以及旋转)关系，使得平移后A和B重合的部分差别最小。

㈤为什么要使用Python进行数据分析

我使用python这门语言也有三年了，被其简洁、易读、强大的库所折服，我已经深深爱上了python。其pythonic语言特性，对人极其友好，可以说，一个完全不懂编程语言的人，看懂python语言也不是难事。
在数据分析和交互、探索性计算以及数据可视化等方面，相对于R、MATLAB、SAS、Stata等工具，Python都有其优势。近年来，由于Python库的不断发展（如pandas），使其在数据挖掘领域崭露头角。结合其在通用编程方面的强大实力，我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。
由于python是一种解释性语言，大部分编译型语言都要比python代码运行速度快，有些同学就因此鄙视python。但是小编认为，python是一门高级语言，其生产效率更高，程序员的时间通常比CPU的时间值钱，因此为了权衡利弊，考虑用python是值得的。

Python强大的计算能力依赖于其丰富而强大的库：
Numpy
Numerical Python的简称，是Python科学计算的基础包。其功能：
1. 快速高效的多维数组对象ndarray。
2. 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
3. 线性代数运算、傅里叶变换，以及随机数生成。
4. 用于将C、C++、Fortran代码集成到Python的工具。

除了为Python提供快速的数组处理能力，NumPy在数据分析方面还有另外一个主要作用，即作为在算法之间传递数据的容器。对于数值型数据，NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外，由低级语言（比如C和Fortran）编写的库可以直接操作NumPy数组中的数据，无需进行任何数据复制工作。

SciPy
是一组专门解决科学计算中各种标准问题域的包的集合，主要包括下面这些包：
1. scipy.integrate：数值积分例程和微分方程求解器。
2. scipy.linalg：扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。
3. scipy.optimize：函数优化器（最小化器）以及根查找算法。
4. scipy.signal：信号处理工具。
5. scipy.sparse：稀疏矩阵和稀疏线性系统求解器。
6. scipy.special：SPECFUN（这是一个实现了许多常用数学函数（如伽玛函数）的Fortran库）的包装器。
7. scipy.stats：标准连续和离散概率分布（如密度函数、采样器、连续分布函数等）、各种统计检验方法，以及更好的描述统计法。
8. scipy.weave：利用内联C++代码加速数组计算的工具。

注：NumPy跟SciPy的有机结合完全可以替代MATLAB的计算功能（包括其插件工具箱）。

SymPy
是python的数学符号计算库，用它可以进行数学表达式的符号推导和演算。

pandas
提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。
pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能，以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
对于使用R语言进行统计计算的用户，肯定不会对DataFrame这个名字感到陌生，因为它源自于R的data.frame对象。但是这两个对象并不相同。R的data.frame对象所提供的功能只是DataFrame对象所提供的功能的一个子集。也就是说pandas的DataFrame功能比R的data.frame功能更强大。

matplotlib
是最流行的用于绘制数据图表的Python库。它最初由John D. Hunter（JDH）创建，目前由一个庞大的开发人员团队维护。它非常适合创建出版物上用的图表。它跟IPython（马上就会讲到）结合得很好，因而提供了一种非常好用的交互式数据绘图环境。绘制的图表也是交互式的，你可以利用绘图窗口中的工具栏放大图表中的某个区域或对整个图表进行平移浏览。

TVTK
是python数据三维可视化库，是一套功能十分强大的三维数据可视化库，它提供了Python风格的API，并支持Trait属性(由于Python是动态编程语言，其变量没有类型，这种灵活性有助于快速开发，但是也有缺点。而Trait库可以为对象的属性添加检校功能，从而提高程序的可读性，降低出错率。) 和NumPy数组。此库非常庞大，因此开发公司提供了一个查询文档，用户可以通过下面语句运行它：
>>> from enthought.tvtk.toolsimport tvtk_doc
>>> tvtk_doc.main()

Scikit-Learn
是基于python的机器学习库，建立在NumPy、SciPy和matplotlib基础上，操作简单、高效的数据挖掘和数据分析。其文档、实例都比较齐全。

小编建议：初学者使用python(x, y)，其是一个免费的科学和工程开发包，提供数学计算、数据分析和可视化展示。非常方便！

㈥ python从哪个库可以引入downsample

downsample函数：可以通过下采样将原来的数据提取出来。 dataTx=rcosflt(dataTx1,fs/8,fs,'filter',num);表示将数据dataTx进行8倍过采样的滚降升余弦滤波，过采样增加的点数为2*delay*（fs/fd）,其中在原数据的开头和结尾各一半， dataTx=rcosfl...

㈦如何用python svd降噪

from recsys.algorithm.factorize import SVD

svd = SVD()
svd.load_data(dataset)
svd.compute(k=100, mean_center=True)

ITEMID1 = 1 # Toy Story
svd.similar(ITEMID1)
# Returns:
# [(1, 1.0), # Toy Story
# (3114, 0.87060391051018071), # Toy Story 2
# (2355, 0.67706936677315799), # A bug's life
# (588, 0.5807351496754426), # Aladdin
# (595, 0.46031829709743477), # Beauty and the Beast
# (1907, 0.44589398718134365), # Mulan
# (364, 0.42908159895574161), # The Lion King
# (2081, 0.42566581277820803), # The Little Mermaid
# (3396, 0.42474056361935913), # The Muppet Movie
# (2761, 0.40439361857585354)] # The Iron Giant

ITEMID2 = 2355 # A bug's life
svd.similarity(ITEMID1, ITEMID2)
# 0.67706936677315799

㈧ python 有没有对信号进行升采样的方法，从1000点序列数据转成10000点数据

这个里面他的话这个是可以进行进行采样的方法，然后再从他的点训练数据中转换乘1000点的话，它都是里面是转化的，数据比较多，所以所以的话工程量比较大。

㈨ python如何实现类似matlab的小波滤波

T=wpdec(y,5,'db40');
%信号y进行波包解层数5T波树plot看
a10=wprcoef(T,[1,0]);
%a10节点[1,0]进行重构信号貌似没层重构说吧能某层某节点进行重构节点编号波树
%以下为滤波程序（主要调节参数c的大小）
c=10;
wn=0.1;
fs=50000; %采样频率；
b=fir1(c,wn/(fs/2),hamming(c+1));
y1=filtfilt(b,1,y);%对y滤波。

㈩ python 梯度下降法怎么用

import numpy as np
import matplotlib.pyplot as plt
import random

class dataMinning:
datasets = []
labelsets = []

addressD = '' #Data folder
addressL = '' #Label folder

npDatasets = np.zeros(1)
npLabelsets = np.zeros(1)

cost = []
numIterations = 0
alpha = 0
theta = np.ones(2)
#pCols = 0
#dRows = 0
def __init__(self,addressD,addressL,theta,numIterations,alpha,datasets=None):
if datasets is None:
self.datasets = []
else:
self.datasets = datasets
self.addressD = addressD
self.addressL = addressL
self.theta = theta
self.numIterations = numIterations
self.alpha = alpha

def readFrom(self):
fd = open(self.addressD,'r')
for line in fd:
tmp = line[:-1].split()
self.datasets.append([int(i) for i in tmp])
fd.close()
self.npDatasets = np.array(self.datasets)

fl = open(self.addressL,'r')
for line in fl:
tmp = line[:-1].split()
self.labelsets.append([int(i) for i in tmp])
fl.close()

tm = []
for item in self.labelsets:
tm = tm + item
self.npLabelsets = np.array(tm)

def genData(self,numPoints,bias,variance):
self.genx = np.zeros(shape = (numPoints,2))
self.geny = np.zeros(shape = numPoints)

for i in range(0,numPoints):
self.genx[i][0] = 1
self.genx[i][1] = i
self.geny[i] = (i + bias) + random.uniform(0,1) * variance

def gradientDescent(self):
xTrans = self.genx.transpose() #
i = 0
while i < self.numIterations:
hypothesis = np.dot(self.genx,self.theta)
loss = hypothesis - self.geny
#record the cost
self.cost.append(np.sum(loss ** 2))
#calculate the gradient
gradient = np.dot(xTrans,loss)
#updata, gradientDescent
self.theta = self.theta - self.alpha * gradient
i = i + 1

def show(self):
print 'yes'

if __name__ == "__main__":
c = dataMinning('c:\\city.txt','c:\\st.txt',np.ones(2),100000,0.000005)
c.genData(100,25,10)
c.gradientDescent()
cx = range(len(c.cost))
plt.figure(1)
plt.plot(cx,c.cost)
plt.ylim(0,25000)
plt.figure(2)
plt.plot(c.genx[:,1],c.geny,'b.')
x = np.arange(0,100,0.1)
y = x * c.theta[1] + c.theta[0]
plt.plot(x,y)
plt.margins(0.2)
plt.show()

导航:首页 > 编程语言 > python降采样

python降采样

与python降采样相关的资料