python抽样_Python 适合大数据量的处理吗

1. python 和 r 的区别知乎

有人说Python和R的区别是显而易见的，因为R是针对统计的，python是给程序员设计的，其实这话对Python多多少少有些不公平。2012年的时候我们说R是学术界的主流，但是现在Python正在慢慢取代R在学术界的地位。不知道是不是因为大数据时代的到来。

Python与R相比速度要快。Python可以直接处理上G的数据；R不行，R分析数据时需要先通过数据库把大数据转化为小数据（通过groupby）才能交给R做分析，因此R不可能直接分析行为详单，只能分析统计结果。所以有人说：Python=R+SQL/Hive，并不是没有道理的。

Python的一个最明显的优势在于其胶水语言的特性，很多书里也都会提到这一点，一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange canve 中的决策树分析50万用户10秒出结果，用R几个小时也出不来，8G内存全部占满)。但是，凡事都不绝对，如果R矢量化编程做得好的话（有点小难度），会使R的速度和程序的长度都有显着性提升。

R的优势在于有包罗万象的统计函数可以调用，特别是在时间序列分析方面，无论是经典还是前沿的方法都有相应的包直接使用。
相比之下，Python之前在这方面贫乏不少。但是，现在Python有了pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此，你可以高效处理非常大的时间序列，轻松地进行切片/切块、聚合、对定期/不定期的时间序列进行重采样等。可能你已经猜到了，这些工具中大部分都对金融和经济数据尤为有用，但你当然也可以用它们来分析服务器日志数据。于是，近年来，由于Python有不断改良的库（主要是pandas），使其成为数据处理任务的一大替代方案。

做过几个实验：
1. 用python实现了一个统计方法，其中用到了ctypes，multiprocess。
之后一个项目要做方法比较，又用回R，发现一些bioconctor上的包已经默认用parallel了。（但那个包还是很慢，一下子把所有线程都用掉了，导致整个电脑使用不能，看网页非常卡~）
2. 用python pandas做了一些数据整理工作，类似数据库，两三个表来回查、匹配。感觉还是很方便的。虽然这些工作R也能做，但估计会慢点，毕竟几十万行的条目了。
3. 用python matplotlib画图。pyplot作图的方式和R差异很大，R是一条命令画点东西，pylot是准备好了以后一起出来。pyplot的颜色选择有点尴尬，默认颜色比较少，之后可用html的颜色，但是名字太长了~。pyplot 的legend比R 好用多了，算是半自动化了。pyplot画出来后可以自由拉升缩放，然后再保存为图片，这点比R好用。

总的来说Python是一套比较平衡的语言，各方面都可以，无论是对其他语言的调用，和数据源的连接、读取，对系统的操作，还是正则表达和文字处理，Python都有着明显优势。而R是在统计方面比较突出。但是数据分析其实不仅仅是统计，前期的数据收集，数据处理，数据抽样，数据聚类，以及比较复杂的数据挖掘算法，数据建模等等这些任务，只要是100M以上的数据，R都很难胜任，但是Python却基本胜任。

结合其在通用编程方面的强大实力，我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。
但世上本没有最好的软件或程序，也鲜有人能把单一语言挖掘运用到极致。尤其是很多人早先学了R，现在完全不用又舍不得，所以对于想要学以致用的人来说，如果能把R和Python相结合，就更好不过了，很早看过一篇文章——让R与Python共舞，咱们坛子里有原帖，就不多说了，看完会有更多启发。

BTW：如果之前没有学过R，可以先学Python然后决定是不是学R，如果学了R，学Python的时候会更快上手。

2. 在python Image中可以用show（）来显示图片，但是显示以后，下面的代码就不运行了，如何运行下面的代码

Image.show()函数是这个样子的，必须先关了图片程序才往下走。

不使用show，如imshow(BW)在 Matlab 7.0 中，二进制图像是一个逻辑类，仅包括 0 和 1 两个数值。像素 0 显示为黑色，像素 1 显示为白色。显示时，也可通过NOT(~)命令，对二进制图象进行取反，使数值 0 显示为白色；1 显示为黑色。

例如： imshow(~BW)

扩展资料：

不使用show函数来满足运行的需求：

import threading

import Image

class ThreadClass(threading.Thread):

def run(self):

im=Image.open('z.jpg')

im.show()

print (1)

t = ThreadClass()

t.start()

print (2)

a=input('End')

#===============================

图像的表示原理：

最基本的物理图像是根据矩形网格抽样原理从连续图像域中抽取二维灰度阵列（矩阵）得到的。也可以用长向量表示二维灰度矩阵，它是按列（或行）扫描灰度矩阵，把下一列（或行）的头和前一列（或行）的尾相接而成。

它们的线性可逆变换同样可以用来表示图像。图像的每一行由行程（具有同一灰度的邻近像元集合）序列所组成，因此也可以用行程长度编码（见图像编码）表示图像。

3. 怎么在高斯分布中采样得到向量python

极限定义：设{Xn}为一无穷数列，如果存在常数a对于任意给定的正数ε（不论它多么小），总存在正整数N，使得当n>N时的一切Xn，均有不等式|Xn - a|<ε成立，那么就称常数a是数列{Xn}的极限，或称数列{Xn}收敛于a。记为
lim Xn = a 或Xn→a（n→∞）
如果数列没有极限，就说数列发散
解答：现取ε=2/（x+1），当x→+∞时，总存在|（x-1)/(x+1)-1|<=ε
所以证得lim(x→+∞)(x-1)/(x+1)=1

4. 怎么使用Python中Pandas库Resample，实现重采样，完成线性插值

#python中的pandas库主要有DataFrame和Series类(面向对象的的语言更愿意叫类) DataFrame也就是
#数据框(主要是借鉴R里面的data.frame)，Series也就是序列，pandas底层是c写的性能很棒，有大神
#做过测试处理亿级别的数据没问题，起性能可以跟同等配置的sas媲美
#DataFrame索引 df.loc是标签选取操作，df.iloc是位置切片操作
print(df[['row_names','Rape']])
df['行标签']
df.loc[行标签,列标签]
print(df.loc[0:2,['Rape','Murder']])
df.iloc[行位置,列位置]
df.iloc[1,1]#选取第二行，第二列的值，返回的为单个值
df.iloc[0,2],:]#选取第一行及第三行的数据
df.iloc[0:2,:]#选取第一行到第三行（不包含）的数据
df.iloc[:,1]#选取所有记录的第一列的值，返回的为一个Series
df.iloc[1,:]#选取第一行数据，返回的为一个Series
print(df.ix[1,1]) # 更广义的切片方式是使用.ix，它自动根据你给到的索引类型判断是使用位置还是标签进行切片
print(df.ix[0:2])
#DataFrame根据条件选取子集类似于sas里面if、where ,R里面的subset之类的函数
df[df.Murder>13]
df[(df.Murder>10)&(df.Rape>30)]
df[df.sex==u'男']
#重命名相当于sas里面的rename R软件中reshape包的中的rename
df.rename(columns={'A':'A_rename'})
df.rename(index={1:'other'})
#删除列相当于sas中的drop R软件中的test['col']<-null
df.drop(['a','b'],axis=1) or del df[['a','b']]
#排序相当于sas里面的sort R软件里面的df[order(x),]
df.sort(columns='C') #行排序 y轴上
df.sort(axis=1) #各个列之间位置排序 x轴上
#数据描述相当于sas中proc menas R软件里面的summary
df.describe()
#生成新的一列跟R里面有点类似
df['new_columns']=df['columns']
df.insert(1,'new_columns',df['B']) #效率最高
df.join(Series(df['columns'],name='new_columns'))
#列上面的追加相当于sas中的append R里面cbind()
df.append(df1,ignore_index=True)
pd.concat([df,df1],ignore_index=True)
#最经典的join 跟sas和R里面的merge类似跟sql里面的各种join对照
merge()
#删除重行跟sas里面nokey R里面的which(!plicated(df[])类似
df.drop_plicated()
#获取最大值最小值的位置有点类似矩阵里面的方法
df.idxmin(axis=0 ) df.idxmax(axis=1) 0和1有什么不同自己摸索去
#读取外部数据跟sas的proc import R里面的read.csv等类似
read_excel() read_csv() read_hdf5() 等
与之相反的是df.to_excel() df.to_ecv()
#缺失值处理个人觉得pandas中缺失值处理比sas和R方便多了
df.fillna(9999) #用9999填充
#链接数据库不多说 pandas里面主要用 MySQLdb
import MySQLdb
conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="mysql",use_unicode=True,charset="utf8")
read_sql() #很经典
#写数据进数据库
df.to_sql('hbase_visit',con, flavor="mysql", if_exists='replace', index=False)
#groupby 跟sas里面的中的by R软件中dplyr包中的group_by sql里面的group by功能是一样的这里不多说
#求哑变量
miper=pd.get_mmies(df['key'])
df['key'].join(mpier)
#透视表和交叉表跟sas里面的proc freq步类似 R里面的aggrate和cast函数类似
pd.pivot_table()
pd.crosstab()
#聚合函数经常跟group by一起组合用
df.groupby('sex').agg({'height':['mean','sum'],'weight':['count','min']})

#数据查询过滤

test.query("0.2
将STK_ID中的值过滤出来
stk_list = ['600809','600141','600329']中的全部记录过滤出来，命令是：rpt[rpt['STK_ID'].isin(stk_list)].
将dataframe中，某列进行清洗的命令
删除换行符：misc['proct_desc'] = misc['proct_desc'].str.replace('\n', '')
删除字符串前后空格：df["Make"] = df["Make"].map(str.strip)
如果用模糊匹配的话，命令是：
rpt[rpt['STK_ID'].str.contains(r'^600[0-9]{3}$')]

对dataframe中元素，进行类型转换

df['2nd'] = df['2nd'].str.replace(',','').astype(int) df['CTR'] = df['CTR'].str.replace('%','').astype(np.float64)

#时间变换主要依赖于datemie 和time两个包
http://www.2cto.com/kf/201401/276088.html
#其他的一些技巧
df2[df2['A'].map(lambda x:x.startswith('61'))] #筛选出以61开头的数据
df2["Author"].str.replace("<.+>", "").head() #replace("<.+>", "")表示将字符串中以”<”开头;以”>”结束的任意子串替换为空字符串
commits = df2["Name"].head(15)
print commits.unique(), len(commits.unique()) #获的NAME的不同个数，类似于sql里面count(distinct name)
#pandas中最核心最经典的函数apply map applymap

5. 如何用python实现单位抽样序列

你好，

resultList=[]
forindexinrange(50):
resultList.append(0)
resultList[0]=1

6. 如何进行拉丁超立方抽样有软件或者具体步骤是什么

matlab中lhsdesign函数，和python的第三库mcerp都是拉丁超立方抽样的实现函数

7. python用opencv库和OS库如何获取视频并将其使用上采样的当然拖充负样本，并保存

后面的没看懂
opencv打开视频可以通过
cap=cv2.VideoCapture(path)
path 可以是文件路径，url等
网上可以找到的

ret，frame=cap.read()
来读照片，ret是返回是否获取成功

8. 急！！！！如何通过python制作一个简单的录音机,录制自己的声音采用8k采样,16位量化编码,观察其数值

#我可以帮你写一段代码，能够录音形成wav文件，不过要分析录音文件的波形，你可以另外找#工具，比如cooledit，也很方便。
fromsysimportbyteorder
fromarrayimportarray
fromstructimportpack

importpyaudio
importwave

THRESHOLD=500
CHUNK_SIZE=1024
FORMAT=pyaudio.paInt16
RATE=44100

defis_silent(snd_data):
"Returns'True'ifbelowthe'silent'threshold"
returnmax(snd_data)<THRESHOLD

defnormalize(snd_data):
"Averagethevolumeout"
MAXIMUM=16384
times=float(MAXIMUM)/max(abs(i)foriinsnd_data)

r=array('h')
foriinsnd_data:
r.append(int(i*times))
returnr

deftrim(snd_data):
""
def_trim(snd_data):
snd_started=False
r=array('h')

foriinsnd_data:
ifnotsnd_startedandabs(i)>THRESHOLD:
snd_started=True
r.append(i)

elifsnd_started:
r.append(i)
returnr

#Trimtotheleft
snd_data=_trim(snd_data)

#Trimtotheright
snd_data.reverse()
snd_data=_trim(snd_data)
snd_data.reverse()
returnsnd_data

defadd_silence(snd_data,seconds):
"Addsilencetothestartandendof'snd_data'oflength'seconds'(float)"
r=array('h',[0foriinxrange(int(seconds*RATE))])
r.extend(snd_data)
r.extend([0foriinxrange(int(seconds*RATE))])
returnr

defrecord():
"""

.

Normalizestheaudio,trimssilencefromthe
startandend,andpadswith0.5secondsof

itwithoutgettingchoppedoff.
"""
p=pyaudio.PyAudio()
stream=p.open(format=FORMAT,channels=1,rate=RATE,
input=True,output=True,
frames_per_buffer=CHUNK_SIZE)

num_silent=0
snd_started=False

r=array('h')

while1:
#littleendian,signedshort
snd_data=array('h',stream.read(CHUNK_SIZE))
ifbyteorder=='big':
snd_data.byteswap()
r.extend(snd_data)

silent=is_silent(snd_data)

ifsilentandsnd_started:
num_silent+=1
elifnotsilentandnotsnd_started:
snd_started=True

ifsnd_startedandnum_silent>30:
break

sample_width=p.get_sample_size(FORMAT)
stream.stop_stream()
stream.close()
p.terminate()

r=normalize(r)
r=trim(r)
r=add_silence(r,0.5)
returnsample_width,r

defrecord_to_file(path):
"'path'"
sample_width,data=record()
data=pack('<'+('h'*len(data)),*data)

wf=wave.open(path,'wb')
wf.setnchannels(1)
wf.setsampwidth(sample_width)
wf.setframerate(RATE)
wf.writeframes(data)
wf.close()

if__name__=='__main__':
print("")
record_to_file('demo.wav')
print("done-resultwrittentodemo.wav")

9. python中怎么从一个列表中可重复的随机抽取元素构成新列表

importstring
importrandom


classCaptchaCreator:

@staticmethod
defrandom_seq(choice_seq,count=6,repeatable=True):
#将其中的choice_seq，count改为你需要的参数
ifrepeatable:
return[random.choice(choice_seq)for_inrange(count)]
returnrandom.sample(choice_seq,count)

defshuffle(self):
digits=self.random_seq(string.digits)
random.shuffle(digits)
returndigits


if__name__=='__main__':
c=CaptchaCreator()
print(c.shuffle())

10. Python 适合大数据量的处理吗

python可以处理大数据，python处理大数据不一定是最优的选择。适合大数据处理。而不是大数据量处理。如果大数据量处理，需要采用并用结构，比如在hadoop上使用python，或者是自己做的分布式处理框架。

python的优势不在于运行效率，而在于开发效率和高可维护性。针对特定的问题挑选合适的工具，本身也是一项技术能力。

Python处理数据的优势（不是处理大数据）：

1. 异常快捷的开发速度，代码量巨少

2. 丰富的数据处理包，不管正则也好，html解析啦，xml解析啦，用起来非常方便

3. 内部类型使用成本巨低，不需要额外怎么操作（java，c++用个map都很费劲）

4. 公司中，很大量的数据处理工作工作是不需要面对非常大的数据的

5. 巨大的数据不是语言所能解决的，需要处理数据的框架（hadoop， mpi）虽然小众，但是python还是有处理大数据的框架的，或者一些框架也支持python。

(10)python抽样扩展阅读：

Python处理数据缺点：

Python处理大数据的劣势：

1、python线程有gil，通俗说就是多线程的时候只能在一个核上跑，浪费了多核服务器。在一种常见的场景下是要命的：并发单元之间有巨大的数据共享或者共用（例如大dict）。

多进程会导致内存吃紧，多线程则解决不了数据共享的问题，单独的写一个进程之间负责维护读写这个数据不仅效率不高而且麻烦

2、python执行效率不高，在处理大数据的时候，效率不高，这是真的，pypy（一个jit的python解释器，可以理解成脚本语言加速执行的东西）能够提高很大的速度，但是pypy不支持很多python经典的包，例如numpy。

3. 绝大部分的大公司，用java处理大数据不管是环境也好，积累也好，都会好很多。

参考资料来源：网络-Python

导航:首页 > 编程语言 > python抽样

python抽样

与python抽样相关的资料