pythonmeanaxis0_PYTHON实现对CSV文件多维不同单位数据的归一化处理

❶ 数据分析员用python做数据分析是怎么回事，需要用到python中的那些内容，具体是怎么操作的

大数据！大数据！其实是离不开数据二字，但是总体来讲，自己之前对数据的认知是不太够的，更多是在关注技术的提升上。换句话讲，自己是在做技术，这些技术处理的是数据，而不能算是自己是在做数据的。大规模数据的处理是一个非常大的课题，但是这一点更偏向于是搞技术的。

与数据分析相关的Python库很多，比如Numpy、pandas、matplotlib、scipy等，数据分析的操作包括数据的导入和导出、数据筛选、数据描述、数据处理、统计分析、可视化等等。接下来我们看一下如何利用Python完成数据的分析。
生成数据表
常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据，Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入pandas库，为了方便起见，我们也同时导入Numpy库。代码是最简模式，里面有很多可选参数设置，例如列名称、索引列、数据格式等等。
检查数据表
Python中使用shape函数来查看数据表的维度，也就是行数和列数。你可以使用info函数查看数据表的整体信息，使用dtypes函数来返回数据格式。Isnull是Python中检验空值的函数，你可以对整个数据表进行检查，也可以单独对某一列进行空值检查，返回的结果是逻辑值，包含空值返回True，不包含则返回False。使用unique函数查看唯一值，使用Values函数用来查看数据表中的数值。
数据表清洗
Python中处理空值的方法比较灵活，可以使用Dropna函数用来删除数据表中包含空值的数据，也可以使用fillna函数对空值进行填充。Python中dtype是查看数据格式的函数，与之对应的是astype函数，用来更改数据格式，Rename是更改列名称的函数，drop_plicates函数删除重复值，replace函数实现数据替换。
数据预处理
数据预处理是对清洗完的数据进行整理以便后期的统计和分析工作，主要包括数据表的合并、排序、数值分列、数据分组及标记等工作。在Python中可以使用merge函数对两个数据表进行合并，合并的方式为inner，此外还有left、right和outer方式。使用ort_values函数和sort_index函数完成排序，使用where函数完成数据分组，使用split函数实现分列。
数据提取
主要是使用三个函数：loc、iloc和ix，其中loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。除了按标签和位置提起数据以外，还可以按具体的条件进行数据，比如使用loc和isin两个函数配合使用，按指定条件对数据进行提取。
数据筛选汇总
Python中使用loc函数配合筛选条件来完成筛选功能，配合sum和 count函数还能实现excel中sumif和countif函数的功能。Python中使用的主要函数是groupby和pivot_table。groupby是进行分类汇总的函数，使用方法很简单，制定要分组的列名称就可以，也可以同时制定多个列名称，groupby 按列名称出现的顺序进行分组。

❷ python中如何让二维数组中的每个元素减去它的均值

如果是图像处理就用PIL库。似乎有这样的算法。

我的想法就是用numpy包中的减法。矩阵相减。

其实用python遍历的速度比你想象的要快。

如果还不够快就C语言写，其中有一个库prex，可以方便的实现python与C的接口，比直接用pyobject要方便很多。

另外你可以用CTYPE中的整型存贮，应该比如直接用python中的int节约空间，速度可能也会快些。

我曾经用PIL结合python写验证码识别的算法，速度快，消耗的时间基本上可以忽略。

❸ python 怎么修改pandas的某个cell的值

数据缺失
数据缺失在大部分数据分析应用中都很常见，Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据，他只是一个便于被检测出来的数据而已。
from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")
print(string_data.isnull())12345671234567

Python内置的None值也会被当作NA处理
from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")

string_data[0]=None
print(string_data.isnull())123456789123456789

处理NA的方法有四种：dropna,fillna,isnull,notnull
is(not)null，这一对方法对对象做出元素级的应用，然后返回一个布尔型数组，一般可用于布尔型索引。
dropna，对于一个Series，dropna返回一个仅含非空数据和索引值的Series。
问题在于DataFrame的处理方式，因为一旦drop的话，至少要丢掉一行（列）。这里解决方法与前面类似，还是通过一个额外的参数：dropna(axis=0,how=’any’,thresh=None)，how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型，eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。
fillna,fillna(value=None,method=None,axis=0)中的value除了基本类型外，还可以使用字典，这样可以实现对不同列填充不同的值。
过滤数据：
对于一个Series，dropna返回一个仅含非空数据和索引值的Series：
from pandas import Series,DataFrame
from numpy import nan as NA

data=Series([1,NA,3.5,NA,7])

print(data.dropna())123456123456

另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据，可以用thresh参数实现此目的：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.dropna(thresh=2))

不想滤除缺失的数据，而是通过其他方式填补“空洞”，fillna是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna(0))

若是通过一个字典调用fillna，就可以实现对不同列填充不同的值。
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna({1:111,2:222}))

可以利用fillna实现许多别的功能，比如可以传入Series的平均值或中位数：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=Series([1.0,NA,3.5,NA,7])
print(data)
print("...........\n")
print(data.fillna(data.mean()))

123456789123456789

检测和过滤异常值
异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(1000,4))
print(data.describe())

print("\n....找出某一列中绝对值大小超过3的项...\n")
col=data[3]
print(col[np.abs(col) > 3] )

print("\n....找出全部绝对值超过3的值的行...\n")
print(col[(np.abs(data) > 3).any(1)] )

移除重复数据
DataFrame的plicated方法返回一个布尔型Series，表示各行是否是重复行。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.plicated())123456789123456789

与此相关的还有一个drop_plicated方法，它用于返回一个移除了重复行的DataFrame：
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.drop_plicates())123456789123456789

上面的两个方法会默认判断全部列，也可以指定部分列进行重复项判断，假设还有一列值，而只希望根据k1列过滤重复项。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1']))1234567891012345678910

plicates和drop_plicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个：
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1','k2'],take_last=True))1234567891012345678910

❹ python中pd.rolling_window和pd.rolling_mean区别

rolling_mean 计算移动窗口的均值
rolling_window 计算移动窗口
pandas.rolling_window(arg, window=None, win_type=None, min_periods=None, freq=None, center=False, mean=True, axis=0, how=None, **kwargs)

❺ python axis=0是代表的行还是列

axis=0表示数组的第0轴，因为h本来就只包含1列，你直接做数组运算一下x.sum()就知道了。

❻ PYTHON实现对CSV文件多维不同单位数据的归一化处理

1）线性归一化
这种归一化比较适用在数值比较集中的情况，缺陷就是如果max和min不稳定，很容易使得归一化结果不稳定，使得后续的效果不稳定，实际使用中可以用经验常量来代替max和min。
2）标准差标准化
经过处理的数据符合标准正态分布，即均值为0，标准差为1。
3）非线性归一化
经常用在数据分化较大的场景，有些数值大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括log、指数、反正切等。需要根据数据分布的情况，决定非线性函数的曲线。
log函数：x = lg(x)/lg(max)
反正切函数：x = atan(x)*2/pi
Python实现
线性归一化
定义数组：x = numpy.array(x)
获取二维数组列方向的最大值：x.max(axis = 0)
获取二维数组列方向的最小值：x.min(axis = 0)
对二维数组进行线性归一化：
def max_min_normalization(data_value, data_col_max_values, data_col_min_values):
""" Data normalization using max value and min value

Args:
data_value: The data to be normalized
data_col_max_values: The maximum value of data's columns
data_col_min_values: The minimum value of data's columns
"""
data_shape = data_value.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value[i][j] = \
(data_value[i][j] - data_col_min_values[j]) / \
(data_col_max_values[j] - data_col_min_values[j])

标准差归一化
定义数组：x = numpy.array(x)
获取二维数组列方向的均值：x.mean(axis = 0)
获取二维数组列方向的标准差：x.std(axis = 0)
对二维数组进行标准差归一化：
def standard_deviation_normalization(data_value, data_col_means,
data_col_standard_deviation):
""" Data normalization using standard deviation

Args:
data_value: The data to be normalized
data_col_means: The means of data's columns
data_col_standard_deviation: The variance of data's columns
"""
data_shape = data_value.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value[i][j] = \
(data_value[i][j] - data_col_means[j]) / \
data_col_standard_deviation[j]

非线性归一化（以lg为例）
定义数组：x = numpy.array(x)
获取二维数组列方向的最大值：x.max(axis=0)
获取二维数组每个元素的lg值：numpy.log10(x)
获取二维数组列方向的最大值的lg值：numpy.log10(x.max(axis=0))
对二维数组使用lg进行非线性归一化：
def nonlinearity_normalization_lg(data_value_after_lg,
data_col_max_values_after_lg):
""" Data normalization using lg

Args:
data_value_after_lg: The data to be normalized
data_col_max_values_after_lg: The maximum value of data's columns
"""

data_shape = data_value_after_lg.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value_after_lg[i][j] = \
data_value_after_lg[i][j] / data_col_max_values_after_lg[j]

❼ Python,的numpy模块中有没有阶乘函数

有阶乘函数，Numpy中，mat必须是2维的,但是array可以是多维的（1D，2D，3D····ND）. Matrix是Array的一个小的分支，包含于Array。所以matrix 拥有array的所有特性。

在numpy中matrix的主要优势是：相对简单的乘法运算符号。例如，a和b是两个matrices，那么a*b，就是矩阵积。

若a=mat([1,2,3])是矩阵，则 a.A 则转换成了数组，反之，a.M则转换成了矩阵。

(7)pythonmeanaxis0扩展阅读：

常用的Numpy运算：

取矩阵中的某一行ss[1,:]或该行的某两列ss[1,0:2]

将数组转换成矩阵randMat=mat(random.rand(4,4))

矩阵求逆randMat.I

单位阵eye(4)

零矩阵zeros((x,y))建立x行y列的零矩阵。

最大值和最小值a.max(),a.min(),而a.max(0)表示按列选取每列的最大值。最大/小元素的下标a.argmax(),a.argmin()

#作为方法x.sum() #所有元素相加x.sum(axis=0) #按列相加x.sum(axis=1) #按行相加#作为函数sum(a,axis=0)ss.mean()

mean(a,axis=0(或1)) #按列或行求均值var(a)var(a,axis=0(或1)) #按列或行求方差。

std(a)std(a,axis=0(或1)) #按列或行求标准差ss.T或ss.transpose() #转置。

❽ 减法聚类如何用Python实现

下面是一个k-means聚类算法在python2.7.5上面的具体实现，你需要先安装Numpy和Matplotlib：
from numpy import *
import time
import matplotlib.pyplot as plt

# calculate Euclidean distance
def euclDistance(vector1, vector2):
return sqrt(sum(power(vector2 - vector1, 2)))
# init centroids with random samples
def initCentroids(dataSet, k):
numSamples, dim = dataSet.shape
centroids = zeros((k, dim))
for i in range(k):
index = int(random.uniform(0, numSamples))
centroids[i, :] = dataSet[index, :]
return centroids
# k-means cluster
def kmeans(dataSet, k):
numSamples = dataSet.shape[0]
# first column stores which cluster this sample belongs to,
# second column stores the error between this sample and its centroid
clusterAssment = mat(zeros((numSamples, 2)))
clusterChanged = True
## step 1: init centroids
centroids = initCentroids(dataSet, k)
while clusterChanged:
clusterChanged = False
## for each sample
for i in xrange(numSamples):
minDist = 100000.0
minIndex = 0
## for each centroid
## step 2: find the centroid who is closest
for j in range(k):
distance = euclDistance(centroids[j, :], dataSet[i, :])
if distance < minDist:
minDist = distance
minIndex = j

## step 3: update its cluster
if clusterAssment[i, 0] != minIndex:
clusterChanged = True
clusterAssment[i, :] = minIndex, minDist**2
## step 4: update centroids
for j in range(k):
pointsInCluster = dataSet[nonzero(clusterAssment[:, 0].A == j)[0]]
centroids[j, :] = mean(pointsInCluster, axis = 0)
print 'Congratulations, cluster complete!'
return centroids, clusterAssment
# show your cluster only available with 2-D data
def showCluster(dataSet, k, centroids, clusterAssment):
numSamples, dim = dataSet.shape
if dim != 2:
print "Sorry! I can not draw because the dimension of your data is not 2!"
return 1
mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']
if k > len(mark):
print "Sorry! Your k is too large! please contact Zouxy"
return 1
# draw all samples
for i in xrange(numSamples):
markIndex = int(clusterAssment[i, 0])
plt.plot(dataSet[i, 0], dataSet[i, 1], mark[markIndex])
mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', '<b', 'pb']
# draw the centroids
for i in range(k):
plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 12)
plt.show()

❾ python数据分析里axis=0/1 行列定义为什么每次都不同

Pandas保持了Numpy对关键字axis的用法，用法在Numpy库的词汇表当中有过解释：
轴用来为超过一维的数组定义的属性，二维数据拥有两个轴：第0轴沿着行的垂直往下，第1轴沿着列的方
向水平延伸。
如果简单点来说，就是0轴匹配的是index，涉及上下运算；1轴匹配的是columns, 涉及左右运算。
给你举个栗子：

❿ python axis是什么意思

python axis的意思是：1、【axis=0】表述列，【axis=1】表述行；2、等式【axis=i】操作就是沿第i维变化的方向进行。
python axis的意思是：
axis=0表述列
axis=1表述行
就记住axis=i，操作就是沿第i维变化的方向进行;
对于一个4*3*2*3的数组：
axis=0,操作时只有第0维的下标变化其他不变。
axis=1,操作时只有第1维的下标变化其他不变。
axis=2,操作时只有第2维的下标变化其他不变。
axis=3,操作时只有第3维的下标变化其他不变。
相关学习推荐：python视频
以上就是小编分享的关于python axis是什么意思的详细内容希望对大家有所帮助，更多有关python教程请关注环球青藤其它相关文章！

导航:首页 > 编程语言 > pythonmeanaxis0

pythonmeanaxis0

与pythonmeanaxis0相关的资料