listuniquepython_如何在python列表中查找某个元素的索引

㈠ python 怎么把已有文档里的文字输出一次

因为在发现新词时，你没有存入unique_list。

改为

unique_list=[]
forwordsinword_list:
ifwordsnotinunique_list:
unique_list.append(words)
output_file.write(words+'
')

事实上整个脚本有些风格上的问题需要修改，不过我就不管了=~=

顺带一提，在认定代码逻辑没有错误却发现输出不符合预期时，可以考虑简单地将过程中涉及的关键数据print出来，能发现出问题的代码片段，再进行修改。

㈡ python 查看dataframe每列有多少个不同元素

方法一：

mylist = set(say)#say为所要统计的列表

for item in mylist: #将列表中的元素无重复的抽取出来，赋值给另一个列表

print item + str( say.count(item)) #list.count(item) 输出item在list中出现的次数

方法二：

counts = { } #字典
for x in time_zones: #time_zones 为列表
if x in counts:
counts[x] += 1
else:
counts[x] = 1
print counts

方法三：

（Series与Datafram用法相同）

import numpy as np

import pandas as pd

from pandas import DataFrame

from pandas import Series

ss = Series(['Tokyo', 'Nagoya', 'Nagoya', 'Osaka', 'Tokyo', 'Tokyo'])

ss.value_counts() #value_counts 直接用来计算series里面相同数据出现的频率

(2)listuniquepython扩展阅读：

python函数的其他高级用法

1.使用函数变量：

Python 的函数也是一种值：所有函数都是 function 对象，这意味着可以把函数本身赋值给变量，就像把整数、浮点数、列表、元组赋值给变量一样。

2.使用函数作为函数形参：

有时候需要定义一个函数，该函数的大部分计算逻辑都能确定，但某些处理逻辑暂时无法确定，这意昧着某些程序代码需要动态改变，如果希望调用函数时能动态传入这些代码，那么就需要在函数中定义函数形参，这样即可在调用该函数时传入不同的函数作为参数，从而动态改变这段代码。

3.使用函数作为返回值：

程序中，定义了一个 get_math_func() 函数，该函数将返回另一个函数。接下来在 get_math_func() 函数体内的 ①、②、③ 号粗体字代码分别定义了三个局部函数，最后 get_math_func() 函数会根据所传入的参数，使用这三个局部函数之一作为返回值。

在定义了会返回函数的 get_math_func() 函数之后，接下来程序调用 get_math_func() 函数时即可返回所需的函数。

㈢ python怎么获取list的某个元素的位置

几种方式的回答：
1）
print('*'*15,'想找出里面有重复数据的索引值','*'*15)
listA = [100, 94, 88, 82, 76, 70, 64, 58, 52, 46, 40, 34,76]
print('列表中第1次出现的位置 = ',listA.index(76))
2）
a_list = ['a','b','c','c','d','c']
find = 'c'
print('重复元素出现的位置索引分别是 = ',[i for i,v in enumerate(a_list) if v==find])
-----------------------------------------------------
3）### 求某个元素重复的索引值，函数方式表述如下：
a_list = ['a','b','c','c','d','c']
def unique_index(L,f):
"""L表示列表， i表示索引值，v表示values，f表示要查找的元素 """
return [i for (i,v) in enumerate(L) if v==f]
print('索引值 = ',unique_index(a_list,'c'))

运行结果：
索引值 = [2, 3, 5]

4）还缺一种，列出多个元素重复的索引值，以后再补充
......

㈣ python删除列表中的重复值

答: 主要总结了以下三种方法进行列表中的重复值删除。具体代码如图所示。

其中最简单的就是方法一和方法三了,因为他们只需要进行相关函数的调用。

在方法一中，借助集合set中元素不能重复的特性，先将list转为set，然后再将set转回list，即可除重复元素;
在方法三中，借助 Numpy中的 Unique()方法也可将重复的元素去除，同时注意其元素返回类型为ndarray，因此也需要将其转为list。

同学们如果对方法二感兴趣的话,也可以进行动手复现,它相比于方法一和三会更难一点,但是更有利于锻炼代码思维。

㈤ Python处理大数据的技巧, 2022-06-21

(2022.06.21 Tues)
收集整理了Python处理大量数据的方法，基于Pandas，Numpy等数据处理工具。

用df的 info 方法并指定 memory_usage='deep' 参数，或使用df的 memory_usage 方法，并指定 deep=True 参数。

在读取数据文件的方法中加入 nrows 参数选择前n行数据读取。

也可以跳过m行之后，读取从m行开始的n行

当然也可以在 skiprows 选项中指定范围，保留headers，即保留列名

可以指定 skiprows 中需要忽略的行，用list或array导入即可。下面是随机

如果在这个指令中忽略 nrows=10 指令，则读取跳过100行之后的所有数据。

预先指定读入的列，缩小加载范围

不同的数据类型占用了不同大小的空间，对于尚未读取的数据，可以提前指定类型( dtype )；对于已经读入的数据，通过 astype 方法修改成占空间更小的数据类型。

在读入数据之前，通过字典指定每列对应的数据类型，读入之后按照此类型显示数据。

通过改变数据类型减少空间的案例。修改DataFrame d 中的一列 Sctcd ，注意到该列的数据都是1、2、0，而保存类型是object，果断改成 uint8 ，通过 df.info(memory_usage='deep') 方法对比内存的使用情况。仅仅修改了一个列的类型，数据大小减小3MB。

一个特殊而高效的案例是当某一列的值只有有限个，不管是int还是string格式，且该列unque值远小于列的长度，可以将该列转变为 category 类，将节省大量空间。这么做当然也有代价，比如转换成 category 类的数据将无法做max/min等运算，由数字转换成的 category 也不能进行数值运算。这种转换对内存的节省效果显着，下面是对比。 dcol 只有两列， Stkcd 和 Stknme ，查看unique的个数与总长度，显示unique远小于总长度，分别转换为 category 类型，内存节省超过90%！

通过Pandas的 read_csv 方法中的 chunksize 选项指定读取的块大小，并迭代地对读取的块做运算。

1 https冒号//www点dataquest点io/blog/pandas-big-data/
2 CSDN - python 处理大量数据_如何用python处理大量数据
2 How to Work with BIG Datasets on 16G RAM (+Dask), on kaggle

㈥如何在python列表中查找某个元素的索引

1、方法一：利用数组自身的特性 a.index(target), 其中a是目标list，target是需要的下标对应的值。代码如下：

2、分片：

分片用于截取某个范围内的元素，通过:来指定起始区间（左闭右开区间，包含左侧索引值对应的元素，但不包含右测索引值对应的元素）。

分片包括起始索引对应的元素，但不包括终止索引对应的元素，索引为正值时可以发生越界但只会取到最后一个元素。如果索引值为负值，则表示从最右边元素开始，此时需避免索引越界。

㈦ Python中生成器表达式的理解

9.11. 生成器表达式
有时简单的生成器可以用简洁的方式调用，就像不带中括号的链表推导式。这些表达式是为函数调用生成器而设计的。生成器表达式比完整的生成器定义更简洁，但是没有那么多变，而且通常比等价的链表推导式更容易记。
例如:
>>> sum(i*i for i in range(10)) # sum of squares
285
>>> xvec = [10, 20, 30]
>>> yvec = [7, 5, 3]
>>> sum(x*y for x,y in zip(xvec, yvec)) # dot proct
260
>>> from math import pi, sin
>>> sine_table = {x: sin(x*pi/180) for x in range(0, 91)}
>>> unique_words = set(word for line in page for word in line.split())
>>> valedictorian = max((student.gpa, student.name) for student in graates)
>>> data = 'golf'
>>> list(data[i] for i in range(len(data)-1, -1, -1))
['f', 'l', 'o', 'g']
Footnotes
[1] 有一个例外。模块对象有一个隐秘的只读对象，名为 __dict__ ，它返回用于实现模块命名空间的字典，命名 __dict__ 是一个属性而非全局命名。显然，使用它违反了命名空间实现的抽象原则，应该被严格限制于调试中。

㈧ Python pandas用法

在Python中，pandas是基于NumPy数组构建的，使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的，而NumPy更适合处理统一的数值数组数据。
使用下面格式约定，引入pandas包：

pandas有两个主要数据结构：Series和DataFrame。

Series是一种类似于一维数组的对象，它由 一组数据 （各种NumPy数据类型）以及一组与之相关的 数据标签（即索引） 组成，即index和values两部分，可以通过索引的方式选取Series中的单个或一组值。

pd.Series(list,index=[ ]) ，第二个参数是Series中数据的索引，可以省略。

Series类型索引、切片、运算的操作类似于ndarray，同样的类似Python字典类型的操作，包括保留字in操作、使用.get()方法。
Series和ndarray之间的主要区别在于Series之间的操作会根据索引自动对齐数据。

DataFrame是一个表格型的数据类型，每列值类型可以不同，是最常用的pandas对象。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。

pd.DataFrame(data,columns = [ ],index = [ ]) ：columns和index为指定的列、行索引，并按照顺序排列。

如果创建时指定了columns和index索引，则按照索引顺序排列，并且如果传入的列在数据中找不到，就会在结果中产生缺失值：

数据索引 ：Series和DataFrame的索引是Index类型，Index对象是不可修改，可通过索引值或索引标签获取目标数据，也可通过索引使序列或数据框的计算、操作实现自动化对齐。索引类型index的常用方法：

重新索引 ：能够改变、重排Series和DataFrame索引，会创建一个新对象，如果某个索引值当前不存在，就引入缺失值。
df.reindex(index, columns ,fill_value, method, limit, ) ：index/columns为新的行列自定义索引；fill_value为用于填充缺失位置的值；method为填充方法，ffill当前值向前填充，bfill向后填充；limit为最大填充量；默认True，生成新的对象，False时，新旧相等不复制。

删除指定索引 ：默认返回的是一个新对象。
.drop() ：能够删除Series和DataFrame指定行或列索引。
删除一行或者一列时，用单引号指定索引，删除多行时用列表指定索引。
如果删除的是列索引，需要增加axis=1或axis='columns'作为参数。
增加inplace=True作为参数，可以就地修改对象，不会返回新的对象。

在pandas中，有多个方法可以选取和重新组合数据。对于DataFrame，表5-4进行了总结

适用于Series和DataFrame的基本统计分析函数 ：传入axis='columns'或axis=1将会按行进行运算。
.describe() ：针对各列的多个统计汇总，用统计学指标快速描述数据的概要。
.sum() ：计算各列数据的和
.count() ：非NaN值的数量
.mean( )/.median() ：计算数据的算术平均值、算术中位数
.var()/.std() ：计算数据的方差、标准差
.corr()/.cov() ：计算相关系数矩阵、协方差矩阵，是通过参数对计算出来的。Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵。
.corrwith() ：利用DataFrame的corrwith方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series（针对各列进行计算），传入一个DataFrame则会计算按列名配对的相关系数。
.min()/.max() ：计算数据的最小值、最大值
.diff() ：计算一阶差分，对时间序列很有效
.mode() ：计算众数，返回频数最高的那（几）个
.mean() ：计算均值
.quantile() ：计算分位数（0到1）
.isin() ：用于判断矢量化集合的成员资格，可用于过滤Series中或DataFrame列中数据的子集
适用于Series的基本统计分析函数，DataFrame[列名]返回的是一个Series类型。
.unique() ：返回一个Series中的唯一值组成的数组。
.value_counts() ：计算一个Series中各值出现的频率。
.argmin()/.argmax() ：计算数据最大值、最小值所在位置的索引位置（自动索引）
.idxmin()/.idxmax() ：计算数据最大值、最小值所在位置的索引（自定义索引）

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结，其中read_csv()、read_table()、to_csv()是用得最多的。

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。

在许多数据分析工作中，缺失数据是经常发生的。对于数值数据，pandas使用浮点值NaN（np.nan）表示缺失数据，也可将缺失值表示为NA（Python内置的None值）。

替换值
.replace(old, new) ：用新的数据替换老的数据，如果希望一次性替换多个值，old和new可以是列表。默认会返回一个新的对象，传入inplace=True可以对现有对象进行就地修改。

删除重复数据

利用函数或字典进行数据转换

df.head()：查询数据的前五行
df.tail()：查询数据的末尾5行
pandas.cut()
pandas.qcut() 基于分位数的离散化函数。基于秩或基于样本分位数将变量离散化为等大小桶。
pandas.date_range() 返回一个时间索引
df.apply() 沿相应轴应用函数
Series.value_counts() 返回不同数据的计数值
df.aggregate()
df.reset_index() 重新设置index，参数drop = True时会丢弃原来的索引，设置新的从0开始的索引。常与groupby()一起用
numpy.zeros()

㈨ python list找出一个元素的位置（重复元素怎么分别找出位置）

使用list的index方法可以找到list中第一次出现该元素的位置

>>>l=['a','b','c','c','d','c']
>>>find='b'
>>>l.index(find)
1

找出出现该元素的所有位置可以使用一个简单的表理解来实现

>>>find='c'
>>>[ifori,vinenumerate(l)ifv==find]
[2,3,5]

㈩ Python变形

1.长宽表的变形

什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中，那么它就是关于性别的长表;如果把性别作为列名，列中的元素是某一其他的相关特征数值，那么这个表是关于性别的宽表。

1.1 pivot

pivot 是一种典型的长表变宽表的函数。对于一个基本的长变宽的操作而言，最重要的有三个要素，分别是变形后的行索引、需要转到列索引的列，以及这些列和行索引对应的数值，它们分别对应了 pivot 方法中的 index, columns, values 参数。新生成表的列索引是 columns 对应列的 unique 值，而新表的行索引是 index 对应列的 unique 值，而 values 对应了想要展示的数值列。

利用 pivot 进行变形操作需要满足唯一性的要求，即由于在新表中的行列索引对应了唯一的 value ，因此原表中的 index 和 columns 对应两个列的行组合必须唯一。例如，现在把原表中第二行张三的数学改为语文就会报错，这是由于 Name 与 Subject 的组合中两次出现 (”San Zhang”, ”Chinese”) ，从而最后不能够确定到底变形后应该是填写 80 分还是 75 分。

pandas 从 1.1.0 开始，pivot 相关的三个参数允许被设置为列表，这也意味着会返回多级索引。这里构造一个相应的例子来说明如何使用:下表中六列分别为班级、姓名、测试类型(期中考试和期末考试)、科目、成绩、排名。

根据唯一性原则，新表的行索引等价于对 index 中的多列使用 drop_plicates ，而列索引的长度为 values 中的元素个数乘以 columns 的唯一组合数量(与 index 类似)。

1.2 pivot_table

pivot 的使用依赖于唯一性条件，那如果不满足唯一性条件，那么必须通过聚合操作使得相同行列组合对应的多个值变为一个值。例如，张三和李四都参加了两次语文考试和数学考试，按照学院规定，最后的成绩是两次考试分数的平均值，此时就无法通过 pivot 函数来完成。

1.3 melt

长宽表只是数据呈现方式的差异，但其包含的信息量是等价的，前面提到了利用 pivot 把长表转为宽表，那么就可以通过相应的逆操作把宽表转为长表，melt 函数就起到了这样的作用。

1.4 wide_to_long

melt 方法中，在列索引中被压缩的一组值对应的列元素只能代表同一层次的含义，即 values_name 。现在如果列中包含了交叉类别，比如期中期末的类别和语文数学的类别，那么想要把 values_name 对应的 Grade 扩充为两列分别对应语文分数和数学分数，只把期中期末的信息压缩，这种需求下就要使用 wide_to_long 函数来完成。

2 索引的变形

2.1 stack 与 unstack

unstack 函数的作用是把行索引转为列索引

unstack 的主要参数是移动的层号，默认转化最内层，移动到列索引的最内层，同时支持同时转化多个层

类似于 pivot 中的唯一性要求，在 unstack 中必须保证被转为列索引的行索引层和被保留的行索引层构成的组合是唯一的，例如把前两个列索引改成相同的破坏唯一性，那么就会报错

与 unstack 相反，stack 的作用就是把列索引的层压入行索引，其用法完全类似。

2.2 聚合与变形的关系

在上面介绍的所有函数中，除了带有聚合效果的 pivot_table 以外，所有的函数在变形前后并不会带来 values 个数的改变，只是这些值在呈现的形式上发生了变化。在上一章讨论的分组聚合操作，由于生成了新的行列索引，因此必然也属于某种特殊的变形操作，但由于聚合之后把原来的多个值变为了一个值，因此 values 的个数产生了变化，这也是分组聚合与变形函数的最大区别。

3 其他变形函数

3.1 crosstab

crosstab 并不是一个值得推荐使用的函数，因为它能实现的所有功能 pivot_table 都能完成，并且速度更快。在默认状态下，crosstab 可以统计元素组合出现的频数，即 count 操作。例如统计 learn_pandas 数据集中学校和转系情况对应的频数

3.2 explode

explode 参数能够对某一列的元素进行纵向的展开，被展开的单元格必须存储 list, tuple, Series, np.ndarray 中的一种类型。

3.3 get_mmies

get_mmies 是用于特征构建的重要函数之一，其作用是把类别特征转为指示变量。例如，对年级一列转为指示变量，属于某一个年级的对应列标记为 1，否则为 0

导航:首页 > 编程语言 > listuniquepython

listuniquepython

与listuniquepython相关的资料