Python列表去重复项的N种方法(实例代码)


Posted in Python onMay 12, 2020

说明

Python语言中列表(List)与其他语言的数组(Array)类似,是一种有序的集合数据结构,Python List可支持各种数据类型,长度也可动态调整,与JS中的数组或Java ArrayList很接近。在实际编程中,经常会遇到数组或列表去掉重复项,保持成员唯一性。实现方式有多种,比如新建列表来存储非重复项,或者在原有基础上删除掉重复的项,也可以利用数据结构来达到去重复。具体哪一种方法更好呢?以下约20种方式都可以实现,我们可以通过这些来交流和学习。

Python列表去重复项的N种方法(实例代码)

方式

## 1. 新建列表,如果新列表中不存在,则添加到新列表。 
def unique(data): 
 new_list = [] 
 for item in data: 
 if item not in new_list: 
  new_list.append(item) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("new_list + not in data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
# result 
$ python -V 
Python 2.7.16 
$ python unique.py 
('for list + not in. data:', ['a', 1, 2, 'b']) 
time:0.0441074371338 ms 
## 2. 新建列表。根据下标判断是否存在新列表中,如果新列表中不存在则添加到新列表。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 if data[i] not in new_list: 
  new_list.append(data[i]) 
 return new_list 
## 2.1 新建列表,使用列表推导来去重。是前一种的简写。 
def unique(data): 
 new_list = [] 
 [new_list.append(i) for i in data if not i in new_list] 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("for range + not in. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 3. 通过index找不到该项,则追加到新列表中。index找不到会报错,因此放在异常处理里。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 item = data[i] 
 try: 
  if (new_list.index(item) < 0): 
  print('new_list:', new_list) 
 except ValueError: 
  new_list.append(item) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("list index + except:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 4. 新建列表,两个循环。如果内循环与外循环项相同,且下标相同就添加到新列表,其余忽略 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 j = 0 
 while j <= i: 
  if data[i] == data[j]: 
  if i == j: 
   new_list.append(data[i]) 
  break 
  j += 1 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("new list + for. new_list:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 5. 在原有列表上移除重复项目。自后往前遍历,逐个与前面项比较,如果值相同且下标相同,则移除当前项。 
def unique(data): 
 l = len(data) 
 while (l > 0): 
 l -= 1 
 i = l 
 while i > 0: 
  i -= 1 
  if data[i] == data[l]: 
  del data[l] 
  break 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("one list while. last -> first result. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 6. 在原有列表上移除重复项目。自前往后遍历,逐个与后面项比较,如果值相同且下标相同,则移除当前项。 
def unique(data): 
 l = len(data) 
 i = 0 
 while i < l: 
 j = i + 1 
 while j < l: 
  if data[i] == data[j]: 
  del data[j] 
  l -= 1 
  i -= 1 
  break 
  j += 1 
 i += 1 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("one list while. first -> last result. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 7. 新建列表。遍历列表,利用index比较出现的位置,如果出现在第一次的位置则追加到新数组。 
def unique(data): 
 new_list = [] 
 for i in range(len(data)): 
 if i == data.index(data[i]): 
  new_list.append(data[i]) 
 return new_list 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("for range + index. data:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 8. 利用字典属性唯一性来实现去重复。 
def unique(data): 
 obj = {} 
 for item in data: 
 obj[item] = item 
 return obj.values() 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("list + dict:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 或者直接通过dict.fromkeys来实现 
print("dict fromkeys:", dict.fromkeys(data).keys()) 
## 9. 利用filter函数,即把不符合条件的过滤掉。这里filter不支持下标,因此需要借助外部列表存储不重复项 
def uniq(item): 
 i = data.index(item) 
 if (item not in new_list): 
 new_list.append(item) 
 return True 
 return False 
def unique(item): 
 if obj.get(item) == None: 
 obj[item] = item 
 return True 
 return False 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
new_list = [] 
print('filter + list + not in: ', filter(uniq, data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 10. 利用字典结合过滤来实现去重复。 
def unique(item): 
 if obj.get(item) == None: 
 obj[item] = item 
 return True 
 return False 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
obj = {} 
print("filter + dict + get:", filter(unique, data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 11. 利用map来实现去重复。与map与filter类似,是一个高阶函数。可以针对其中项逐个修改操作。 
## 与filter不同map会保留原有项目,并不会删除,因此值可以改为None,然后再过滤掉。 
def unique(item): 
 if item not in new_list: 
 new_list.append(item) 
 return item 
 return None 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
new_list = [] 
start_time = time.time() 
print("list from Map:", filter(lambda item: item != None, map(unique, data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 12. 利用set数据结构里key的唯一性来去重复 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
print("from Set:", list(set(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 13. 提前排序,从后向前遍历,将当前项与前一项对比,如果重复则移除当前项 
def unique(data): 
 data.sort() 
 l = len(data) 
 while (l > 0): 
 l -= 1 
 if (data[l] == data[l - 1]): 
  data.remove(data[l]) 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("sort + remove:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 14. 提前排序,自前往后遍历,将当前项与后一项对比,如果重复则移除当前项 
def unique(data): 
 """ 
 in python 3: TypeError: '<' not supported between instances of 'int' and 'str' 
 need to keep the same Type of member in List 
 """ 
 data.sort() 
 l = len(data) - 1 
 i = 0 
 while i < l: 
 if (data[i] == data[i + 1]): 
  del data[i] 
  i -= 1 
  l -= 1 
 i += 1 
 return data 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("sort+del ASE:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 15. 利用reduce函数来去重复。reduce具有累计的作用,判断如果不在累计结果中出现,则追加到结果中。 
import functools 
def unique(data): 
 new_list = [] 
 def foo(result, item): 
 if isinstance(result, list) == False: 
  result = [result] 
 return result if item in result else result + [item] 
 return functools.reduce(foo, data) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("functools.reduce:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 16. 利用递归调用来去重复。递归自后往前逐个调用,当长度为1时终止。 
## 当后一项与前任一项相同说明有重复,则删除当前项。相当于利用自我调用来替换循环 
def recursion_unique(data, len): 
 if (len <= 1): 
 return data 
 l = len 
 last = l - 1 
 is_repeat = False 
 while (l > 1): 
 l -= 1 
 if (data[last] == data[l - 1]): 
  is_repeat = True 
  break 
 if (is_repeat): 
 del data[last] 
 return recursion_unique(data, len - 1) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("recursion_unique:", recursion_unique(data, len(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 17. 利用递归调用来去重复的另外一种方式。递归自后往前逐个调用,当长度为1时终止。 
## 与上一个递归不同,这里将不重复的项目作为结果拼接起来 
def recursion_unique_new(data, len): 
 if (len <= 1): 
 return data 
 l = len 
 last = l - 1 
 is_repeat = False 
 while (l > 1): 
 l -= 1 
 if (data[last] == data[l - 1]): 
  is_repeat = True 
  break 
 if (is_repeat): 
 del data[last:] 
 result = [] 
 else: 
 result = [data[last]] 
 return recursion_unique_new(data, len - 1) + result 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("recursion_unique_new:", recursion_unique_new(data, len(data))) 
print("time:" + str((time.time() - start_time) * 1000) + " ms") 
## 18. 利用numpy lib库. 需提前安装 `pip install numpy` 
import numpy as np 
def unique(data): 
 res = np.array(data) 
 return list(np.unique(res)) 
# test 
data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] 
start_time = time.time() 
print("import numpy as np.unique:", unique(data)) 
print("time:" + str((time.time() - start_time) * 1000) + " ms")
Python列表去重复项的N种方法(实例代码)

讨论

从以上例子上可以看出,相对来讲,Python比起其它语言要灵活得多,与JS并列最流行的脚本类语言,这也就是为何Python如此流行的原因吧。

哪一种方式更适合呢?你常用那种方式来实现去重复项?新建数组、非新建、借助Dict或Set等结构,亦或是其它方式?

Python列表去重复项的N种方法(实例代码)

总结

到此这篇关于Python列表去重复项的N种方法的文章就介绍到这了,更多相关python列表去重复项内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python使用函数默认值实现函数静态变量的方法
Aug 18 Python
python实现带声音的摩斯码翻译实现方法
May 20 Python
python Selenium爬取内容并存储至MySQL数据库的实现代码
Mar 16 Python
Python 中开发pattern的string模板(template) 实例详解
Apr 01 Python
利用Python批量提取Win10锁屏壁纸实战教程
Mar 27 Python
python3读取excel文件只提取某些行某些列的值方法
Jul 10 Python
Python turtle绘画象棋棋盘
Aug 21 Python
pytorch 数据处理:定义自己的数据集合实例
Dec 31 Python
tensorflow 实现自定义layer并添加到计算图中
Feb 04 Python
解决Keras中Embedding层masking与Concatenate层不可调和的问题
Jun 18 Python
Python在线和离线安装第三方库的方法
Oct 31 Python
Pytorch中Softmax与LogSigmoid的对比分析
Jun 05 Python
python3中的logging记录日志实现过程及封装成类的操作
May 12 #Python
Pycharm激活方法及详细教程(详细且实用)
May 12 #Python
PyTorch在Windows环境搭建的方法步骤
May 12 #Python
pycharm 2018 激活码及破解补丁激活方式
Sep 21 #Python
pycharm 激活码及使用方式的详细教程
May 12 #Python
Python-jenkins模块之folder相关操作介绍
May 12 #Python
使用python-Jenkins批量创建及修改jobs操作
May 12 #Python
You might like
咖啡风味 世界咖啡主要分布分布 咖啡的生长要求
2021/03/06 新手入门
用PHP实现的随机广告显示代码
2007/06/14 PHP
php 文章采集正则代码
2009/12/28 PHP
PHP学习笔记之数组篇
2011/06/28 PHP
ThinkPHP的I方法使用详解
2014/06/18 PHP
linux下安装php的memcached客户端
2014/08/03 PHP
教大家制作简单的php日历
2015/11/17 PHP
40款非常有用的 jQuery 插件推荐(系列一)
2011/12/21 Javascript
javascript控制swfObject应用介绍
2012/11/29 Javascript
jQuery实现简单网页遮罩层/弹出层效果兼容IE6、IE7
2014/06/16 Javascript
JS 对象属性相关(检查属性、枚举属性等)
2015/04/05 Javascript
javascript无刷新评论实现方法
2015/05/13 Javascript
Javascript实现飞动广告效果的方法
2015/05/25 Javascript
arguments对象验证函数的参数是否合法
2015/06/26 Javascript
javascript实现Email邮件显示与删除功能
2015/11/21 Javascript
jQuery禁用键盘后退屏蔽F5刷新及禁用右键单击
2016/01/22 Javascript
javascript基础知识分享之类与函数化
2016/02/13 Javascript
bootstrap导航、选项卡实现代码
2016/12/28 Javascript
原生js实现轮播图的示例代码
2017/02/20 Javascript
ionic3实战教程之随机布局瀑布流的实现方法
2017/12/28 Javascript
Less 安装及基本用法
2018/05/05 Javascript
浅谈Node.js 沙箱环境
2018/05/15 Javascript
浅谈vue限制文本框输入数字的正确姿势
2019/09/02 Javascript
基于VSCode调试网页JavaScript代码过程详解
2020/07/20 Javascript
python 七种邮件内容发送方法实例
2014/04/22 Python
在树莓派2或树莓派B+上安装Python和OpenCV的教程
2015/03/30 Python
Python对文件和目录进行操作的方法(file对象/os/os.path/shutil 模块)
2017/05/08 Python
python 自动去除空行的实例
2018/07/24 Python
python中wx模块的具体使用方法
2020/05/15 Python
python代码能做成软件吗
2020/07/24 Python
python3.9.1环境安装的方法(图文)
2021/02/02 Python
Simons官方网站:加拿大时尚零售商
2020/02/20 全球购物
2014年保卫部工作总结
2014/11/21 职场文书
2014年政工师工作总结
2014/12/18 职场文书
小学元宵节活动总结
2015/02/06 职场文书
php 原生分页
2021/04/01 PHP