Perl中著名的Schwartzian转换问题解决实现


Posted in Python onJune 02, 2015

Perl中著名的Schwartzian转换,其产生背景主要涉及到排序问题:
比如说,根据文件名以字母顺序排序,代码如下:

use strict;  

use warnings;  

   

my @files = glob "*.xml";          #perl中文件操作符glob提供相当于shell中的通配符的功能  

my @sorted_files = sort @files;    #sort(),排序,默认是字母顺序排序

比如说,根据文件名长度排序,其代码如下:
use strict;  

use warnings;  

  

#length求长度。 太空船操作符<=>,默认变量是$a,$b,返回值为-1,0,1分别表示大于,==,小于。 sort进行排序  

my $files = ".xml";  

my @sorted_length = sort { length($a) <=> length($b) } @files; 

上面的两种情况,对很多文件操作来说,速度还不算慢,如果是下面这种情况。
比如说:要批量比较文件大小,其代码如下:
use strict;  

use warnings;  

   

my @files     = glob "*.xml";     

my @sort_size = sort { -s $a <=> -s $b } @files;  #比较大小 

上面的代码设计到三重(次)操作:
1. 从硬盘上获取文件大小(-s $b)
2. 比较文件大小(太空船操作)
3. 对其进行排序(sort操作)
考虑到要比较$a,$b大小时,要从硬盘中获取两次,所以次数是6次!也就是说,如果有1万个文件,总共是6万次。
其算法复杂度是: n*long(n),考虑到后两项(比较文件大小,进行排序)必然要进行的操作,但第一项却可以降低!
即一次性从硬盘中读取所有文件大小,将其放置到Perl中的默认的变量,并存储到内存中!于是又下面算法实现:
use strict;  

use warnings;  

  

my @files = glob "*.xml";  

  

my @unsorted_pairs = map  { [$_, -s $_] } @files;  

my @sorted_pairs   = sort { $a->[1] <=> $b->[1] } @unsorted_pairs;  

my @sorted_files   = map  { $_->[0] } @sorted_pairs; 

看上去比较复杂,分三个步骤解释下:
第一步:遍历文件列表,对每个文件创建一个数组引用。数组引用包含两个元素:
       第一个是文件名($_),第二个是文件大小(-s $_)。这样,处理每个文件只访问一次磁盘。
第二步:对二维数组排序。因比较文件大小,所以需取元素[1],比较它们的值。得到另一个二维数组。
第三步:丢掉文件大小元素,创建一个只含文件名的列表。完成目标!
上面的代码使用了两个临时数组,但这并不是必须的。我们可以一个语句就能完成所有的工作。为了达到目的,需要按照“数据从右流向左”的原理反转句子顺序,不如果将每个句子放在单独一行,并且留出足够的空间,我们依然可以写出可读性高的代码。
my @quickly_sorted_files =  

    map  { $_->[0] }  

    sort { $a->[1] <=> $b->[1] }  

    map  { [$_, -s $_] }  

    @files; 

这就是以Randal L. Schwartz命名的Schwartzian转换,对数据量特多的情况下,其速度要比前者快数倍!
下面写了小程序,包括在生成1万个xml文件,在两种情况下,完整代码如下:
#!/usr/bin/perl -w  

use strict;  

use warnings;  

use autodie;  

use v5.10;  

  

######################################  

###  创建要比较的10,000个.xml文件 ###  

######################################  

my $profix = ".xml";  

  

foreach my $num (1..10000) {  

    open(my $fh, '>', $num . $profix) || die "Can not create the file: $!\n";  

    print $fh "This is file size testing!";  

}  

  

print "All the 10_1000 files created! \n";  

  

  

######################################  

### 常规转换:      遍历20次       ###  

######################################  

my $t1  = time();  

  

foreach (1..20){   

    my @files     = glob "*.xml";  

    my @sorted    = sort { -s $a <=> -s $b } @files;  

}  

  

say "常规算法需要时间: => ", time()- $t1;  

  

  

######################################  

### Schwartzian转换: 遍历20次     ###  

######################################  

my $t2  = time();  

  

foreach (1..20){   

    my @files = glob "*.xml";  

        my @sorted =   

            map  {$_->[0]}  

            sort {$a->[1] <=> $b->[1]}  

            map  {[$_, -s $_]}  

       @files;  

} 
say "Schwartzian算法需要时间: => ", time()- $t2; 

输出结果:
All the 10_1000 files created!
常规算法需要时间:          => 185
Schwartzian算法需要时间: => 115

Python 相关文章推荐
python统计文本文件内单词数量的方法
May 30 Python
python编码总结(编码类型、格式、转码)
Jul 01 Python
Python制作刷网页流量工具
Apr 23 Python
基于python爬虫数据处理(详解)
Jun 10 Python
Django查询数据库的性能优化示例代码
Sep 24 Python
python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解
Oct 20 Python
numpy数组拼接简单示例
Dec 15 Python
Pycharm设置界面全黑的方法
May 23 Python
Win10下python 2.7与python 3.7双环境安装教程图解
Oct 12 Python
django实现web接口 python3模拟Post请求方式
Nov 19 Python
python自动脚本的pyautogui入门学习
Apr 01 Python
python 如何引入协程和原理分析
Nov 30 Python
python通过ssh-powershell监控windows的方法
Jun 02 #Python
Python lxml模块安装教程
Jun 02 #Python
Python脚本文件打包成可执行文件的方法
Jun 02 #Python
python统计cpu利用率的方法
Jun 02 #Python
Python2.x中文乱码问题解决方法
Jun 02 #Python
python实现的守护进程(Daemon)用法实例
Jun 02 #Python
Python中使用ElementTree解析XML示例
Jun 02 #Python
You might like
thinkphp3查询mssql数据库乱码解决方法分享
2014/02/11 PHP
一漂亮的PHP图片验证码实例
2014/03/21 PHP
thinkPHP5.0框架配置格式、加载解析与读取方法
2017/03/17 PHP
windows 2008r2+php5.6.28环境搭建详细过程
2019/06/18 PHP
页面调用单个swf文件,嵌套出多个方法。
2011/11/21 Javascript
基于JavaScript实现继承机制之调用call()与apply()的方法详解
2013/05/07 Javascript
jquery(hide方法)隐藏指定元素实例
2013/11/11 Javascript
JavaScript定义类的几种方式总结
2014/01/06 Javascript
js实现的点击div区域外隐藏div区域
2014/06/30 Javascript
JS修改iframe页面背景颜色的方法
2015/04/01 Javascript
跟我学习javascript的this关键字
2020/05/28 Javascript
JS实现上传图片实时预览功能
2017/05/22 Javascript
JS库中的Particles.js在vue上的运用案例分析
2017/09/13 Javascript
js实现上传并压缩图片效果
2018/01/10 Javascript
jquery在启动页面时,自动加载数据的实例
2018/01/22 jQuery
20行JS代码实现粘贴板复制功能
2018/02/06 Javascript
Angular6项目打包优化的实现方法
2019/12/15 Javascript
vue 监听窗口变化对页面部分元素重新渲染操作
2020/07/28 Javascript
[20:21]《一刀刀一天》第十六期:TI国际邀请赛正式打响,总奖金超过550万
2014/05/23 DOTA
[01:32]TI珍贵瞬间系列(一)
2020/08/26 DOTA
python+opencv实现动态物体追踪
2018/01/09 Python
Django 外键的使用方法详解
2019/07/19 Python
python使用paramiko实现ssh的功能详解
2020/03/06 Python
如何理解python中数字列表
2020/05/29 Python
Python实现加密的RAR文件解压的方法(密码已知)
2020/09/11 Python
Django如何实现防止XSS攻击
2020/10/13 Python
解决Pymongo insert时会自动添加_id的问题
2020/12/05 Python
HTML5: Web 标准最巨大的飞跃
2008/10/17 HTML / CSS
LORAC官网:美国彩妆品牌
2019/08/27 全球购物
Java程序员综合测试题
2014/04/25 面试题
护理职业应聘自荐书
2013/09/29 职场文书
爱心募捐感谢信
2015/01/22 职场文书
体育委员竞选稿
2015/11/21 职场文书
2016年五一劳动节专题校园广播稿
2015/12/17 职场文书
2019奶茶店创业计划书范本,值得你借鉴
2019/08/14 职场文书
java.util.NoSuchElementException原因及两种解决方法
2022/06/28 Java/Android