Python爬取成语接龙类网站


Posted in Python onOctober 19, 2018

介绍

本文将展示如何利用Python爬虫来实现诗歌接龙。

该项目的思路如下:

利用爬虫爬取诗歌,制作诗歌语料库;

将诗歌分句,形成字典:键(key)为该句首字的拼音,值(value)为该拼音对应的诗句,并将字典保存为pickle文件;
读取pickle文件,编写程序,以exe文件形式运行该程序。

该项目实现的诗歌接龙,规则为下一句的首字与上一句的尾字的拼音(包括声调)一致。下面将分步讲述该项目的实现过程。

诗歌语料库

首先,我们利用Python爬虫来爬取诗歌,制作语料库。爬取的网址为:https://www.gushiwen.org,页面如下:

Python爬取成语接龙类网站

由于本文主要为试了展示该项目的思路,因此,只爬取了该页面中的唐诗三百首、古诗三百、宋词三百、宋词精选,一共大约1100多首诗歌。为了加速爬虫,采用并发实现爬虫,并保存到poem.txt文件。完整的Python程序如下:

import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

# 爬取的诗歌网址
urls = ['https://so.gushiwen.org/gushi/tangshi.aspx',
  'https://so.gushiwen.org/gushi/sanbai.aspx',
  'https://so.gushiwen.org/gushi/songsan.aspx',
  'https://so.gushiwen.org/gushi/songci.aspx'
  ]

poem_links = []
# 诗歌的网址
for url in urls:
 # 请求头部
 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
 req = requests.get(url, headers=headers)

 soup = BeautifulSoup(req.text, "lxml")
 content = soup.find_all('div', class_="sons")[0]
 links = content.find_all('a')

 for link in links:
  poem_links.append('https://so.gushiwen.org'+link['href'])

poem_list = []
# 爬取诗歌页面
def get_poem(url):
 #url = 'https://so.gushiwen.org/shiwenv_45c396367f59.aspx'
 # 请求头部
 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
 req = requests.get(url, headers=headers)
 soup = BeautifulSoup(req.text, "lxml")
 poem = soup.find('div', class_='contson').text.strip()
 poem = poem.replace(' ', '')
 poem = re.sub(re.compile(r"\([\s\S]*?\)"), '', poem)
 poem = re.sub(re.compile(r"([\s\S]*?)"), '', poem)
 poem = re.sub(re.compile(r"。\([\s\S]*?)"), '', poem)
 poem = poem.replace('!', '!').replace('?', '?')
 poem_list.append(poem)

# 利用并发爬取
executor = ThreadPoolExecutor(max_workers=10) # 可以自己调整max_workers,即线程的个数
# submit()的参数: 第一个为函数, 之后为该函数的传入参数,允许有多个
future_tasks = [executor.submit(get_poem, url) for url in poem_links]
# 等待所有的线程完成,才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)

# 将爬取的诗句写入txt文件
poems = list(set(poem_list))
poems = sorted(poems, key=lambda x:len(x))
for poem in poems:
 poem = poem.replace('《','').replace('》','') \
    .replace(':', '').replace('“', '')
 print(poem)
 with open('F://poem.txt', 'a') as f:
  f.write(poem)
  f.write('\n')

该程序爬取了1100多首诗歌,并将诗歌保存至poem.txt文件,形成我们的诗歌语料库。当然,这些诗歌并不能直接使用,需要清理数据,比如有些诗歌标点不规范,有些并不是诗歌,只是诗歌的序等等,这个过程需要人工操作,虽然稍显麻烦,但为了后面的诗歌分句效果,也是值得的。

诗歌分句

有了诗歌语料库,我们需要对诗歌进行分句,分句的标准为:按照结尾为。?!进行分句,这可以用正则表达式实现。之后,将分句好的诗歌写成字典:键(key)为该句首字的拼音,值(value)为该拼音对应的诗句,并将字典保存为pickle文件。完整的Python代码如下:

import re
import pickle
from xpinyin import Pinyin
from collections import defaultdict

def main():
 with open('F://poem.txt', 'r') as f:
  poems = f.readlines()

 sents = []
 for poem in poems:
  parts = re.findall(r'[\s\S]*?[。?!]', poem.strip())
  for part in parts:
   if len(part) >= 5:
    sents.append(part)

 poem_dict = defaultdict(list)
 for sent in sents:
  print(part)
  head = Pinyin().get_pinyin(sent, tone_marks='marks', splitter=' ').split()[0]
  poem_dict[head].append(sent)

 with open('./poemDict.pk', 'wb') as f:
  pickle.dump(poem_dict, f)

main()

我们可以看一下该pickle文件(poemDict.pk)的内容:

Python爬取成语接龙类网站

当然,一个拼音可以对应多个诗歌。

诗歌接龙

读取pickle文件,编写程序,以exe文件形式运行该程序。

为了能够在编译形成exe文件的时候不出错,我们需要改写xpinyin模块的_init_.py文件,将该文件的全部代码复制至mypinyin.py,并将代码中的下面这句代码

data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),
        'Mandarin.dat')

改写为

data_path = os.path.join(os.getcwd(), 'Mandarin.dat')

这样我们就完成了mypinyin.py文件。

接下来,我们需要编写诗歌接龙的代码(Poem_Jielong.py),完整代码如下:

import pickle
from mypinyin import Pinyin
import random
import ctypes

STD_INPUT_HANDLE = -10
STD_OUTPUT_HANDLE = -11
STD_ERROR_HANDLE = -12

FOREGROUND_DARKWHITE = 0x07 # 暗白色
FOREGROUND_BLUE = 0x09 # 蓝色
FOREGROUND_GREEN = 0x0a # 绿色
FOREGROUND_SKYBLUE = 0x0b # 天蓝色
FOREGROUND_RED = 0x0c # 红色
FOREGROUND_PINK = 0x0d # 粉红色
FOREGROUND_YELLOW = 0x0e # 黄色
FOREGROUND_WHITE = 0x0f # 白色

std_out_handle = ctypes.windll.kernel32.GetStdHandle(STD_OUTPUT_HANDLE)

# 设置CMD文字颜色
def set_cmd_text_color(color, handle=std_out_handle):
 Bool = ctypes.windll.kernel32.SetConsoleTextAttribute(handle, color)
 return Bool

# 重置文字颜色为暗白色
def resetColor():
 set_cmd_text_color(FOREGROUND_DARKWHITE)

# 在CMD中以指定颜色输出文字
def cprint(mess, color):
 color_dict = {
     '蓝色': FOREGROUND_BLUE,
     '绿色': FOREGROUND_GREEN,
     '天蓝色': FOREGROUND_SKYBLUE,
     '红色': FOREGROUND_RED,
     '粉红色': FOREGROUND_PINK,
     '黄色': FOREGROUND_YELLOW,
     '白色': FOREGROUND_WHITE
     }
 set_cmd_text_color(color_dict[color])
 print(mess)
 resetColor()

color_list = ['蓝色','绿色','天蓝色','红色','粉红色','黄色','白色']

# 获取字典
with open('./poemDict.pk', 'rb') as f:
 poem_dict = pickle.load(f)

#for key, value in poem_dict.items():
 #print(key, value)

MODE = str(input('Choose MODE(1 for 人工接龙, 2 for 机器接龙): '))

while True:
 try:
  if MODE == '1':
   enter = str(input('\n请输入一句诗或一个字开始:'))
   while enter != 'exit':
    test = Pinyin().get_pinyin(enter, tone_marks='marks', splitter=' ')
    tail = test.split()[-1]
    if tail not in poem_dict.keys():
     cprint('无法接这句诗。\n', '红色')
     MODE = 0
     break
    else:
     cprint('\n机器回复:%s'%random.sample(poem_dict[tail], 1)[0], random.sample(color_list, 1)[0])
     enter = str(input('你的回复:'))[:-1]

   MODE = 0

  if MODE == '2':
   enter = input('\n请输入一句诗或一个字开始:')

   for i in range(10):
    test = Pinyin().get_pinyin(enter, tone_marks='marks', splitter=' ')
    tail = test.split()[-1]
    if tail not in poem_dict.keys():
     cprint('------>无法接下去了啦...', '红色')
     MODE = 0
     break
    else:
     answer = random.sample(poem_dict[tail], 1)[0]
     cprint('(%d)--> %s' % (i+1, answer), random.sample(color_list, 1)[0])
     enter = answer[:-1]

   print('\n(*****最多展示前10回接龙。*****)')
   MODE = 0

 except Exception as err:
  print(err)
 finally:
  if MODE not in ['1','2']:
   MODE = str(input('\nChoose MODE(1 for 人工接龙, 2 for 机器接龙): '))

现在整个项目的结构如下(Mandarin.dat文件从xpinyin模块对应的文件夹下复制过来):

Python爬取成语接龙类网站

切换至该文件夹,输入以下命令即可生成exe文件:

pyinstaller -F Poem_jielong.py

Python爬取成语接龙类网站

本项目的诗歌接龙有两种模式,一种为人工接龙,就是你先输入一句诗或一个字,然后就是计算机回复一句,你回复一句,负责诗歌接龙的规则;另一种模式为机器接龙,就是你先输入一句诗或一个字,机器会自动输出后面的接龙诗句(最多10个)。

先测试人工接龙模式:

Python爬取成语接龙类网站

再测试机器接龙模式:

Python爬取成语接龙类网站

总结

该项目的Github地址为:https://github.com/percent4/Shicijielong

Python 相关文章推荐
Python随机生成彩票号码的方法
Mar 05 Python
Python去除列表中重复元素的方法
Mar 20 Python
Python fileinput模块使用实例
May 28 Python
使用python实现BLAST
Feb 12 Python
Python minidom模块用法示例【DOM写入和解析XML】
Mar 25 Python
Python多叉树的构造及取出节点数据(treelib)的方法
Aug 09 Python
Python列表原理与用法详解【创建、元素增加、删除、访问、计数、切片、遍历等】
Oct 30 Python
Django REST framework 单元测试实例解析
Nov 07 Python
matlab 计算灰度图像的一阶矩,二阶矩,三阶矩实例
Apr 22 Python
关于Python字符编码与二进制不得不说的一些事
Oct 04 Python
Django-Scrapy生成后端json接口的方法示例
Oct 06 Python
解决pycharm下载库时出现Failed to install package的问题
Sep 04 Python
将Django项目部署到CentOs服务器中
Oct 18 #Python
python中将zip压缩包转为gz.tar的方法
Oct 18 #Python
Python 忽略warning的输出方法
Oct 18 #Python
解决python通过cx_Oracle模块连接Oracle乱码的问题
Oct 18 #Python
解决python3捕获cx_oracle抛出的异常错误问题
Oct 18 #Python
python 自定义异常和异常捕捉的方法
Oct 18 #Python
详解Python发送email的三种方式
Oct 18 #Python
You might like
评分9.0以上的动画电影,剧情除了经典还很燃
2020/03/04 日漫
理解php原理的opcodes(操作码)
2010/10/26 PHP
Laravel中任务调度console使用方法小结
2017/05/07 PHP
比Jquery的document.ready更快的方法
2010/04/28 Javascript
JavaScript格式化数字的函数代码
2010/11/30 Javascript
jquery设置按钮停顿3秒不可用
2014/03/07 Javascript
javascript实现客户端兼容各浏览器创建csv并下载的方法
2015/03/23 Javascript
js读取并解析JSON类型数据的方法
2015/11/14 Javascript
将json转换成struts参数的方法
2016/11/08 Javascript
移动端js图片查看器
2016/11/17 Javascript
JS正则表达式学习之贪婪和非贪婪模式实例总结
2016/12/26 Javascript
js, jQuery实现全选、反选功能
2017/03/08 Javascript
jQuery操作之效果详解
2017/05/19 jQuery
深入理解vue-router之keep-alive
2017/08/31 Javascript
微信小程序版翻牌小游戏
2018/01/26 Javascript
vue iView 上传组件之手动上传功能
2018/03/16 Javascript
vue项目刷新当前页面的三种方法
2018/12/04 Javascript
JS实现动态星空背景效果
2019/11/01 Javascript
vue项目实现设置根据路由高亮对应的菜单项操作
2020/08/06 Javascript
解决vue项目axios每次请求session不一致的问题
2020/10/24 Javascript
python多线程操作实例
2014/11/21 Python
Python中字典映射类型的学习教程
2015/08/20 Python
多版本Python共存的配置方法
2017/05/22 Python
django静态文件加载的方法
2018/05/20 Python
python GUI库图形界面开发之PyQt5 UI主线程与耗时线程分离详细方法实例
2020/02/26 Python
关于Django Models CharField 参数说明
2020/03/31 Python
django 实现简单的插入视频
2020/04/07 Python
python进度条显示-tqmd模块的实现示例
2020/08/23 Python
用python制作个视频下载器
2021/02/01 Python
大学社团活动策划书
2014/01/26 职场文书
医师定期考核实施方案
2014/05/07 职场文书
维护民族团结演讲稿
2014/08/27 职场文书
创先争优演讲稿
2014/09/15 职场文书
归元寺导游词
2015/02/06 职场文书
员工辞职信范文大全
2015/05/12 职场文书
优秀共产党员事迹材料2016
2016/02/29 职场文书