编程 Python

Python实现一个论文下载器的过程

Posted in Python onJanuary 18, 2021

在科研学习的过程中，我们难免需要查询相关的文献资料，而想必很多小伙伴都知道SCI-HUB，此乃一大神器，它可以帮助我们搜索相关论文并下载其原文。可以说，SCI-HUB造福了众多科研人员，用起来也是“美滋滋”。

Python实现一个论文下载器的过程

然而，当师姐告诉我：“xx，可以帮我下载几篇文献嘛?”。乐心助人的我自当是满口答应了，心想：“这种小事就交给我叭~”

于是乎，我收到了一个excel文档，66篇论文的列表安静地趟在里面（此刻心中碎碎念：“这尼玛，是几篇嘛...”）。我粗略算了一下，复制、粘贴、下载，一套流程走下来，每篇论文少说也得30秒，66篇的话....啊，这不能忍！

很显然，一篇一篇的下载，不是我的风格所以，我决定写一个论文下载器助我前行。

Python实现一个论文下载器的过程

一、代码分析

代码分析的详细思路跟以往依旧如此雷同，逃不过的还是：抓包分析->模拟请求->代码整合。由于一会儿kimol君还得去搬砖，今天就不详细展开了。

1. 搜索论文

通过论文的URL、PMID、DOI号或者论文标题等搜索到对应的论文，并通过bs4库找出PDF原文的链接地址，代码如下：

def search_article(artName):
 '''
 搜索论文
 ---------------
 输入：论文名
 ---------------
 输出：搜索结果（如果没有返回""，否则返回PDF链接）
 '''
 url = 'https://www.sci-hub.ren/'
 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate, br',
    'Content-Type':'application/x-www-form-urlencoded',
    'Content-Length':'123',
    'Origin':'https://www.sci-hub.ren',
    'Connection':'keep-alive',
    'Upgrade-Insecure-Requests':'1'}
 data = {'sci-hub-plugin-check':'',
   'request':artName}
 res = requests.post(url, headers=headers, data=data)
 html = res.text
 soup = BeautifulSoup(html, 'html.parser')
 iframe = soup.find(id='pdf')
 if iframe == None: # 未找到相应文章
  return ''
 else:
  downUrl = iframe['src']
  if 'http' not in downUrl:
   downUrl = 'https:'+downUrl
  return downUrl

2. 下载论文

得到了论文的链接地址之后，只需要通过requests发送一个请求，即可将其下载：

def download_article(downUrl):
 '''
 根据论文链接下载文章
 ----------------------
 输入：论文链接
 ----------------------
 输出：PDF文件二进制
 '''
 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate, br',
    'Connection':'keep-alive',
    'Upgrade-Insecure-Requests':'1'}
 res = requests.get(downUrl, headers=headers)
 return res.content

二、完整代码

将上述两个函数整合之后，我的完整代码如下：

# -*- coding: utf-8 -*-
"""
Created on Tue Jan 5 16:32:22 2021
@author: kimol_love
"""
import os
import time
import requests
from bs4 import BeautifulSoup
 
def search_article(artName):
 '''
 搜索论文
 ---------------
 输入：论文名
 ---------------
 输出：搜索结果（如果没有返回""，否则返回PDF链接）
 '''
 url = 'https://www.sci-hub.ren/'
 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate, br',
    'Content-Type':'application/x-www-form-urlencoded',
    'Content-Length':'123',
    'Origin':'https://www.sci-hub.ren',
    'Connection':'keep-alive',
    'Upgrade-Insecure-Requests':'1'}
 data = {'sci-hub-plugin-check':'',
   'request':artName}
 res = requests.post(url, headers=headers, data=data)
 html = res.text
 soup = BeautifulSoup(html, 'html.parser')
 iframe = soup.find(id='pdf')
 if iframe == None: # 未找到相应文章
  return ''
 else:
  downUrl = iframe['src']
  if 'http' not in downUrl:
   downUrl = 'https:'+downUrl
  return downUrl
  
def download_article(downUrl):
 '''
 根据论文链接下载文章
 ----------------------
 输入：论文链接
 ----------------------
 输出：PDF文件二进制
 '''
 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate, br',
    'Connection':'keep-alive',
    'Upgrade-Insecure-Requests':'1'}
 res = requests.get(downUrl, headers=headers)
 return res.content
 
def welcome():
 '''
 欢迎界面
 '''
 os.system('cls')
 title = '''
    _____ _____ _____  _ _ _ _ ____ 
    / ____|/ ____|_ _| | | | | | | | _ \ 
    | (___ | |  | |______| |__| | | | | |_) |
    \___ \| |  | |______| __ | | | | _ < 
    ____) | |____ _| |_  | | | | |__| | |_) |
    |_____/ \_____|_____| |_| |_|\____/|____/
    
   '''
 print(title)
 
if __name__ == '__main__':
 while True:
  welcome()
  request = input('请输入URL、PMID、DOI或者论文标题：')
  print('搜索中...')
  downUrl = search_article(request)
  if downUrl == '':
   print('未找到相关论文，请重新搜索！')
  else:
   print('论文链接：%s'%downUrl)
   print('下载中...')
   pdf = download_article(downUrl)
   with open('%s.pdf'%request, 'wb') as f:
    f.write(pdf)
   print('---下载完成---')
  time.sleep(0.8)

不出所料，代码一跑，我便轻松完成了师姐交给我的任务，不香嘛？

到此这篇关于Python实现一个论文下载器的过程的文章就介绍到这了,更多相关python论文下载器内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python实现一个论文下载器的过程

- Author -

程序猿小白^

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python修改Excel数据的实例代码

Nov 01 Python

对Python新手编程过程中如何规避一些常见问题的建议

Apr 01 Python

python基于xmlrpc实现二进制文件传输的方法

Jun 02 Python

Python抓取淘宝下拉框关键词的方法

Jul 08 Python

python编写简单爬虫资料汇总

Mar 22 Python

Django Admin 实现外键过滤的方法

Sep 29 Python

Python多进程与服务器并发原理及用法实例分析

Aug 21 Python

python函数与方法的区别总结

Jun 23 Python

解决python文件双击运行秒退的问题

Jun 24 Python

python针对mysql数据库的连接、查询、更新、删除操作示例

Sep 11 Python

Python 切分数组实例解析

Nov 07 Python

解决tensorflow读取本地MNITS_data失败的原因

Jun 22 Python

利用python为PostgreSQL的表自动添加分区

Jan 18 #Python

如何查看python关键字

Jan 17 #Python

Python日志打印里logging.getLogger源码分析详解

Jan 17 #Python

Python中的面向接口编程示例详解

Jan 17 #Python

Python学习之time模块的基本使用

Jan 17 #Python

python中re模块知识点总结

Jan 17 #Python

史上最详细的Python打包成exe文件教程

Jan 17 #Python

You might like

PHP中for循环语句的几种变型

2006/11/26 PHP

PHP获取当前日期和时间及格式化方法参数

2015/05/11 PHP

PHP仿微信发红包领红包效果

2016/10/30 PHP

PHP+Redis链表解决高并发下商品超卖问题(实现原理及步骤)

2020/08/03 PHP

Javascript isArray 数组类型检测函数

2009/10/08 Javascript

javascript 冒泡排序正序和倒序实现代码

2010/12/14 Javascript

最佳JS代码编写的14条技巧

2011/01/09 Javascript

jQuery 操作option的实现代码

2011/03/03 Javascript

javascript制作loading动画效果 loading效果

2014/01/14 Javascript

yui3的AOP(面向切面编程)和OOP(面向对象编程)

2015/05/01 Javascript

jquery中map函数遍历数组用法实例

2015/05/18 Javascript

JS实现带鼠标效果的头像及文章列表代码

2015/09/27 Javascript

基于JavaScript代码实现pc与手机之间的跳转

2015/12/23 Javascript

javascript点击按钮实现隐藏显示切换效果

2016/02/03 Javascript

javascript事件模型介绍

2016/05/31 Javascript

jquery的父、子、兄弟节点查找,节点的子节点循环方法

2016/12/07 Javascript

全面解析vue中的数据双向绑定

2017/05/10 Javascript

fullpage.js最后一屏滚动方式

2018/02/06 Javascript

微信小程序动态增加按钮组件

2018/09/14 Javascript

ES6中Set和Map数据结构，Map与其它数据结构互相转换操作实例详解

2019/02/28 Javascript

JS数据类型判断的几种常用方法

2020/07/07 Javascript

[06:23]2014DOTA2西雅图国际邀请赛小组赛7月12日TOPPLAY

2014/07/12 DOTA

利用python如何处理nc数据详解

2018/05/23 Python

python脚本实现验证码识别

2018/06/07 Python

python微信好友数据分析详解

2018/11/19 Python

python三方库之requests的快速上手

2019/03/04 Python

详解python列表生成式和列表生成式器区别

2019/03/27 Python

Python爬虫爬取煎蛋网图片代码实例

2019/12/16 Python

详解Python设计模式之策略模式

2020/06/15 Python

OpenCV灰度化之后图片为绿色的解决

2020/12/01 Python

2014年学校德育工作总结

2014/12/05 职场文书

2015年全国爱眼日活动小结

2015/02/27 职场文书

医院见习总结

2015/06/24 职场文书

经典祝酒词大全

2015/08/12 职场文书

营销策划分析：怎么策划才能更好销量产品？

2019/09/04 职场文书

Mysql服务添加 iptables防火墙策略的方案

2021/04/29 MySQL