# CNKI pdf downloader **Repository Path**: weiyan0908/CNKI-pdf-downloader ## Basic Information - **Project Name**: CNKI pdf downloader - **Description**: 用于抓取CNKI学位论文pdf文件的爬虫 - **Primary Language**: 易语言 - **License**: MPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-04-04 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # CNKI pdf downloader [最新的19.06.05 Legacy 版下载](https://gitee.com/sean982202733/CNKI-pdf-downloader/raw/master/Release/CNKI.exe) [最新的19.06.05 Glass 版下载](https://gitee.com/sean982202733/CNKI-pdf-downloader/raw/master/Release/CNKIEX.exe) 区别是Glass版使用了Win10的不同的毛玻璃api,在其他系统中会出错,可以用Legacy版 #### 介绍 用于抓取CNKI学位论文pdf文件的爬虫 对,是pdf,不是caj这种垄断的私有格式 至于为啥是学位论文,你觉得期刊能不能从中文官网下载pdf呢? 这个软件现阶段功能非常原始,因为作者只写了20小时左右 而且知网的网页构架参数非常多并且复杂,还希望有能力并且感兴趣的同学参与维护 有什么好的建议也希望大家一起实现 #### 使用说明 1.打开软件,点击“打开列表”按钮,打开知网导出的txt论文列表 2.此时软件会扫描软件运行目录/download/目录下的pdf文件(判断标准就是论文作者) 如果没有扫描到和列表中吻合的文件,就会把列表文件中的项目加入到列表框中 3.点击“批量下载”按钮,它就会把爬到的pdf保存到运行目录/download/目录中 4.如果只想下载一个,点击“单个下载”按钮,在弹出的对话框中填入专业检索语句 5.点击“移除项目”可以将不想下载的任务从列表中移除 #### 注意事项 1.必须要在能下载论文的网络环境下进行操作(例如校园网),所以爬虫是合法的 2.如果出现参数错误的问题可以重试一下,因为知网海外本来就不稳定,爬虫出错率其实比网页低很多 #### 软件原理 所有网页访问的方式均采用win32api提供的http请求来进行(模拟浏览器行为) 首先在中国知网硕博论文库中进行专业检索(毕竟从知网上导出的列表) 使用的语句是作者+毕业大学+出版时间,如果搜到唯一的结果的话 就解析到[知网海外](http://oversea.cnki.net/kns55/default.aspx)的详情页面,并解析网页获取pdf下载链接 如果搜到多个就很迷了(除非有同名同姓同学校同学院同一年毕业?),搜不到就没办法了,这个是知网的搜索引擎的锅 这两张情况都需要使用单个下载中自己尝试输入文献高级检索语句 #### 关于专业检索语句 批量下载中搜不到可以用专业检索语句进行检索 语法是“检索1”+“空格”+“AND”+“空格”+“检索条件2”+...... 推荐的检索条件为TI=题名,AU=作者,TU=导师,AF=作者单位,DF=学位授予单位,PT=发表时间 比如要下载 海南师范大学 2018年毕业的刘意仪的论文《二氧化钛纳米阵列的制备及其光电性能的研究》 就可以写"AU=刘意仪 AND TI=二氧化钛纳米阵列的制备及其光电性能的研究 AND AF=海南师范大学 AND PT=2018" 检索不出来的可以减少一些检索条件,这个是知网的搜索引擎的锅