程序提供一种简单快捷的方式本地化收藏知乎上的内容以供学习研究。由用户提供知乎上答案、问题、文章、专栏等项目的url,通过知乎API获取一定数量的数据,数据经解析后最终输出为markdown或html文件。同时可下载内容附带的图片。
第三方依赖库
requests
pygments-
支持 问题、答案、专栏、文章、收藏夹、用户答案及文章 的爬取。
-
重构部分代码,增强爬虫的扩展性。
-
安装后支持命令行运行。
在命令行不提供任何参数时默认输出帮助信息, 等同于zhihu -h:
>>>zhihu
usage: zhihu [-h] [-u U] [-r R] [-w W] [-f F] [-cd] [-cso] [-dg] [--cover]
[-v] [-version]
Zhihu Spider
optional arguments:
-h, --help show this help message and exit
-u U 项目url,多个用"$"分割
-r R url文本文件,换行分割
-w W 文件保存位置
-f F 文件输出类型(html/markdown)
-cd 缓存原始数据
-cso 输出css文件
-dg 下载图片
--cover 覆盖同名文件
-v show program's version number and exit
-version show program's version number and exit获取“如何看待2020年非洲蝗虫灾害?”(20190215热榜问题) 前2% 个答案:
>>>zhihu -u https://www.zhihu.com/question/371430700