Skip to content

tangchen2004/ZhihuSpider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

53 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

zhihuSpider

程序提供一种简单快捷的方式本地化收藏知乎上的内容以供学习研究。由用户提供知乎上答案问题文章专栏等项目的url,通过知乎API获取一定数量的数据,数据经解析后最终输出为markdownhtml文件。同时可下载内容附带的图片。

第三方依赖库

requests
pygments

更新

  1. 支持 问题、答案、专栏、文章、收藏夹、用户答案及文章 的爬取。

  2. 重构部分代码,增强爬虫的扩展性。

  3. 安装后支持命令行运行

使用

在命令行不提供任何参数时默认输出帮助信息, 等同于zhihu -h

>>>zhihu
usage: zhihu [-h] [-u U] [-r R] [-w W] [-f F] [-cd] [-cso] [-dg] [--cover]
             [-v] [-version]

Zhihu Spider

optional arguments:
  -h, --help  show this help message and exit
  -u U        项目url,多个用"$"分割
  -r R        url文本文件,换行分割
  -w W        文件保存位置
  -f F        文件输出类型(html/markdown)
  -cd         缓存原始数据
  -cso        输出css文件
  -dg         下载图片
  --cover     覆盖同名文件
  -v          show program's version number and exit
  -version    show program's version number and exit

获取“如何看待2020年非洲蝗虫灾害?”(20190215热榜问题) 前2% 个答案:

>>>zhihu -u https://www.zhihu.com/question/371430700

About

知乎爬虫,用于本地化收藏知乎上的优质内容

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Python 86.3%
  • CSS 8.8%
  • HTML 4.9%