安全信息爬虫项目,用于爬取多个安全资讯网站的信息。
SecSpider/
├── README.md # 项目说明文档
├── secdata/ # Scrapy 项目目录(重要!)
│ ├── scrapy.cfg # Scrapy 配置文件
│ ├── requirements.txt # Python 依赖包
│ └── secdata/ # Scrapy 项目包
│ ├── settings.py # Scrapy 设置
│ ├── spiders/ # 爬虫目录
│ ├── middlewares/ # 中间件
│ ├── parse_rules/ # 解析规则
│ └── ...
└── ...
git clone https://github.com/wygbb/SecSpider.git
cd SecSpidercd secdata
pip install -r requirements.txt重要:必须在 secdata 目录下运行 scrapy 命令!
# 进入 secdata 目录
cd secdata
# 运行单个爬虫
scrapy crawl anquanke
# 运行多个爬虫
scrapy crawl freebuf
scrapy crawl aqniu
# ... 等等scrapy.cfg文件位于secdata/目录下- 所有
scrapy crawl命令必须在secdata/目录下执行 - 如果从项目根目录运行,会提示找不到 scrapy.cfg
- 工作目录设置:在 Crawlab 项目设置中,将工作目录设置为
secdata目录 - 执行命令:使用
scrapy crawl <spider_name>格式 - 参考文件:查看
scrapy_commands_Crawlab格式.txt获取所有爬虫的执行命令
项目包含30个爬虫,涵盖:
- 安全资讯类:anquanke, freebuf, aqniu, nosec, secnc, youxia, nsfocus, infosec
- 漏洞情报类:butian, exdb, govuln, hackerone, seebug
- 安全技术社区:kanxue, t00ls, tttang, xazl, xianzhi, xianzhi1
- RSS订阅类:gns_rss, sec_rss, sub_rss, wx_rss
- 其他:PortSwigger, hackernews, dailydarkweb, xuanwu, blog
完整列表请查看 爬虫名称映射表.md
⚠️ exdb_rss.py 的 name 与 exdb.py 冲突,建议修复- 某些爬虫需要 Chrome/Chromium 浏览器(使用 Selenium)
- 某些爬虫可能需要代理配置
- 确保已安装所有依赖(参考
requirements.txt)
- 爬虫文件位于:
secdata/secdata/spiders/ - 解析规则位于:
secdata/secdata/parse_rules/ - 中间件位于:
secdata/secdata/middlewares/
[添加许可证信息]