Skip to content

wygbb/SecSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SecSpider - 安全信息爬虫项目

安全信息爬虫项目,用于爬取多个安全资讯网站的信息。

项目结构

SecSpider/
├── README.md                 # 项目说明文档
├── secdata/                  # Scrapy 项目目录(重要!)
│   ├── scrapy.cfg           # Scrapy 配置文件
│   ├── requirements.txt     # Python 依赖包
│   └── secdata/             # Scrapy 项目包
│       ├── settings.py      # Scrapy 设置
│       ├── spiders/         # 爬虫目录
│       ├── middlewares/     # 中间件
│       ├── parse_rules/     # 解析规则
│       └── ...
└── ...

快速开始

1. 克隆项目

git clone https://github.com/wygbb/SecSpider.git
cd SecSpider

2. 安装依赖

cd secdata
pip install -r requirements.txt

3. 运行爬虫

重要:必须在 secdata 目录下运行 scrapy 命令!

# 进入 secdata 目录
cd secdata

# 运行单个爬虫
scrapy crawl anquanke

# 运行多个爬虫
scrapy crawl freebuf
scrapy crawl aqniu
# ... 等等

目录说明

⚠️ 重要提示

  • scrapy.cfg 文件位于 secdata/ 目录下
  • 所有 scrapy crawl 命令必须在 secdata/ 目录下执行
  • 如果从项目根目录运行,会提示找不到 scrapy.cfg

在 Crawlab 中使用

  1. 工作目录设置:在 Crawlab 项目设置中,将工作目录设置为 secdata 目录
  2. 执行命令:使用 scrapy crawl <spider_name> 格式
  3. 参考文件:查看 scrapy_commands_Crawlab格式.txt 获取所有爬虫的执行命令

爬虫列表

项目包含30个爬虫,涵盖:

  • 安全资讯类:anquanke, freebuf, aqniu, nosec, secnc, youxia, nsfocus, infosec
  • 漏洞情报类:butian, exdb, govuln, hackerone, seebug
  • 安全技术社区:kanxue, t00ls, tttang, xazl, xianzhi, xianzhi1
  • RSS订阅类:gns_rss, sec_rss, sub_rss, wx_rss
  • 其他:PortSwigger, hackernews, dailydarkweb, xuanwu, blog

完整列表请查看 爬虫名称映射表.md

注意事项

  1. ⚠️ exdb_rss.py 的 name 与 exdb.py 冲突,建议修复
  2. 某些爬虫需要 Chrome/Chromium 浏览器(使用 Selenium)
  3. 某些爬虫可能需要代理配置
  4. 确保已安装所有依赖(参考 requirements.txt

开发说明

  • 爬虫文件位于:secdata/secdata/spiders/
  • 解析规则位于:secdata/secdata/parse_rules/
  • 中间件位于:secdata/secdata/middlewares/

许可证

[添加许可证信息]

About

安全信息爬虫项目 - Security Spider Project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published