SecSpider - 安全信息爬虫项目

安全信息爬虫项目，用于爬取多个安全资讯网站的信息。

项目结构

SecSpider/
├── README.md                 # 项目说明文档
├── secdata/                  # Scrapy 项目目录（重要！）
│   ├── scrapy.cfg           # Scrapy 配置文件
│   ├── requirements.txt     # Python 依赖包
│   └── secdata/             # Scrapy 项目包
│       ├── settings.py      # Scrapy 设置
│       ├── spiders/         # 爬虫目录
│       ├── middlewares/     # 中间件
│       ├── parse_rules/     # 解析规则
│       └── ...
└── ...

快速开始

1. 克隆项目

git clone https://github.com/wygbb/SecSpider.git
cd SecSpider

2. 安装依赖

cd secdata
pip install -r requirements.txt

3. 运行爬虫

重要：必须在 secdata 目录下运行 scrapy 命令！

# 进入 secdata 目录
cd secdata

# 运行单个爬虫
scrapy crawl anquanke

# 运行多个爬虫
scrapy crawl freebuf
scrapy crawl aqniu
# ... 等等

目录说明

⚠️ 重要提示：

scrapy.cfg 文件位于 secdata/ 目录下
所有 scrapy crawl 命令必须在 secdata/ 目录下执行
如果从项目根目录运行，会提示找不到 scrapy.cfg

在 Crawlab 中使用

工作目录设置：在 Crawlab 项目设置中，将工作目录设置为 secdata 目录
执行命令：使用 scrapy crawl <spider_name> 格式
参考文件：查看 scrapy_commands_Crawlab格式.txt 获取所有爬虫的执行命令

爬虫列表

项目包含30个爬虫，涵盖：

安全资讯类：anquanke, freebuf, aqniu, nosec, secnc, youxia, nsfocus, infosec
漏洞情报类：butian, exdb, govuln, hackerone, seebug
安全技术社区：kanxue, t00ls, tttang, xazl, xianzhi, xianzhi1
RSS订阅类：gns_rss, sec_rss, sub_rss, wx_rss
其他：PortSwigger, hackernews, dailydarkweb, xuanwu, blog

完整列表请查看 爬虫名称映射表.md

注意事项

⚠️ exdb_rss.py 的 name 与 exdb.py 冲突，建议修复
某些爬虫需要 Chrome/Chromium 浏览器（使用 Selenium）
某些爬虫可能需要代理配置
确保已安装所有依赖（参考 requirements.txt）

开发说明

爬虫文件位于：secdata/secdata/spiders/
解析规则位于：secdata/secdata/parse_rules/
中间件位于：secdata/secdata/middlewares/

许可证

[添加许可证信息]

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.cursor/commands		.cursor/commands
.idea		.idea
CortexFlow		CortexFlow
secdata		secdata
spider_consumer		spider_consumer
spider_history		spider_history
.DS_Store		.DS_Store
INSTALL.md		INSTALL.md
README.md		README.md
analyze_mongo_schema.py		analyze_mongo_schema.py
clean_author_field.py		clean_author_field.py
clean_latex_author.py		clean_latex_author.py
clean_mysql_author.py		clean_mysql_author.py
clean_mysql_bibtex.py		clean_mysql_bibtex.py
clean_mysql_bibtex_complete.py		clean_mysql_bibtex_complete.py
fcc303cd-7ed1-10c0-9cc5-90e33f0418ee_20251215101034.json		fcc303cd-7ed1-10c0-9cc5-90e33f0418ee_20251215101034.json
mongo_schema_analysis.json		mongo_schema_analysis.json
preview_fixed.txt		preview_fixed.txt
preview_full.txt		preview_full.txt
run_spider.sh		run_spider.sh
test_rabbitmq_push.py		test_rabbitmq_push.py
清理验证报告.md		清理验证报告.md
漏洞分析报告 (5).md		漏洞分析报告 (5).md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

SecSpider - 安全信息爬虫项目

项目结构

快速开始

1. 克隆项目

2. 安装依赖

3. 运行爬虫

目录说明

在 Crawlab 中使用

爬虫列表

注意事项

开发说明

许可证

About

Uh oh!

Releases

Packages

Languages

wygbb/SecSpider

Folders and files

Latest commit

History

Repository files navigation

SecSpider - 安全信息爬虫项目

项目结构

快速开始

1. 克隆项目

2. 安装依赖

3. 运行爬虫

目录说明

在 Crawlab 中使用

爬虫列表

注意事项

开发说明

许可证

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages