CrawlStudio

Unified wrapper for web crawling tools, inspired by modular, community-driven design.

Vision

CrawlStudio provides a unified Python API for various web crawling backends including Firecrawl, Crawl4AI, Scrapy, and Browser-Use (AI-driven). It emphasizes modularity, ease of use, and intelligent extraction capabilities.

Installation

pip install crawlstudio

Usage Examples

Firecrawl Example

import asyncio
from crawlstudio import CrawlConfig, FirecrawlBackend

async def main():
    config = CrawlConfig()
    backend = FirecrawlBackend(config)
    result = await backend.crawl("https://www.bloomberg.com/", format="markdown")
    print(result.markdown)

asyncio.run(main())

Crawl4AI Example

import asyncio
from crawlstudio import CrawlConfig, Crawl4AIBackend

async def main():
    config = CrawlConfig()
    backend = Crawl4AIBackend(config)
    result = await backend.crawl("https://finance.yahoo.com/", format="structured")
    print(result.structured_data)  # Outputs title, summary, keywords

asyncio.run(main())

Scrapy Example

import asyncio
from crawlstudio import CrawlConfig, ScrapyBackend

async def main():
    config = CrawlConfig()
    backend = ScrapyBackend(config)
    result = await backend.crawl("https://www.bloomberg.com/", format="html")
    print(result.raw_html)

asyncio.run(main())

Browser-Use (AI-Driven) Example

import asyncio
from crawlstudio import CrawlConfig, BrowserUseBackend

async def main():
    config = CrawlConfig()
    backend = BrowserUseBackend(config)
    result = await backend.crawl("https://example.com", format="structured")
    print(result.structured_data)  # AI-extracted data

asyncio.run(main())

Note: Browser-Use backend requires pip install browser-use and an AI API key (OpenAI or Anthropic). See BROWSER_USE_SETUP.md for details.

Backend Comparison

Backend	Speed	Cost	AI Intelligence	Best For
Firecrawl	⚡ Fast	API costs	Medium	Production scraping
Crawl4AI	🐌 Medium	Free	Medium	Development & testing
Scrapy	🚀 Fastest	Free	Low	Simple HTML extraction
Browser-Use	🧠 Slower	AI costs	High	Complex dynamic sites

Future Enhancements

🔄 Recursive Crawling (Planned)

# Future API - configurable depth and page limits
config = CrawlConfig(
    max_depth=3,                    # Crawl up to 3 levels deep
    max_pages_per_level=5,          # Max 5 pages per depth level
    recursive_delay=1.0,            # 1 second delay between requests
    follow_external_links=False     # Stay within same domain
)

# Recursive crawling with depth control
result = await backend.crawl_recursive("https://example.com", format="markdown")
print(f"Crawled {len(result.pages)} pages across {result.max_depth_reached} levels")

🚀 Additional Crawler Backends (Roadmap)

High Priority

Playwright - Fast browser automation, excellent for SPAs
Selenium - Industry standard, huge ecosystem
BeautifulSoup + Requests - Lightweight, simple parsing

Specialized Crawlers

Apify SDK - Cloud scraping platform
Colly (via Python bindings) - High-performance Go crawler
Puppeteer (via pyppeteer) - Headless Chrome control

AI-Enhanced Crawlers

ScrapeGraphAI - LLM-powered scraping
AutoScraper - Machine learning-based pattern detection
WebGPT - GPT-powered web interaction

Enterprise/Commercial

ScrapingBee - Anti-bot bypass service
Bright Data - Proxy + scraping platform
Zyte - Enterprise web data platform

🛠️ Advanced Features (Future Versions)

Multi-page crawling with link discovery
Batch processing for multiple URLs
CLI tool (crawlstudio crawl <url>)
Content deduplication and similarity detection
Rate limiting and respectful crawling policies
Caching system with Redis/disk storage
Webhook integrations for real-time notifications
GraphQL API for programmatic access
Docker containerization for easy deployment

🎯 10K GitHub Stars Roadmap

Core Features (Current): 4 working backends
Recursive Crawling: Depth-based multi-page crawling
CLI Tool: pip install crawlstudio → command line usage
Additional Backends: Playwright, Selenium, BeautifulSoup
Enterprise Features: Batch processing, advanced caching
AI Integration: More AI-powered extraction capabilities
Cloud Platform: SaaS offering with web interface

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
crawlstudio		crawlstudio
docs		docs
examples		examples
tests		tests
.gitignore		.gitignore
BROWSER_USE_SETUP.md		BROWSER_USE_SETUP.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
PROJECT_STRUCTURE.md		PROJECT_STRUCTURE.md
PYPI_DEPLOYMENT.md		PYPI_DEPLOYMENT.md
README.md		README.md
crawl_wta.py		crawl_wta.py
depth_crawler_demo.py		depth_crawler_demo.py
enhancement_suggestions.md		enhancement_suggestions.md
mkdocs.yml		mkdocs.yml
pyproject.toml		pyproject.toml
recursive_crawling_demo.py		recursive_crawling_demo.py
requirements.txt		requirements.txt
simple_browser_use_test.py		simple_browser_use_test.py
test_guardian_comparison.py		test_guardian_comparison.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CrawlStudio

Vision

Installation

Usage Examples

Firecrawl Example

Crawl4AI Example

Scrapy Example

Browser-Use (AI-Driven) Example

Backend Comparison

Future Enhancements

🔄 Recursive Crawling (Planned)

🚀 Additional Crawler Backends (Roadmap)

High Priority

Specialized Crawlers

AI-Enhanced Crawlers

Enterprise/Commercial

🛠️ Advanced Features (Future Versions)

🎯 10K GitHub Stars Roadmap

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

CrawlStudio

Vision

Installation

Usage Examples

Firecrawl Example

Crawl4AI Example

Scrapy Example

Browser-Use (AI-Driven) Example

Backend Comparison

Future Enhancements

🔄 Recursive Crawling (Planned)

🚀 Additional Crawler Backends (Roadmap)

High Priority

Specialized Crawlers

AI-Enhanced Crawlers

Enterprise/Commercial

🛠️ Advanced Features (Future Versions)

🎯 10K GitHub Stars Roadmap

About

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages