使用场景
使用 BeautifulSoupCrawler 高效提取 HTML 内容数据。
利用 PlaywrightCrawler 处理 JavaScript 重型网站的数据抓取。
通过 Crawlee CLI 快速启动和配置新的爬虫项目。
产品特色
统一的 HTTP 和无头浏览器爬取接口
基于系统资源的自动并行爬取
Python 类型提示,增强开发体验
自动错误重试和防屏蔽功能
集成代理轮换和会话管理
可配置的请求路由和持久化 URL 队列
支持多种数据和文件存储方式
健壮的错误处理机制
使用教程
安装 Crawlee: pip install crawlee
根据需要安装额外的依赖,例如 beautifulsoup 或 playwright
使用 Crawlee CLI 创建新的爬虫项目: pipx run crawlee create my-crawler
选择一个模板并根据项目需求进行配置
编写爬虫逻辑,包括数据提取和链接抓取
运行爬虫并观察结果
