使用场景
用于新闻网站的自动化内容抓取
在论坛数据挖掘中提取帖子内容
微信文章内容的自动化提取
产品特色
返回主体区域html结构,可自定义输出纯文本/markdown
支持多模态抽取
支持多种版面extractor,文章/论坛
支持latex公式提取转换
提供benchmark报告,比较不同抽取框架的准确性
使用教程
1. 安装magic-html库
2. 导入GeneralExtractor类
3. 初始化提取器
4. 准备目标网页的URL和HTML内容
5. 根据需要选择文章类型、论坛类型或微信文章类型进行数据提取
6. 调用extract方法并传入HTML内容和基础URL
7. 输出提取的数据
