Magic Html

使用场景用于新闻网站的自动化内容抓取在论坛数据挖掘中提取帖子内容微信文章内容的自动化提取产品特色返回主体区域html结构,可自定义输出纯文本/markdown支...

  • Magic Html

    类别:AI文本提取工具,AI数据挖掘,HTML提取,Python库,数据抽取,普通产品,开源,
    官网:https://github.com/opendatalab/magic-html 更新时间:2025-08-01 19:03:17
  • 使用场景

    用于新闻网站的自动化内容抓取

    在论坛数据挖掘中提取帖子内容

    微信文章内容的自动化提取

    产品特色

    返回主体区域html结构,可自定义输出纯文本/markdown

    支持多模态抽取

    支持多种版面extractor,文章/论坛

    支持latex公式提取转换

    提供benchmark报告,比较不同抽取框架的准确性

    使用教程

    1. 安装magic-html库

    2. 导入GeneralExtractor类

    3. 初始化提取器

    4. 准备目标网页的URL和HTML内容

    5. 根据需要选择文章类型、论坛类型或微信文章类型进行数据提取

    6. 调用extract方法并传入HTML内容和基础URL

    7. 输出提取的数据