Readerlm V2

使用场景开发者使用ReaderLM v2将收集到的网页新闻转换为Markdown格式,便于在技术博客中分享。企业数据分析师利用其HTML转JSON功能,从网页中...

  • Readerlm V2

    类别:开发与工具,代码助手,语言模型,数据转换,文本处理,多语言支持,高效提取,国外精选
    官网:https://jina.ai/news/readerlm-v2-frontier-small-language-model-for-html-to-markdown-and-json/ 更新时间:2025-08-02 10:17:33
  • 使用场景

    开发者使用ReaderLM v2将收集到的网页新闻转换为Markdown格式,便于在技术博客中分享。

    企业数据分析师利用其HTML转JSON功能,从网页中提取产品信息,用于市场分析报告。

    研究人员通过该模型从学术网站提取论文信息,以JSON格式存储,方便后续研究数据整理。

    产品特色

    支持HTML转Markdown转换,能保留完整信息并巧妙使用Markdown语法构建内容。

    可处理高达512K个token的输入和输出组合长度,有效解决长文本处理中的退化问题。

    具备直接HTML转JSON生成功能,根据给定JSON架构提取特定信息,提高数据清理和提取效率。

    支持29种语言,包括英语、中文、日语等,适用范围广泛。

    在定量和定性基准测试中,表现优于多个更大的模型,参数量却明显更少。

    使用教程

    1. 通过Reader API使用:在请求头中指定`x-engine: readerlm-v2`并通过`-H 'Accept: text/event-stream'`启用响应流式传输。

    2. 在Google Colab上使用:通过Colab notebook进行HTML转Markdown转换、JSON提取和指令遵循测试。

    3. 生产环境使用:在AWS SageMaker、Azure和GCP marketplace上部署使用ReaderLM v2模型。

    4. 对于HTML转Markdown转换,使用`create_prompt`辅助函数创建提示,然后调用模型生成结果。

    5. 使用JSON Schema进行HTML转JSON提取时,先定义好Schema,再创建提示并调用模型生成JSON格式结果。