使用场景
开发者使用ReaderLM v2将收集到的网页新闻转换为Markdown格式,便于在技术博客中分享。
企业数据分析师利用其HTML转JSON功能,从网页中提取产品信息,用于市场分析报告。
研究人员通过该模型从学术网站提取论文信息,以JSON格式存储,方便后续研究数据整理。
产品特色
支持HTML转Markdown转换,能保留完整信息并巧妙使用Markdown语法构建内容。
可处理高达512K个token的输入和输出组合长度,有效解决长文本处理中的退化问题。
具备直接HTML转JSON生成功能,根据给定JSON架构提取特定信息,提高数据清理和提取效率。
支持29种语言,包括英语、中文、日语等,适用范围广泛。
在定量和定性基准测试中,表现优于多个更大的模型,参数量却明显更少。
使用教程
1. 通过Reader API使用:在请求头中指定`x-engine: readerlm-v2`并通过`-H 'Accept: text/event-stream'`启用响应流式传输。
2. 在Google Colab上使用:通过Colab notebook进行HTML转Markdown转换、JSON提取和指令遵循测试。
3. 生产环境使用:在AWS SageMaker、Azure和GCP marketplace上部署使用ReaderLM v2模型。
4. 对于HTML转Markdown转换,使用`create_prompt`辅助函数创建提示,然后调用模型生成结果。
5. 使用JSON Schema进行HTML转JSON提取时,先定义好Schema,再创建提示并调用模型生成JSON格式结果。