Qwen2.5 1M

使用场景在长上下文任务中,如大海捞针任务,模型能从100万Token文档中准确检索隐藏信息在RULER、LV-Eval和LongbenchChat等复杂长上下文...

  • Qwen2.5 1M

    类别:AI模型,开发与工具,长序列处理,开源模型,自然语言处理,高效推理,技术优化,普通产品,开源,
    官网:https://qwenlm.github.io/zh/blog/qwen2.5-1m/ 更新时间:2025-08-02 10:23:03
  • 使用场景

    在长上下文任务中,如大海捞针任务,模型能从100万Token文档中准确检索隐藏信息

    在RULER、LV-Eval和LongbenchChat等复杂长上下文理解任务中表现优异

    与GPT-4o-mini相比,在多个数据集上稳定超越,且上下文长度是其八倍

    产品特色

    支持最多100万Token的上下文长度,适合长序列处理任务

    开源模型,提供7B和14B两种版本,方便开发者使用

    推理框架基于vLLM,集成稀疏注意力方法,推理速度提升3-7倍

    技术报告分享训练和推理框架设计思路及消融实验结果

    在线演示可在Huggingface和Modelscope体验模型性能

    使用教程

    1. 满足系统要求:使用支持优化内核的Ampere或Hopper架构GPU,CUDA版本为12.1或12.3,Python版本>=3.9且<=3.12

    2. 克隆vLLM仓库并安装依赖项,从自定义分支克隆并手动安装

    3. 启动OpenAI兼容的API服务,根据硬件配置设置参数,如GPU数量、最大输入序列长度等

    4. 与模型交互:使用Curl或Python代码向API发送请求,获取模型的响应结果