使用场景
在长上下文任务中,如大海捞针任务,模型能从100万Token文档中准确检索隐藏信息
在RULER、LV-Eval和LongbenchChat等复杂长上下文理解任务中表现优异
与GPT-4o-mini相比,在多个数据集上稳定超越,且上下文长度是其八倍
产品特色
支持最多100万Token的上下文长度,适合长序列处理任务
开源模型,提供7B和14B两种版本,方便开发者使用
推理框架基于vLLM,集成稀疏注意力方法,推理速度提升3-7倍
技术报告分享训练和推理框架设计思路及消融实验结果
在线演示可在Huggingface和Modelscope体验模型性能
使用教程
1. 满足系统要求:使用支持优化内核的Ampere或Hopper架构GPU,CUDA版本为12.1或12.3,Python版本>=3.9且<=3.12
2. 克隆vLLM仓库并安装依赖项,从自定义分支克隆并手动安装
3. 启动OpenAI兼容的API服务,根据硬件配置设置参数,如GPU数量、最大输入序列长度等
4. 与模型交互:使用Curl或Python代码向API发送请求,获取模型的响应结果