AI 模型推理训练 AI开发助手 大型语言模型 推理加速 动态稀疏 自定义内核 优质新品 开源
使用场景使用MInference在单个A100 GPU上实现1M上下文的快速推理。结合Hugging Face的模型和MInference进行高效的文本生成任务...