Minference

使用场景使用MInference在单个A100 GPU上实现1M上下文的快速推理。结合Hugging Face的模型和MInference进行高效的文本生成任务...