开发与工具 AI模型 NVIDIA GPU LLM推理 TensorRT-LLM 推测性解码 性能加速 普通产品
使用场景使用ReDrafter加速数十亿参数规模的生产模型的推理过程。在NVIDIA GPU上部署ReDrafter,实现每秒生成token数的2.7倍提升。将...