Step R1 V Mini

使用场景输入网友拍摄的温布利球场图片,Step-R1-V-Mini能够迅速识别图中元素进行地点推理,准确推断出地点为温布利体育场,并给出可能的对战双方。输入一张...

  • Step R1 V Mini

    类别:AI模型,API服务,"多模态推理、图像识别、地点判断、菜谱生成、物体数量计算",优质新品
    官网:https://platform.stepfun.com/docs/llm/reasoning 更新时间:2025-08-02 10:42:49
  • 使用场景

    输入网友拍摄的温布利球场图片,Step-R1-V-Mini能够迅速识别图中元素进行地点推理,准确推断出地点为温布利体育场,并给出可能的对战双方。

    输入一张美食图,Step-R1-V-Mini能够精准识别菜品和蘸料,并详细列出具体用量,如“鲜虾300g、大葱白2根”等。

    输入一张含有不同形状、颜色和位置的物体摆放图,Step-R1-V-Mini能够逐一识别,根据物体的颜色、形状和位置进行推理计算,最终得出剩下的物体数量。

    产品特色

    支持图文输入和文字输出,能够高精度感知图像并完成复杂推理任务。

    采用多模态联合强化学习,基于PPO强化学习策略,在图像空间引入verifiable reward,有效解决图片空间推理链路复杂、容易产生混淆的相关和因果推理错误的问题。

    充分利用多模态合成数据,设计了大量基于环境反馈的多模态数据合成链路,通过基于PPO的强化学习训练同步提升模型文本和视觉的推理能力。

    在多个公开榜单中表现亮眼,特别是在MathVision视觉推理榜单上位列国内第一,展现了其在视觉推理、数学逻辑和代码等方面的优异表现。

    已正式上线阶跃AI网页端,并在阶跃星辰开放平台提供API接口,方便开发者和研究人员体验和使用。

    具备良好的指令遵循和通用能力,能够适应多种多模态推理场景。

    通过精准的图像识别和推理,能够为用户提供准确的地点、菜谱、物体数量等信息。

    持续探索和优化,为多模态推理领域带来新的希望和可能性。

    使用教程

    访问阶跃AI网页端或阶跃星辰开放平台

    注册并登录平台,获取API接口权限。

    根据需求选择合适的API接口,按照文档说明进行调用。

    将需要推理的图文数据作为输入,发送请求至API接口。

    接收并处理API返回的推理结果,根据结果进行后续操作。