使用场景
解决数学问题:如山东队和江苏队合作完成工程的时间计算
解决逻辑问题:如火药、鞭炮和二踢脚的逻辑关系匹配问题
编程问题:如判断两个相邻的子数组是否都是严格递增的
产品特色
• 增强的模型思考和规划能力
• 先进的自我反思和自我验证能力
• 处理包括常识、逻辑、数学、道德决策和逻辑陷阱问题在内的各种推理挑战
• 通过三阶段训练方案发展出的认知能力:反思性推理训练、推理能力的强化学习和推理规划
• 利用Skywork o1过程奖励模型(PRM)提升逐步推理能力
• 部署天工的Q*在线推理算法,显著提升模型的在线推理能力
使用教程
1. 导入必要的库:torch和transformers
2. 准备系统提示和用户问题
3. 构建对话数组,包括系统提示和用户问题
4. 从预训练模型加载Skywork-o1-Open-Llama3.1-8B模型
5. 使用AutoTokenizer从预训练模型加载分词器
6. 应用聊天模板将对话数组转换为输入ID
7. 使用模型生成功能生成回答
8. 解码生成的回答,并打印结果