【#DeepSeekV3和R1合体#:快手开源 "Auto Think" 大模型,可根据问题自动调节思考深度】快手 Kwaipilot 团队近日开源了 KwaiCoder-AutoThink-preview 自动思考大模型,针对近期深度思考大模型存在的“过度思考”问题进行了深入研究。团队提出了一种全新的自动思考模型训练范式,同时基于传统强化学习算法(GRPO),提出了带有过程监督的强化学习方法 Step-SRPO,以进一步提升模型在复杂任务中的表现。