16k和16开尺寸怎么选？超实用纸张大小对比！

近年来，大模型（LLMs）在金融领域的推理任务面临着特定的挑战，包括特定领域知识、精确数值计算和严格遵循合规规则的需求。为了应对这些挑战，本文介绍了DianJin-R1推理增强框架。

该框架通过强化监督学习和深度学习的结合，专门应对金融领域的推理难题。其核心技术在于DianJin-R1Data数据集的构建，该数据集通过整合CFLUE、FinQA等金融领域数据集以及内部合规数据集CCC，形成了一个高质量、多样化的金融推理场景与验证注释相结合的数据集。

DianJin-R1模型通过基于Qwen系列大模型的微调生成推理步骤和最终答案。为了进一步提升模型的推理质量，采用了Group Relative Policy Optimization（GRPO）强化学习方法，该方法结合了双重奖励机制，既鼓励结构化输出，又奖励答案的正确性。

实验结果表明，DianJin-R1模型在金融领域的推理任务上始终优于非推理模型，特别是在复杂的金融任务上表现突出。在真实的CCC数据集上，DianJin-R1模型的性能甚至超过了需要复杂计算的多智能体系统。

背景方面，随着LLMs的不断发展，增强其推理能力成为了一个热门话题。金融领域的推理由于其特殊性，对模型的训练提出了更高的要求。针对这一问题，本文提出了DianJin-R1方法。

在问题定义上，金融领域的大模型在推理方面面临的难点包括特定领域知识、精确数值计算和严格遵守合规规则。为了解决这些问题，需要专门的推理策略来应对金融信息的结构化和开放式问题的解决。

在方法上，DianJin-R1通过构建高质量的推理数据集来训练模型。这些数据集通过过滤得到高质量的选择题子集和问答对，并应用于英文和中文金融场景的推理任务。还构建了一个内部数据集CCC来检测金融客服对话中的合规情况。在模型训练方面，采用监督微调（SFT）和强化学习（RL）相结合的方法，使模型能够学习生成推理路径和最终答案。其中，强化学习采用GRPO算法和两种奖励机制来提高模型的推理能力。

在实验阶段，通过对训练数据的统计和混合，以及模型的两阶段训练（SFT阶段和RL阶段），得到优化的模型参数。在评估数据集上，将DianJin-R1模型与两类LLMs进行比较，实验结果表明DianJin-R1模型在推理任务上具有显著的优势。通过讨论部分对实验结果进行了深入的分析和讨论，包括强化学习的影响、不同数据集在SFT中的作用以及不同系统在CCC上的影响等。

DianJin-R1框架通过结合监督学习和强化学习的方法，有效地提高了大模型在金融领域推理任务上的性能。该框架具有潜在的应用价值，可以为其他领域的推理任务提供有益的参考。