miniCPM模型

2025-04-1910:47:23常识分享0

该模型被宣称能“引领端侧ChatGPT时代”,这无疑在人工智能领域引起了广泛关注。作为MiniCPM系列的第三代产品,MiniCPM3-4B在性能上已经超越了Phi-3.5-mini-Instruct和GPT-3.5-Turbo-0125,并且能与多款拥有70亿至90亿参数的AI模型媲美。

相较于前代的MiniCPM1.0和MiniCPM2.0,新一代的MiniCPM3-4B拥有了更为强大且多用途的技能集,使其能够适应更广泛的应用场景。值得一提的是,该模型还支持函数调用和代码解释器功能,这为其在人工智能领域的应用提供了更多可能性。

下面详细介绍了三个版本(1->2->3)模型结构的差异:

模型层数:从40层逐步增加到52层,再到62层,这反映了模型在深度学习上的不断进步和复杂度的提升。

隐藏层节点:数量从2304减少到1536,最终增加到2560,这体现了模型在处理信息和计算能力上的不断提升。

最大长度:从4k逐渐提升到4K,最终达到32k,这显示了模型在处理长文本和复杂信息上的强大能力。

系统提示词和支持功能:面壁智能逐渐引入了系统提示词功能,并在最新版本中加入了工具调用和代码解释器支持,这为模型的智能化和多功能性提供了强有力的支持。

值得一提的是,MiniCPM3-4B拥有一个32k的上下文窗口,借助LLMxMapReduce技术,它能够在不占用过多内存的情况下处理理论上的无限上下文,这无疑增强了其在实际应用中的灵活性和效率。

面壁智能还推出了RAG套件中的MiniCPM-Embedding模型和MiniCPM-Reranker模型,并针对RAG场景推出了微调版MiniCPM3-RAG-LoRA模型。这些模型的推出将进一步推动面壁智能在人工智能领域的发展和应用。