DeepSeek-R1Supervised finetuning and reinforcement learning (SFT + RL)
好啊,我们今天的直播会非常透彻的跟大家系统性的分享一下整个agents AI就大模型智能体系统和应用程序。我们在做开发的时候,或者实际做企业级的产品落地的时候,你必须考虑的一些核心点。这个核心点包括我们在做整个大模型智能体的时候,它会涉及的一些关键问题。同时也包括基础模型、推理模型。当然在这个过程中会谈基础模型和推理模型很多不同的维度,比如说基础模型怎么去运行,尤其是它的decoding过程的一些算法,那推理模型的时候,我们会讲结合强化学习以及它具体的实现的不同的方式,都会跟大家比较系统的进行分享。我们之所以说这些东西是你无法绕过的一些部分,是因为他们构成了整个大模型智能体应用程序的底层的核心能力。