分类 大模型 下的文章

个人使用 DeepSeek 的过程通常不是对其进行训练。
个人使用 DeepSeek 时,主要是向模型输入问题或指令,然后获取模型生成的回答或结果,这是模型基于已有的训练成果进行推理和生成的过程。不过在某些特定情况下,个人使用 DeepSeek也可以间接或在一定程度上参与到模型的训练优化中,具体如下:
提供反馈:如果 DeepSeek 设置了反馈机制,个人用户对模型输出的结果进行反馈,指出回答是否正确、合理、有用等,开发团队可以收集这些反馈信息,用于改进模型,这相当于间接地参与了模型的训练优化过程。
微调或训练自定义模型:个人用户如果有特定的需求和数据,可在 DeepSeek 开源的基础上,利用其提供的工具和接口,使用自己的数据对模型进行微调,甚至训练一个自定义的模型。这在一定程度上也是对模型进行训练,但与 DeepSeek最初的大规模训练是不同的,是基于个人需求和数据的二次训练。

智能化:能够理解复杂问题,提供精准的答案(质量高)
易用性:深度思考模式,免去复杂提示词的编写;
低成本:训练和推理成本低;
高效率:推理速度快
多种模态:(如图像、文本、音频、视频等)
中文支持好
开源→ 本地化部署,确保数据隐私和安全

技术架构:
MoE:混合专家架构(动态选择专家网络)

应用场景:
对话式AI智能客服:问答、检索、服务引导,多轮对话;
内容创作:文件拟稿、新闻撰稿、活动策划
内容审查:智能审批、智能校对、智能纠错

DeepSeek介绍:
https://cloud.tencent.com/developer/techpedia/2337

SFT监督微调方法

监督微调(Supervised Fine-Tuning, SFT)是对已经预训练的模型进行特定任务的训练,以提高其在该任务上的表现。预训练模型通常在大量通用数据上进行训练,学到广泛的语言知识和特征。在SFT过程中,利用特定任务的数据,对模型进行进一步调整,使其更适合该任务。

LoRA微调方法

大模型语言低阶自适应(Low-Rank Adaptation of LLMs),LoRA通过仅训练低秩矩阵,然后将这些参数注入到原始模型中,实现对模型的微调。这种方法减少了计算需求,并且使得训练资源比直接训练原始模型要小得多,适合在资源有限的环境中使用。

Prompt-tuning微调方法

P-tuning是一种针对预训练语言模型的微调技术,旨在通过引入可训练的连续提示嵌入(continuous prompt embeddings)来提高模型的稳定性和性能。P-tuning通过优化任务损失函数来更新嵌入,适用于冻结和微调的语言模型。

Freeze微调方法

Freeze微调,是指在微调过程中冻结(不更新)模型的大部分参数,仅对少数关键层或参数进行微调。这种方法基于的假设是预训练模型已经学习到了丰富的语言表示能力,包括词义、语法和语境信息等,因此只需微调部分参数即可适应特定任务的需求。