分类 AI人工智能 下的文章

SFT监督微调方法

监督微调(Supervised Fine-Tuning, SFT)是对已经预训练的模型进行特定任务的训练,以提高其在该任务上的表现。预训练模型通常在大量通用数据上进行训练,学到广泛的语言知识和特征。在SFT过程中,利用特定任务的数据,对模型进行进一步调整,使其更适合该任务。

LoRA微调方法

大模型语言低阶自适应(Low-Rank Adaptation of LLMs),LoRA通过仅训练低秩矩阵,然后将这些参数注入到原始模型中,实现对模型的微调。这种方法减少了计算需求,并且使得训练资源比直接训练原始模型要小得多,适合在资源有限的环境中使用。

Prompt-tuning微调方法

P-tuning是一种针对预训练语言模型的微调技术,旨在通过引入可训练的连续提示嵌入(continuous prompt embeddings)来提高模型的稳定性和性能。P-tuning通过优化任务损失函数来更新嵌入,适用于冻结和微调的语言模型。

Freeze微调方法

Freeze微调,是指在微调过程中冻结(不更新)模型的大部分参数,仅对少数关键层或参数进行微调。这种方法基于的假设是预训练模型已经学习到了丰富的语言表示能力,包括词义、语法和语境信息等,因此只需微调部分参数即可适应特定任务的需求。