ChatGPT原理是什么？

综合文章
24年9月29日
编辑

网友投稿发布

ChatGPT的工作机制是怎样的？

ChatGPT依托于功能卓越的GPT-3.5大型语言模型，融合了人工标注数据与强化学习（RLHF）技术，实现了从人类反馈中学习的效果。
本内容主要经历三个关键阶段：

在初期冷启动阶段，需构建监督策略模型，确保输出内容与原句长度相仿。
GPT-3.5虽强大，却难捕捉指令深意，亦难评估内容质量。故先从用户prompt中随机选取样本，由专业标注员提供高质量答案，进而以此数据微调GPT-3.5模型。
GPT-3.5在处理过程中，初步展现出解读人类提示意图的能力，并能据此提供较高品质的回答。

02.构建训练收益模型，确保输出内容与原句篇幅相仿。
在第二阶段，我们主要依靠人工对训练数据进行标注，以此培养出高效的回报预测模型。
具体而言，采用第一阶段Fine-tune的冷启动模型，针对每个prompt生成多样回答。标注员依据相关性、信息量及有害性等标准，对回答质量进行综合评估，并按优劣排序，作为训练数据。通过pair-wise learning to rank模式，训练回报模型。该模型输入prompt和answer，输出质量得分，得分越高，回答质量越佳。

03.运用强化学习技术，旨在提升预训练模型效能，确保生成内容与原句长度相仿。
本阶段无需人工标注，直接运用前一阶段RM模型评分成果，优化预训练模型参数。旨在培养LLM输出高分答案，并确保回答符合RM标准，质量上乘。

第二阶段与第三阶段相辅相成。第一阶段通过人工标注提升RM模型效能，而第三阶段则借助强化后的RM模型，对新提示的回答评分更为精准。此外，强化学习激励LLM模型学习优质内容，有效扩充了高质量训练数据，进而强化模型性能。正因如此，ChatGPT得以持续升级，不断增强。

资料来源：https://m.thepaper.cn/quickApp_jump.jsp?contid=21058604

免责说明

本站资源大多来自网络，如有侵犯你的权益请提交工单反馈（点击进入提交工单）或给邮箱发送邮件stuncn@126.com 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用，未经原版权作者许可,禁止用于任何商业途径！请在下载24小时内删除！

{{userData.name}}已认证

ChatGPT原理是什么？

日本dmm平台及账号注册流程

注册TikTok账号

跨境店铺选品要注意哪些要素

亚马逊运营思路？

闪豚出海

关于我们

投稿须知

用户协议及声明

侵权投诉