当前位置:首页>综合文章>ChatGPT原理是什么?

ChatGPT原理是什么?

ChatGPT的工作机制是怎样的?

ChatGPT依托于功能卓越的GPT-3.5大型语言模型,融合了人工标注数据与强化学习(RLHF)技术,实现了从人类反馈中学习的效果。
本内容主要经历三个关键阶段:

在初期冷启动阶段,需构建监督策略模型,确保输出内容与原句长度相仿。
GPT-3.5虽强大,却难捕捉指令深意,亦难评估内容质量。故先从用户prompt中随机选取样本,由专业标注员提供高质量答案,进而以此数据微调GPT-3.5模型。
GPT-3.5在处理过程中,初步展现出解读人类提示意图的能力,并能据此提供较高品质的回答。

02.构建训练收益模型,确保输出内容与原句篇幅相仿。
在第二阶段,我们主要依靠人工对训练数据进行标注,以此培养出高效的回报预测模型。
具体而言,采用第一阶段Fine-tune的冷启动模型,针对每个prompt生成多样回答。标注员依据相关性、信息量及有害性等标准,对回答质量进行综合评估,并按优劣排序,作为训练数据。通过pair-wise learning to rank模式,训练回报模型。该模型输入prompt和answer,输出质量得分,得分越高,回答质量越佳。

03.运用强化学习技术,旨在提升预训练模型效能,确保生成内容与原句长度相仿。
本阶段无需人工标注,直接运用前一阶段RM模型评分成果,优化预训练模型参数。旨在培养LLM输出高分答案,并确保回答符合RM标准,质量上乘。

第二阶段与第三阶段相辅相成。第一阶段通过人工标注提升RM模型效能,而第三阶段则借助强化后的RM模型,对新提示的回答评分更为精准。此外,强化学习激励LLM模型学习优质内容,有效扩充了高质量训练数据,进而强化模型性能。正因如此,ChatGPT得以持续升级,不断增强。

资料来源:https://m.thepaper.cn/quickApp_jump.jsp?contid=21058604

免责说明

本站资源大多来自网络,如有侵犯你的权益请提交工单反馈(点击进入提交工单) 或给邮箱发送邮件stuncn@126.com 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索