OpenAI发布ChatGPT!手把手debug代码!-创新互联

卷友们好,我是rumor。

网站建设哪家好,找创新互联建站!专注于网页设计、网站建设、微信开发、成都微信小程序、集团企业网站建设等服务项目。为回馈新老客户创新互联还提供了济宁免费建站欢迎大家使用!

已经好久没看OpenAI的官网[1]了,但今天冥冥之中感觉受到了什么召唤,心想GPT4什么时候发布,莫名地就打开了,果然有料:

d955d740b2a035bebcd8e74725b90ce2.jpeg

试用:https://chat.openai.com/

它把魔抓又伸向对话了!来一起看看官方放出的case吧:

帮人Debug代码,并进行多轮询问:

d38ad5a6b7358d950df15e4690fddd52.jpeg

识别出危险问题并拒绝回答,但用户说明意图后给出了更好的回复:

015d088c676da3df29e7c5176886c8bf.jpeg

执行指令,甚至改很多遍也不生气:

f738e6fc0d3dad0d203ccc1954c21af1.jpeg

还有个指代消解的case太长就不放了,OpenAI在最后还拿InstructGPT做了对比,可以看到InstructGPT只是冰冷地执行指令,而ChatGPT则更有温度一些。

从上面的例子可以看到,对比今年其他厂的对话工作,ChatGPT有几项明显的优点:

  1. 基于GPT3.5,有着更多样的训练数据,别的我不知道,反正debug代码有点东西

  2. 强大的多轮上下文理解能力,从指代消解、写信的例子看出来的,如果对历史消息没有很好的记忆理解,可能就新起一个话题了

  3. 更像人。目前大部分模型都是直接回答,而ChatGPT显然跟用户有一个「Chat」的过程,比如debug代码的时候,上来先回复「很难说,再多给点信息」

更像人的对话策略,是很难做出来的,因为我们不知道怎么才算「像个人」。谷歌为了解决这个问题,曾经拆分出了一堆指标。

而这次OpenAI则是采用了和DeepMind Sparrow[2]一样的策略,既然不知道用哪些维度衡量对话的好坏,那直接基于用户的反馈去训练,让模型自己学就好了。

基于反馈的训练,那不就是宇宙的终点强化学习吗。

d2468da75af34b5481ce56fb8f60615e.jpeg

ChatGPT的制作分为如下几步:

  1. 用监督数据基于GPT3.5训练一个对话模型,训练数据是标注人员手把手写出来的

  2. 人工标注模型生成的多个结果,训练一个给对话回复打分的模型

  3. 用打分模型作为反馈,基于PPO算法训练一个对话模型

上面的步骤其实跟DeepMind的工作很像,也很直觉,但DeepMind额外针对黄赌毒对话做了些训练,目前还不知道ChatGPT是怎么实现的,不过以他们LM一把梭的性格,有可能全是数据堆出来的。。。

当然,ChatGPT还是有一些局限的,比如:

  1. 说一些不明所以毫无疑义的话

  2. 重复问相同的问题,或者轻微调整后答案变化很大

  3. 很啰嗦,从case里也看出来了,这主要是训练数据带来的偏差,标注同学会更倾向长句子

  4. 也不是所有模糊情况都会反问

  5. 有些黄赌毒问题还是没法识别,作者们在打算用API解决

目前,为了让大家给出更多的反馈,OpenAI顺势在11.30-12.30之间举行了一个反馈比赛[3],感兴趣的同学可以积极参与。

最后,让我们对应该过阵子就会发布的GPT4拭目以待吧!

参考资料

[1]

OpenAI Blog:https://openai.com/blog/

[2]

Building safer dialogue agents:https://www.deepmind.com/blog/building-safer-dialogue-agents

[3]

Feedback Contest:https://cdn.openai.com/chatgpt/ChatGPT_Feedback_Contest_Rules.pdf

9eb9e01168eb7c2b04cc2c20ea7ff8c6.jpeg


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「不会debug代码的模型不是好AI」1375eae85757ad9919be1f2cc7481f4a.png

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧

网页题目:OpenAI发布ChatGPT!手把手debug代码!-创新互联
文章起源:https://www.cdcxhl.com/article22/diddcc.html

成都网站建设公司_创新互联,为您提供搜索引擎优化网站设计网站制作关键词优化外贸网站建设静态网站

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

h5响应式网站建设