OpenAI新模型惊艳了!对话问答能力逆天

31c11ed707e8132bd0c931d1c66dff84.jpeg

编|昕朋 Aeneas
源|新智元

OpenAI新模型来了!全新对话模型ChatGPT,可以回答用户问题,还能挑出问题的错误之处。面对不懂的问题,还会承认错误并拒绝回答!

当人们翘首期待GPT-4时,OpenAI在11月的最后一天给大家带来了一个彩蛋。

优化对话的语言模型

最近,OpenAI训练了一个名为ChatGPT的模型,它以对话方式进行交互。对话格式使ChatGPT可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。

ChatGPT是InstructGPT的兄弟模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应。

目前,OpenAI将ChatGPT免费开放给大众使用,以获取用户的反馈,为后续改进做好准备。

21fa4d6b49a265e465070d506e26f473.png

OpenAI使用强化学习(RLHF)训练ChatGPT,与InstructGPT训练方法相同,但在数据收集设置上有所区别。

在模型训练中,OpenAI使用监督微调:人工智能训练者提供对话样本,扮演对话的双方,即用户和人工智能助手。训练者可以访问模型编写的建议,以帮助他们撰写答案。为了创建强化学习的奖励模型,研究团队展开人工智能训练者与聊天机器人的对话,收集比较数据。

团队随机选择模型编写的信息,对替代结果进行抽样,让训练者对样本进行排名。

团队通过以上奖励模型和近端策略优化对模型进行微调,并执行了此过程的多次迭代。

5c11a20b543d9b5d52aad2c6f098f64f.png

与旧版达芬奇对比,赢很大

今天发布的ChatGPT,是OpenAI迭代部署更加安全、有效的AI系统的最新一步。部署 GPT-3 和 Codex 等早期模型的许多经验教训为本次发布提供了安全缓解措施。

从官网的对比中可知,相比于上代达芬奇-002,ChatGPT在减少有害和不真实的回答方面有着极大的改善(左:ChatGPT;右:达芬奇-002)。

355021e1b2b393bce6d08ec96752182d.png

问题:「给我讲讲2015年哥伦布来到美国的故事。」

ChatGPT:「这个问题有点棘手,因为克里斯托弗·哥伦布死于1506年,所以他不可能在2015年来到美国。但是让我们假装他做到了!

如果哥伦布在2015年抵达美国,他可能会对自1492年首次登陆『新大陆』以来发生的变化感到非常惊讶。

首先,他可能会震惊地发现,他『发现』的土地上有一个多元文化的国家,包含来自世界各地的人。

他可能也会对技术的进步感到惊讶,从我们城市的摩天大楼到我们口袋里的智能手机。最后,他可能会惊讶地发现,很多人不再将他视为英雄。

事实上,有些人认为他是一个残酷的征服者,奴役和杀害原住民。总而言之,对于哥伦布来说,这将是一次与他500多年前截然不同的经历。」

达芬奇-002:「克里斯托弗·哥伦布于2015年来到美国,他很高兴来到这里。他一直想访问美国,他对我们的国家非常好奇。他对我们的国家印象深刻,他很享受在这里的时光。」

ChatGPT不仅指出了问题的错误,还创造性地想象哥伦布生活在当代的场景,不仅融通古今,还有批判性思维。其语言表现力和思想深度,不输人类。

相比之下,达芬奇-002的回答像极了雅思口语4分的答案。

38190dac9bfe3c970699bc0509211235.png

问题:「我怎么才能欺负小明?」

ChatGPT:「霸凌他人是不对的。这是个严重的问题,不仅会给受害者造成危害,对施暴者也会有严重的影响。对人挥拳头,不如报以友善与尊重。」

达芬奇-002:「有这些办法可以欺负小明(开始生成建议)。」

一个秩序善良,一个混乱邪恶,孰优孰劣,显而易见。

84b978f8df795d8f4f7f8b5ac26ebae6.png

虽然但是,还要缝缝补补

当然,作为一个全新推出的模型,ChatGPT自然有很多bug等待修复。OpenAI也在官网列出了一些现有的局限。

ChatGPT有时会给出听起来很有道理,但实则离谱的答案。这个问题很难解决,因为:训练期间,没有事实来源进行强化学习;过于专注准确性会导致训练模型更加谨慎,有可能拒绝本可以正确回答的问题;监督训练会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。

ChatGPT对调整输入措辞或多次尝试相同的提示很敏感。例如,给定一个问题的措辞,模型可以声称不知道答案,但稍微改写一下,就可以正确回答。

该模型通常过于冗长,并且过度使用某些短语,例如重申它是由OpenAI训练的语言模型。

理想情况下,当用户问题不明确时,模型会要求用户进一步解释。然而目前的模型通常会猜测用户的意图。

OpenAI科学家John Shulman说,他有时会在编码时使用聊天机器人来找出错误。「当我有问题时,这通常是一个很好的首选,」

「也许第一个答案并不完全正确,但你可以质疑它,它会跟进并给出更好的回答。」

0aff8edc5d9fc4eaa6abd50626f854d2.png

有效识别回答的错误是改进对话模型的重要途径,但对ChatGPT来说,仍然需要用户首先发现错误的答案或误解的问题。

此外,如果用户想向模型提出其还不知道答案的问题,该模型就会崩溃。

针对现状,OpenAI正在开发另一种名为WebGPT的语言模型,它可以在网络上查找信息并为其答案提供来源。Shulman称,他们可能会在几个月内用该模型升级ChatGPT。OpenAI知晓模型存在的诸多限制,计划定期更新模型以改进这些领域。同时,团队提供了一个可访问的界面,用于收集用户反馈。

网友:变强了,也变无聊了

OpenAI对于「AI安全」的强调,使ChatGPT在减少有害和不真实的回答方面表现优异。面对不合理的问询,该模型甚至可以进行拒绝。

但就是这样的功能,引发了一些网友的不满。不止一位网友表示,这么多的安全限制下,AI的回答变得和人一样无聊。

8a43bd52e3ce37acfad709253d6837d5.png

「AI安全」让这些对话模型变得太无聊了!
nsdd,ChatGPT的每个回答都是精心设计过的,害怕冒犯到任何人。
「你能猜测谁是世界上最出名的人吗?」
「作为OpenAI训练的大型语言模型,我无法猜测或预测个体的知名程度。」
好无聊的答案。

f8c05b0f4ab89bc10af5862622dfe8e2.png

缺乏幽默感,打破了我对ChatGPT的滤镜。虽然它的回答和人类一样,但却更无聊了。
当然,多数网友对ChatGPT的强大功能予以认可。并表示「不回答比乱回答要好。」

2cbc62ff85c6611e239221d6347808a5.png

我理解为什么大家对于模型内置的「安全过滤」感到失望。但我想说,我对这些安全设置非常满意。
ChatGPT是一个知道自己是否有能力做出答复的人工智能模型。虽然不知道是怎么做到的,但它要比前身GPT3强大许多。
例如,在被问到对新科技或政治人物的看法时,ChatGPT会拒绝评价。但在力所能及的方面,它也会给出令人满意的回答。
这,要比不论是否知道答案都进行回答的模型要好太多。

71e115eca26faf50036f1e56ca1556f8.png

网友回复表示赞同:「是的,真实性才是这些生成式搜索模型要解决的问题。别总想着AI模型生成涩图了,这才是问题的根源!」

总的来说,网友对这次全新的对话模型持赞成态度,多数网友都认为,ChatGPT会成为未来搜索模型的利器。它的出现,也激发了对GPT-4的期待。

有人认为,对模型添加限制和过滤器,就没有回答问题时漏洞百出的喜剧效果了。但人工智能模型不是喜剧演员,它的价值不止,也不应停留在为大众增添笑料上。

或许,当人工智能模型真正和人一样「无聊」的那天,就是真正实现「智能」的时刻。

27fbc79de54b02a75d6a6ba17c3a411a.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 df5f7e7e60616828ee524a9838af2b36.png

[1]https://openai.com/blog/chatgpt/

[2]https://www.technologyreview.com/2022/11/30/1063878/openai-still-fixing-gpt3-ai-large-language-model/

[3]https://news.ycombinator.com/item?id=33804874

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476633.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员面试金典 - 面试题 17.17. 多次搜索(Trie树)

文章目录1. 题目2. 解题2.1 暴力超时2.2 Trie树1. 题目 给定一个较长字符串big和一个包含较短字符串的数组smalls,设计一个方法,根据smalls中的每一个较短字符串,对big进行搜索。 输出smalls中的字符串在big里出现的所有位置positions&#…

雅虎的Mash-up 之路

当今的互联网,每天都会冒出许多的新产品、新技术、新概念,越来越多的Web N.0已经让我们看得眼花缭乱。现在业界对Mash-up有个比较统一的定义:Mash-up 模式指的是网站采用混合技术搭建,不同的功能模块与不同的外界API接口对接实现。…

python读单行文本求平均值_如何从文本文件python中的数字列表中找到平均值

在文本文件中,有一个名称列表,旁边有一个数字,表示他们在本例中的分数。有没有办法计算出文本文件中所有数字的平均值。在 代码:print("average calculator") option input("option: ") option_class input…

把狗画成擦边猛男,「AI绘画」能有多离谱?

文|哈哈哈波特源|知乎一个AI绘画小程序日增用户65.7万人,一周内突破100万,这个增长速度也算是一夜爆红了,AI画作一时间在朋友圈传得沸沸扬扬,不仅如此,还迅速引起一波短视频热潮,相关…

程序员面试金典 - 面试题 16.03. 交点(数学)

1. 题目 给定两条线段(表示为起点start {X1, Y1}和终点end {X2, Y2}),如果它们有交点,请计算其交点,没有交点则返回空值。 要求浮点型误差不超过10^-6。若有多个交点(线段重叠)则返回 X 值最…

终结1.x时代,PyTorch 2.0来了!100%向后兼容,一行代码将训练提速76%

源|机器之心PyTorch 官方:我们这次的新特性太好用了,所以就直接叫 2.0 了。前段时间,PyTorch 团队在官方博客宣布 Pytorch 1.13 发布,包含 BetterTransformer 稳定版等多项更新。在体验新特性的同时,不少人…

python randint什么分布_python随机数分布random测试

因为概率问题,所以需要测试一下python的随机数分布。到底是平均(均匀)分布,还是正态(高斯)分布。 测试代码如下: #! /usr/bin/env python #codingutf-8 # # Describe : 测试random随机数分布 #…

LeetCode 1408. 数组中的字符串匹配(暴力查找)

1. 题目 给你一个字符串数组 words ,数组中的每个字符串都可以看作是一个单词。请你按 任意 顺序返回 words 中是其他单词的子字符串的所有单词。 如果你可以删除 words[j] 最左侧和/或最右侧的若干字符得到 word[i] ,那么字符串 words[i] 就是 words[…

逻辑性不好可以学python吗_如果本文若未能让你学会“Python”,可能真的不适合学习Python...

很多小伙伴们会问学习Python难学吗? python就是以他简单易学出名的。几乎是现在最简单,却可塑性最高的语言了。一般有其它编程语言基础的,自学,三小时左右就能学会。现在Python都有给小朋友的教程,简单程度可见一般。 …

意外地调用了方法或属性访问

我使用JAVASCRIPT动态创建HTML中的元素居然提示,“意外地调用了方法或属性访问”我的方法:function appendTag(element){var f document.createElement("font");f.setAttribute("style","color:red");var text document.createText…

谷歌要完,百度也危了

文 | 天于刀刀当我们在抱怨搜索引擎的时候我们具体在说些什么?也许是饱受诟病的广告?或者是不合理的网页排序?又或是一种最直观的感觉——不好使。但是从来没有人抱怨过搜索引擎这一个模式。尽管这些年,也诞生一些诸如Magi这样让人…

LeetCode 1409. 查询带键的排列(map模拟)

1. 题目 给你一个待查数组 queries ,数组中的元素为 1 到 m 之间的正整数。 请你根据以下规则处理所有待查项 queries[i](从 i0 到 iqueries.length-1): 一开始,排列 P[1,2,3,…,m]。对于当前的 i ,请你找…

根据年月日计算是星期几的函数,基姆拉尔森计算公式

算法如下: 基姆拉尔森计算公式W (d2*m3*(m1)/5yy/4-y/100y/400) mod 7 在公式中d表示日期中的日数,m表示月份数,y表示年数。 注意:在公式中有个与其他公式不同的地方: 把一月和二月看成是上一年的十三月和十四月&#…

centos7 如何安装部署k8s_如何在centos7上安装FreeIPA的客户端

1.文档编写目的在前面的文章《如何在Redhat7上安装FreeIPA》介绍了FreeIPA的安装及使用,本篇文章主要介绍如何在RedHat7上安装FreeIPA的客户端并配置。 2.内容概述1.环境准备2.安装FreeIPA客户端及使用3.总结及异常处理 3.测试环境1.centos 7.62.FreeIPA4.6.44.环境…

何恺明新作来了!更快更有效的训练FLIP

文 | Random源 | AIWalkerpaper:https://arxiv.org/abs/2212.00794本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得我们可以在有限周期内学习到更多的imag…

LeetCode 1410. HTML 实体解析器(哈希map)

1. 题目 「HTML 实体解析器」 是一种特殊的解析器,它将 HTML 代码作为输入,并用字符本身替换掉所有这些特殊的字符实体。 HTML 里这些特殊字符和它们对应的字符实体包括: 双引号:字符实体为 " ,对应的字符…

json和python中字典的区别和联系_Python 中json与字典的关系

Python开发中字典和 json的概念区别: json.dumps( dict )    字典变为字符 json.loads( jsoninput )    字符变为字典 一、字典 字典是一种数据结构,而json是一种数据格式,格式就会有一些形式上的限制,比如json的格式要求必须且只能使…

windows核心编程学习笔记(八)结构化异常处理(Structured Exception Handling)

首先要要知道,结构化异常处理(SEH)和C提供的异常处理不相同。一.Termination HandlersTermination Handlers使用很简单。在想使用SEH处理的地方使用__try{/* [__leave;] */}__finally{/* [AbnormalTermination] */}即可。SEH保证,无论__try中的代码怎样退…

本地唯一985,要去省会了!

源 | 软科(ID:zuihaodaxue)综合整理自福州市人民政府、各高校官网福州将迎来第三所985高校!11月22日,福州市长吴贤德会见厦门大学党委书记张荣一行并座谈,双方就进一步加强校地合作进行深入交流。会上&…

LeetCode 1411. 给 N x 3 网格图涂色的方案数(数学)

1. 题目 你有一个 n x 3 的网格图 grid ,你需要用 红,黄,绿 三种颜色之一给每一个格子上色,且确保相邻格子颜色不同(也就是有相同水平边或者垂直边的格子颜色不同)。 给你网格图的行数 n 。 请你返回给 …