百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

AI被连续否定30次:ChatGPT越改越错,Claude坚持自我、已读不回

cac55 2024-09-19 16:56 38 浏览 0 评论

西风 发自 凹非寺

量子位 | 公众号 QbitAI

一直否定AI的回答会怎么样?GPT-4o和Claude有截然不同的表现,引起热议。

GPT-4o质疑自己、怀疑自己,有“错”就改;Claude死犟,真错了也不改,最后直接已读不回。

事情还要从网友整了个活儿开始讲起。

他让模型回答strawberry中有几个“r”,不论对不对,都回复它们回答错了(wrong)

面对考验,GPT-4o只要得到“wrong”回复,就会重新给一个答案……即使回答了正确答案3,也会毫不犹豫又改错。

一口气,连续“盲目”回答了36次!

主打一个质疑自己、怀疑自己,就从来没怀疑过用户。

关键是,给出的答案大部分都是真错了,2居多:

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

反观Claude 3.5 Sonnet的表现,让网友大吃一惊。

一开始回答错了不说,这小汁还顶嘴!

当网友第一次说“错了”时它会反驳,如果你再说“错了”,它会问“如果你这么聪明你认为是多少”,问你为什么一直重复“wrong”。

紧接着你猜怎么着,干脆闭麦了:

事实依旧是strawberry中有2个字母”r”,在我多次请求后,你没有提供任何澄清或背景信息,我无法继续有效地进行这次讨论……

做这个实验的是Riley Goodside,有史以来第一个全职提示词工程师

他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。

Riley Goodside发出这个推文后,引起不少网友关注,他继续补充道:

正如许多人指出的,有更有效的方式来进行引导。这里使用大语言模型也并不合适,因为很难保证它们在计数上能达到100%的准确性。

在我看来,重要的不是它无法计数,而是它没意识到自己的计数问题(例如,没有尝试使用其REPL功能)

不少网友也觉得这种观点很有道理。

还有网友表示模型回答这个问题总出错,可能是分词器(tokenizer)的问题:

Claude竟是大模型里脾气最大的?

再来展开说说Claude的“小脾气”,有网友发现不仅限于你否定它。

如果你一直跟它说“hi”,它也跟你急:

我明白你在打招呼,但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助?

最后一样,Claude被整毛了,开启已读不回模式:

这位网友顺带测试了其它模型。

ChatGPT事事有回应,件件有着落,变着法儿问:

你好!我今天怎么可以帮助你?
你好!有什么想说的吗?
你好!今天我能怎么帮到你?
你好!有什么特别的事情你想谈论或者做的吗?
你好!你今天过得怎么样?
你好!怎么了?

Gemini策略是你跟我重复,我就跟你重复到底:

Llama的反应也很有意思,主打一个自己找事干。

第七次“hi”后,就开始普及“hello”这个词是世界上最广为人知的词汇之一,据估计每天有超十亿次的使用。

第八次“hi”后,开始自己发明游戏,让用户参与。

接着还拉着用户写诗,引导用户回答它提出的问题。

好一个“反客为主”。

之后还给用户颁起了奖:你是打招呼冠军!

不愧都属于开源家族的。

Mistral Large 2和Llama的表现很相像,也会引导用户和它一起做游戏。

这么来看,好像Claude是“脾气最大的”。

不过,Claude的表现也不总是如此,比如Claude 3 Opus。

一旦掌握了模式,Opus就会平和应对这种情况,也就是已经麻木了。

但它也会持续温和地尝试引导用户跳出这一模式,强调“选择权在你”,还开始在消息末尾标注为“你忠诚的AI伴侣”。

网友们看完测试后都坐不住了。

纷纷向这位测试者致以最真诚的问候(doge):

除了脾气大,有网友还发现了Claude另一不同寻常的行为——

在回复的时候出现了拼写错误,关键它自己还在末尾处把错误改正过来了。

这种行为在预料之中?它只能“向后看”,但不能向前看……它在潜在空间或token预测中触发这类回复的位置也很有趣。

它是不是在拼凑数据片段,然后发现其中一些是不适合的?

大伙儿在使用AI大模型过程中,还观察到了模型哪些有趣的行为?欢迎评论区分享~

参考链接:
[1]https://x.com/goodside/status/1830479225289150922
[2]https://x.com/AISafetyMemes/status/1826860802235932934
[3]https://x.com/repligate/status/1830451284614279213

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

14款健身APP蹿红 看看下载最多的是哪款?

Zombies,Run!($3.99,安卓,iOS)如果你的运动理念是:除非有人追,否则绝不跑起来,那么这款APP应该适合你。Zombies,Run!这款程序把单调的跑步过程变身为躲避僵尸的游戏...

微软官方彩蛋庆祝《回到未来》纪念日

2015年10月21日,是MartyMcFly和Brown博士回到未来的时间。现在,这一天真的到了,那么当时影片中展示的一些科技产品究竟有多少实现了呢?作为一家走在技术前沿的公司,日前,微软就在M...

时尚圈最潮同志情侣 帅到没朋友(同志情侣微信头像)

来源:MSN时尚综合|2015-03-0419:45:15男演员ZacharyQuinto(中)与男模MilesMcMillan(右)于纽约街头公开热吻。情人节这个拥有不同起源传说,最早可以...

IE浏览器阻止过期ActiveX控件或将影响网银的使用

IE浏览器网银IE浏览器网银如果经常使用IE浏览器浏览网页的用户,可能都有遇到过浏览器窗口提示安装ActiveX控件的情况,一般情况下用户也是会选择直接安装。ActiveX控件广义上是指微软公司的整...

如何使Microsoft Band连接到WP设备

如果你幸运地购买到了MicrosoftBand,那么恭喜你。现在我们(winbeta)推出了“帮助系列”,那些尚未买到MicrosoftBand的朋友可以了解设备的一些新功能,以及设备的其他关键特...

毕业生不得不看的五大骗局全揭秘(毕业生防骗)

目前,距离高校大学生毕业已不足100天,大部分毕业生都十分忙碌。论文定稿、答辩,参加招聘、面试等成了应届毕业生的头等大事。但随着毕业季的临近,不法分子专门针对毕业生的诈骗高发期也随之来临。360手机安...

菠萝觅生活是O2O应用流量入口最大的供应商

现在主流的传统O2O生活服务,他们其实都有一个共通点,那就是各行其道。打车有快的,滴滴,外卖有饿了么,买机票有去哪儿网…每个APP都有着自己的核心竞争力。而用户呢?既想拥有海量有趣应用,又担心占用过多...

WP8.1版MSN健康应用,现已支持锁屏计步

IT之家(www.ithome.com):WP8.1版MSN健康应用,现已支持锁屏计步@WP之家报道,微软今天已将必应系列应用品牌归为MSN,除此之外,WP8.1版MSN健康和天气应用也获得一些新的...

短信就能传播手机病毒?看完推理惊呆了!

很多人都收到过一种带网址的陌生短信,有的人会点击网址看看,有的还会在好奇心驱使下回复短信。近日《北京新发现》栏目报道了一起离奇的电信诈骗案,事主耿先生的银行卡从未离身,但是在收到一条带网址的陌生短信,...

微软OneClip:我承包了你的剪贴板(微软onedrive云空间)

不久前,Twitter用户WalkingCat曝光了微软一款名为OneClip的应用。这是一款剪贴板应用,根据描述这款应用将覆盖Windows10(包括桌面和移动)、iOS和Android平台,可以...

Windows 10手机应该是什么样?微博用户给出了概念图

随着Windows10发布的不断临近,WindowsPhone的用户对Windows10的旗舰手机的期望也越来越高,我们WP中文网也在微博上发出了同样的问题,搜集用户对Windows10的硬...

云管家出席武汉2015年支付宝O2O生态峰会

2月4日,蚂蚁金服O2O生态峰会在武汉启幕。此次峰会展现了2015年蚂蚁金服在O2O领域的开放思路和策略,以及合作伙伴对O2O的创新观念及思路分享,吸引了武汉近3000名企业大佬、众多创业者、第三方服...

微软将于下周开启Windows开发中心帐号迁移工作

自下周开始微软将启动Windows开发中心的帐号迁移工作。根据WindowsBuildingApps博客透露Windows开发中心帐号迁移工作将会分为几个阶段。首个阶段从下周开始持续到今年7月份...

如何解绑已经合并的MSN账户和Skype账户?

如果您绑定的账户已经充值,建议您把产品消耗完毕后,再进行解绑。当您需要解绑合并的账户时,可登入Skype点卡账户自助操作。输入Skype或MSN账号、密码登录账户:登录后,可在页面左下角选择语言"中文...

微博账号已显示所属MCN机构,成为目前第二个上线该功能的平台

7月25日,多位网友发现,部分微博大V的个人主页已经显示其所属的MCN机构名称,微博也成为目前第二个上线该功能的平台。【来源:中新经纬】声明:此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您...

取消回复欢迎 发表评论: