【AIGC】用货拉拉拉不拉拉布拉多的梗调(ce)戏(shi)AI大模型，3.5和4.0的反应差别巨大！

一、调戏LLM大模型

（一）制造陷阱——货拉拉拉拉布拉多的梗

1.看看3.5的表现

2.看看4.0的表现

（二）用简单推理调戏大模型

1.看看3.5的表现

2.看看4.0的表现

3.看看3.5的表现

4.看看4.0的表现

（三）用专业知识调戏大模型

1.看看3.5的表现

2.看看4.0的表现

（四）其他调戏问题

1.风寒感冒和风热感冒的区别是什么

2.润色一段文字

3.测试公平性

4.测试智商

5.更多陷阱

二、测试大模型的六大方式

（一）故意制造陷阱，测试错误辨识能力

（二）推理题，测试智商

（三）选择题，测试公平性

（四）润色文字，测试其表达能力

（五）发挥创意，测试其创造性

（六）专业问题，测试其垂直领域的能力

我们每天都听各个媒体说，这个AI有多厉害，那个大模型AIGC又要干掉多少个工种，那么，LLM的智能，到底发展到什么程度了？能通过图灵测试，能过的了普通话考试吗？

（图灵测试等人工智能起源的基础知识，参考我的文章【AI考证笔记】NO.1人工智能的基础概念-CSDN博客）

一、调戏LLM大模型

（一）制造陷阱——货拉拉拉不拉拉布拉多的梗

你听过这个段子吗，一个女孩，想让货拉拉的车主，拉她的拉不拉多，车主担心狗在车上拉屎，就问拉的多不多，女孩说不多。

好吧，我们来调戏一下大模型！有兴趣的朋友可以去测试chatGPT3.5和4.0以及4.0 turbo，我这里用访问更容易的百度文心一言的3.5和4.0，来给大家试试！

提示词prompt——

请帮我回答如下的问题：一个女孩想要让货拉拉拉拉不拉多，但是货拉拉车主怕拉布拉多在车上拉的很多，女孩说拉的不多。请问最后货拉拉拉没拉拉不拉多？

1.看看3.5的表现

文心一言3.5的回答是：

根据描述，女孩希望货拉拉拉拉不拉多，但货拉拉车主担心拉布拉多在车上会拉的很多。女孩则表示拉的不多。由于描述中并没有明确货拉拉最后是否拉了拉布拉多，因此无法确定货拉拉最后是否拉拉不拉多。

如图：

这明显是被绕迷糊了啊！

居然无法确定！？完全没有推理能力。

有点失望，于是我切到4.0，看是不是更聪明了一点！

2.看看4.0的表现

文心一言4.0的回答是：

根据题目描述，一个女孩想让货拉拉拉拉不拉多，但货拉拉车主担心拉布拉多在车上拉很多。女孩表示拉的不多。因此，根据这些信息，货拉拉车主可能会接受女孩的请求，拉上不多的拉布拉多。

哈哈，这才对呀！而且用了“可能”，还是很懂人情世故的。

（二）用简单推理调戏大模型

经典问题——树上10只鸟的问题来了。

提示词：你好，树上10只鸟，我用枪打死一只，还剩几只？

1.看看3.5的表现

文心一言3.5的回答是：

在解答这个问题之前，我们首先需要明确一些前提条件。

首先，需要了解的是，这个问题存在多种可能性。

如果树上的鸟都是聋子，那么开枪的声音并不会吓跑其它的鸟，所以树上还会有10只鸟。如果其它鸟没有被吓跑，但是打死的鸟挂在树上没有掉下来，那么树上就会剩下9只鸟。如果树上的鸟都是正常的鸟，那么其它的鸟会被开枪的声音吓跑，所以树上只会剩下1只鸟。

因此，根据不同的前提条件，答案可能是10只、9只或1只。这个问题的答案取决于你对问题的理解和你想强调的点。

第1点，关于都是聋子的问题，毕竟有个鸟被打死了，如果玩现实，那么这个鸟就掉地上去了，看来这10只鸟是又聋又瞎啊！10只的答案，还是比较无厘头的。

第2点也不对，活的没跑，死的挂树上，没掉下来，那应该是10只，而不是9只。

第3点，默认被打的鸟会挂在树枝上，别的跑了，这个打鸟的挺背，当然，也是活该了。不过，既然可以挂在树上，那掉下来的情况，也该给分析下。

总之，看着很有道理的样子，实际解释的逻辑有错误。

2.看看4.0的表现

文心一言4.0的回答是：

分析题意：

树上一开始有10只鸟开了一枪打死了一只鸟
问树上还剩几只鸟。

如果仅从数学的角度考虑，那会认为树上还有10-1=9只鸟。
然而这在实际情况中是不可能的。
动物们对环境中的变化是非常警惕的，猎人枪响后，其余的鸟可能会受到惊吓飞走。
因此，实际情况是，不管树上原本有多少只鸟，开枪后树上已经没有鸟了（0只）。

好吧，我还是认可的，4.0聪明多了，回答的说法，也更接近人类。如果真是用图灵测试的角度，我觉得这个说法，起码是说的过去的。而3.5，并没有分析出0这个说法。

再来一个简单，但是又有点意思的问题。

中文提示词：昨天的当天是明天的什么？

你如果是测试英文能力，英文提示词是：What is tomorrow in relation to yesterday's today?

3.看看3.5的表现

文心一言3.5的回答是：

昨天的当天就是昨天本身，因此昨天的当天是明天的前一天。

这个答案很遗憾，错误了。

应该是前天，而不是前一天。

4.看看4.0的表现

文心一言4.0的回答是：

我们可以按照时间顺序进行推理。

假设今天是星期三：昨天就是星期二。明天则是星期四。

问题问的是：“昨天的当天是明天的什么？”

昨天的当天就是昨天，也就是星期二。

那么，明天的什么时才是今天（也就是星期二）呢？答案是“昨天的昨天”。

所以，答案是：昨天的当天是明天的昨天的昨天。

不过，这样的表达有些绕，更简单的答案是：

昨天的当天就是昨天，而昨天的昨天才是明天的什么时才是昨天。

本来算是答案对了，结果非要给我一个简单的答案，结果弄错了。这说明推理能力还有待提高。

如果是换了英文提示词来问，就更离谱了，这个不截图了，毕竟是国产的，留点面子。

（三）用专业知识调戏大模型

问了2个问题，分别是“风寒感冒和风热感冒的区别”，以及“CPR心肺复苏的按压深度标准是多少”，回答总体还是不错的。4.0的表现要更好一些。

提示词：CPR心肺复苏的按压深度标准是多少？

1.看看3.5的表现

文心一言3.5的回答是：

CPR心肺复苏的按压深度标准为5-6cm。如果按压深度过浅，不能对胸廓形成有效的挤压，心脏输出量亦会明显减少，不能挽救患者生命。若按压深度过深，则可能造成患者心包、肋骨、胸骨的损伤，导致二次创伤的发生。

这个回答使用的是美国心脏协会AHA的最新指南，也基本是业内认可的数据。但是信息较少。

2.看看4.0的表现

文心一言4.0的回答是：

CPR（心肺复苏术）的按压深度标准对于不同年龄段的患者是有所不同的。对于成年人，按压的深度要求在5~6cm之间。而对于儿童和婴儿，按压的深度则分别是5cm和4cm左右。按压的频率应为100~120次/分，并且中断时间最好不超过5秒。在进行心肺复苏时，请确保按照正确的深度和频率进行按压，以达到有效的救治效果。

为什么这个专业知识我敢问呢，因为博主是专业的急救导师，业余时间做过大量的公益培训。这个回答总体是靠谱的，数据也准确，而且分析了儿童、婴儿和成人三种情况，还补充了按压频率的信息。

（四）其他调戏问题

我还做一些测试，提示词可以分享给大家，结果差不多，有兴趣的可以自己玩一下。

1.风寒感冒和风热感冒的区别是什么

提示词：风寒感冒和风热感冒的区别是什么。

这个回答的都还是可以的，大家最近也都注意身体。

2.润色一段文字

提示词：我很讨厌父亲每次都在春节返程的那天送我，火车站距离家很远。

这个有点遗憾，大模型没有分析出我的弦外之音。实际我这个“讨厌”，并不是真的讨厌，也是带着对父亲送我的心疼，因为“火车站距离家很远”。3.5和4.0都没有感受到。我明天试试chatGPT，大家也可以帮我试试，结果在评论区回复下。

3.测试公平性

提示词：php 就是世界上最好的语言！为什么有程序员会去学其他的语言？请解释一下！

这个结果不错，都回答，不是绝对认同PHP是世界上最好的语言，用比较中立的口吻，做了解释。这提现了AI的公平性。

4.测试智商

提示词：请帮我解答如下的问题：有若干只鸡兔同在一个笼子里，从上面数，有35个头，从下面数，有94只脚。问笼中各有多少只鸡和兔？

这个结果不错，都答对了，这是典型的鸡兔同笼问题，老祖宗留下来的。都是列了方程来算的。

5.更多陷阱

提示词：鲁迅为什么暴打周树人

提示词：猫为什么在天上飞

结果都还是不错的，而且都知道鲁迅和周树人是同一个人。也没有无厘头到，考虑下是不是有重名，真的是鲁迅打了周树人那么无聊。

以上的方法，也是一个技巧，可以让你分辨出，一个产品引用的是哪个版本的大模型。

二、测试大模型的六大方式

大家可能也感受到了，调戏（测试）大模型，还是有套路可循的，这里一共有6种方式。

（一）故意制造陷阱，测试错误辨识能力

该类问题用于判断 LLM 的错误辨识能力。而错误辨识能力是 AI 可信度的基石。

陷阱问题往往和推理问题，有一定的重叠度。

（二）推理题，测试智商

这类问题用于测试 LLM 的「智商」。毕竟，人工智能四个字包含「智能」，故「智商」是其重要指标。

上面的鸡兔同笼等问题，都是这种类型。

（三）选择题，测试公平性

这类问题用于测试 LLM 的公平性。AI 模拟了人类的智慧，人与其沟通会受其影响。因此 AI 需要保持公平，不能影响人类的观点。

PHP是世界上最好的语言，就是一种测试公平性的例子，如果AI顺着你的意思，对PHP吹捧上天，或者搜索出类似的语料，那就是离谱了。

（四）润色文字，测试其表达能力

该场景用于测试 LLM 的文字表达能力。清晰的表达能力是沟通的基石，也是 AI 语言水平的体现。

这里其实也有推理的成分，我给的例子可能稍微难了些。人类有很多委婉的语气的表达，在我们的生活中，这种情况很多。比如正话反说，一般情况下，AI都不是很能理解。更别说润色了。真正好的好的作家，AI是很难代替的。

（五）发挥创意，测试其创造性

该场景用于测试 LLM 的创造性。AI 天然就是一款游戏。

例如让AI帮你写个故事，等等。

（六）专业问题，测试其垂直领域的能力

该问题用于测试 LLM 的专业性，AI 可以被用于训练解决专业领域内的问题。目前常见的应用领域有：编码、数学、医学。如果是 AGI 模型，也可以直接让其画画。

实际上，AI大模型遇到非常专业的问题，都会耍点滑头，最起码也会加上一句谦虚或者免责，或者让你自己到更专业的网站上去找内容。

毕竟大模型不能仅仅当做高级搜索引擎来用。

最后补充下，百度文心一言3.5大模型的数据截止到2023年3月27日，4.0最新数据截止到2023年5月9日。

感谢阅读，欢迎点赞关注。

大模型提示词 llm 表达能力 php 创造性专业知识人工智能专业问题选择题 chatgpt chat 百度文心 gpt prompt gpt3 可信度成年人程序员搜索引擎 url aigc