近期,Anthropic发布了Claude 3.5 的“大杯”模型 —— Claude 3.5 Sonnet!
这次发布的 Sonnet 代表意大利的“十四行诗”,结构复杂,在智能水平、功能多样性和处理能力上都有所提升,能够应对更复杂的认知任务,提供更高质量的输出。
Claude 3.5 Sonnet 作为 Claude 3.5 系列的首个模型版本,在行业智能水平上取得了显著提升。它不仅超越了竞争对手的性能,还超越了自家的上一代“超大杯” Claude 3 Opus,同时保持了与中端模型 Claude 3 Sonnet 相同的速度和成本优势。
Sonnet 在研究生级推理(GPQA)、本科级知识(MMLU)和编程能力(HumanEval)方面都设立了全新的行业标准。
它在理解细微差别、幽默和复杂指令方面有显著提高,并能以自然、易于理解的语调撰写高质量内容。其运行速度是 Claude 3 Opus 的两倍,性能提升与成本效益相结合,使 Claude 3.5 Sonnet 成为复杂任务的理想选择,例如上下文敏感的客户支持和多步骤工作流程的管理。
划重点,在编程能力方面都设立了全新的行业标准。
我记得,ChatGPT4o的Copilot号称最强编程插件。
👉 GPT功能:
GPT-4o知识问答:支持1000+token上下文记忆功能 最强代码大模型Code Copilot:代码自动补全、代码优化建议、代码重构等 DALL-E AI绘画:AI绘画 + 剪辑 = 自媒体新时代 私信哪吒,直接使用GPT-4o下面从7个方面,横向对比一下ChatGPT4o和Claude 3.5 Sonnet,看谁的编程能力更强。
round 1:图片识别能力
上传一张图片,是经典算法题“猴子吃桃”的题目。
PS:只上传图片,啥也不说,对比一下ChatGPT4o和Claude3.5 Sonnet的图片识别能力和理解能力。
原图:
ChatGPT4o
ChatGPT4o识别了图片内容,不过默认转化为了英文。
ChatGPT4o给出了解决方案,默认是Python语言。
ChatGPT4o最后给出了代码的解释说明:
Claude3.5 Sonnet
Claude3.5 Sonnet识别了图片内容,默认也是英文。
Claude也识别出这是一道算法题,并给出了解决问题需要的算法,不过只给出了一个简单的解题思路。
图片识别能力小结:
在我看来,ChatGPT4o完全理解了我的用意,不仅识别了图片内容,还给出了解题思路、代码示例和解释说明,图片识别能力堪称完美。
反观Claude3.5 Sonnet,只是识别了图片中的内容,给出了了一个简单的解题思路。
图片识别能力,ChatGPT4o完胜。
round 2:代码能力
Prompt:请根据上面描述,给出解题思路,通过Java代码解答此题,关键代码添加注释,并根据示例中的输入输出进行代码测试,代码如果有错误,请重新修改代码
ChatGPT4o
ChatGPT4o给出了解题思路、Java代码、代码解释、测试用例。
Claude3.5 Sonnet
Claude给出了解题思路、Java代码、代码解释、测试用例、时间复杂度。
验证代码正确率,我们将ChatGPT4o和Claude的代码Copy到Idea中,通过测试用例测试一下。
测试通过,通过率100%。
代码review:
如下图所示,左侧为ChatGPT4o,右侧为Claude3.5 Sonnet。
肉眼可见,ChatGPT4o代码共74行,Claude共54行,相差20行。Claude3.5 Sonnet明显更加简洁。
代码能力小结:
ChatGPT4o给出了解题思路、Java代码、代码解释、测试用例。
Claude3.5 Sonnet给出了解题思路、Java代码、代码解释、测试用例,还给出了算法的时间复杂度。
ChatGPT4o与Claude3.5 Sonnet的代码都没有问题,通过率100%。
通过review代码,Claude3.5 Sonnet明显更加简洁。
代码能力,Claude3.5 Sonnet小胜。
round 3:代码优化
PS:我们将“通过回溯算法解答猴子吃桃的代码”发给它们,让它们对代码进行优化。
ChatGPT4o
ChatGPT4o指出了代码存在4个问题:
效率低,递归回溯,时间复杂度为 O(N) 递归深度限制,可能会导致 StackOverflowError 不必要的排序 全局变量使用,不符合编码规范ChatGPT4o给出了优化后的代码、关键点、下一步改进建议。
Claude3.5 Sonnet
Claude指出了代码存在4个问题:
效率低,递归回溯,时间复杂度为 O(N) 不必要的排序 全局变量使用,不符合编码规范 代码没有处理输入异常的情况Claude给出了优化建议、优化后的代码、优化说明、小总结。
代码优化小结:
ChatGPT4o和Claude都指出了4项问题,给出了优化建议、优化代码,略有差异,区别不大。
代码优化能力,旗鼓相当。
round 4:解读代码
Prompt:请给出代码的解题思路
ChatGPT4o
ChatGPT4o给出了具体的解题思路、优化后的代码、代码解析、建议的下一步改进
Claude3.5 Sonnet
Claude3.5 Sonnet给出了优化后代码的解题思路:
问题分析 输入处理 初始验证 二分查找最小速度 验证函数 返回结果 分析代码优势Claude3.5并没有再次输出代码,其实这一点是好评的,因为上面已经输出过了,完全没必要再次输出。
解读代码小结:
ChatGPT4o看似给的东西比较多,Claude3.5只是返回了解题思路。
但是,提示词就是输出代码的解题思路,ChatGPT4o反而有点本末倒置了。
解读代码能力,Claude3.5 Sonnet小胜。
round 5:测试用例及说明
Prompt:给出3个测试用例和说明
ChatGPT4o
ChatGPT4o给出了三个测试用例,涵盖了不同的场景、完整代码及测试用例、测试用例结果
Claude3.5 Sonnet
Claude3.5 Sonnet给出了3个测试用例,并对每个用例进行详细说明。
这些测试用例涵盖了几种不同的情况:
正常情况,需要计算的最小速度 需要较高速度才能完成的情况 无法完成任务的情况(时间不足)解读代码小结:
ChatGPT4o给出的东西很多,又输出一遍完整代码,但是回答内容有些重复。
Claude3.5 Sonnet给出了3个测试用例,并对每个用例进行详细说明,还指出了3个测试用例覆盖了3种不同的情况。
测试用例及说明能力,Claude3.5 Sonnet小胜。
round 6:Java转Python
Prompt:将代码转为Python语言
ChatGPT4o
ChatGPT4o给出了Python代码、关键代码解析、测试用例
Claude3.5 Sonnet
Claude3.5给出了Python代码、解题思路、时间复杂度
转码能力小结:
ChatGPT4o和Claude3.5都给出了Python代码、解题思路、测试用例,测试后,通过率100%。
转码能力,旗鼓相当。
round 7:添加注释
ChatGPT4o
Claude3.5 Sonnet
ChatGPT4o和Claude3.5都为Python代码添加了详细的代码注释,能力堪称顶级。
添加注释能力,旗鼓相当。
总结
我们分别从七大方面对比了ChatGPT4o和Claude3.5 Sonnet。
图片识别能力,ChatGPT4o完胜 代码能力,Claude3.5 Sonnet小胜 代码优化能力,旗鼓相当 解读代码能力,Claude3.5 Sonnet小胜 测试用例及说明能力,Claude3.5 Sonnet小胜 转码能力,旗鼓相当 添加注释能力,旗鼓相当就今天的测试而言,我们不难看出,Claude3.5 Sonnet在代码能力方面,小胜ChatGPT4o。
屏幕前的你,是不是也想试一下打败了Copilot的Claude3.5 Sonnet。
👉 GPT功能:
GPT-4o知识问答:支持1000+token上下文记忆功能 最强代码大模型Code Copilot:代码自动补全、代码优化建议、代码重构等 DALL-E AI绘画:AI绘画 + 剪辑 = 自媒体新时代 私信哪吒,直接使用GPT-4o总结
**文章总结**:Anthropic近期发布了Claude 3.5的升级版——Claude 3.5 Sonnet,该模型在智能水平、功能多样性及处理能力上均有显著提升,尤其擅长处理复杂的认知任务。Sonnet不仅超越了上代产品Claude 3 Opus的性能,还在研究生级推理、本科级知识及编程能力上设立了新的行业标准,以自然、易懂的语调输出高质量内容。同时,它还具有成本效益,处理速度是Claude 3 Opus的两倍。
文章将Claude 3.5 Sonnet与ChatGPT4o的编程能力进行了七个方面的对比:
1. **图片识别能力**:ChatGPT4o凭借对图片内容的完整理解、解题思路的提供及详细代码解释胜出。
2. **代码能力**:尽管两者都给出了正确代码,但Claude3.5 Sonnet的代码更简洁,小胜ChatGPT4o。
3. **代码优化能力**:双方都能准确指出代码问题并提供优化建议,能力相当。
4. **解读代码能力**:Claude3.5 Sonnet更专注于输出解题思路,而非重复展示代码,表现略优。
5. **测试用例及说明能力**:Claude3.5 Sonnet的测试用例及其详细说明更加全面,小胜ChatGPT4o。
6. **转码能力**:两者均能将Java代码转为Python且无误,能力相当。
7. **添加注释能力**:两者皆为Python代码添加了详尽注释,表现一致。
综上所述,Claude 3.5 Sonnet在代码相关的多个维度上略胜一筹,显示出其在编程任务处理方面的强大实力。文章最后鼓励读者试用Claude 3.5 Sonnet,并简要介绍了GPT-4o的其他功能。