1、简介
GitHub Copilot和Amazon CodeWhisperer是采用人工智能技术驱动的编码助手,它们将自动完成编码功能提升到一个全新的水平。在最佳状态下,它们可以根据开发者提供的简短描述性文本编写功能完整、可运行的代码块。这可以让开发者更高效,而且还能让开发变得更有趣!
接下来跟随本文开始了解最佳AI编码助手吧!
2、什么是人工智能编码助手?
GitHub Copilot和Amazon CodeWhisperer是与代码编辑器集成的服务,可以帮助开发者更快地编写代码。但与常见的自动完成工具(如“IntelliSense”)不同,Copilot和CodeWhisperer利用的是在源代码和自然语言上都经过训练的机器学习模型,因此它们既能理解编程语言,也能理解人类语言。这使它们能够理解用简单英语编写的注释,根据开发者的意图生成代码,并匹配开发者的模式和风格。当开发者输入时,它们甚至会提供完成初始注释本身的建议。可以接受顶部的建议,也可以查看更多建议,或者继续编写自己的代码。
节省创建模板代码和重复代码模式的时间,将更多时间投入到重要的事情上:构建优秀的软件(GitHub Copilot)。
2.1 什么是GitHub Copilot?
【GitHub Copilot】:https://github.com/features/copilot/
GitHub Copilot是由GitHub和OpenAI共同开发的,它由OpenAI的Codex模型提供支持,该模型是在公开源代码(包括GitHub上的公共源代码库)上进行训练的。Copilot在2022年6月正式宣布“退出技术预览”。
图片
开始输入描述性注释或函数名称,Copilot会尝试自动补全其余内容。
Copilot非常易于使用,并与所有主要的代码编辑器进行了简化集成。GitHub Copilot针对七种主要的编程语言进行了优化(详见下表),但也可以生成其他语言和各种框架的建议。
Copilot在预览阶段是免费的,但GitHub在2022年宣布转向订阅模式。开发者仍然可以获得为期60天的免费试用,而且对于经过验证的学生和热门开源项目的维护者,它将保持免费。
图片
Copilot的建议是上下文相关的。请注意它是如何“学会”开发者想要使用常量的,以及它是如何正确命名和填充对象的。
2.2 什么是Amazon CodeWhisperer?
【Amazon CodeWhisperer】:https://aws.amazon.com/cn/codewhisperer/
Amazon CodeWhisperer是由亚马逊开发的。它的机器学习模型是在各种数据源(包括亚马逊的内部代码和开放源代码)上训练出来的。
图片
CodeWhisperer可以完成注释,并根据注释提供代码建议。开发者可以在不同的代码实现之间切换,选择最合适的代码。
CodeWhisperer与GitHub Copilot相比,它支持的语言和主要代码编辑器都较少。不过,广泛的语言和IDE支持并非CodeWhisperer的主要吸引点。相反,CodeWhisperer专注于为AWS API提供一流的支持,为包括亚马逊弹性计算云(EC2)、AWS Lambda和亚马逊简单存储服务(S3)在内的最流行服务提供代码建议。
根据亚马逊官网的介绍,用户只需编写“将文件上传到S3。(upload a file to S3.)”,CodeWhisperer将自动确定最适合指定任务的云服务和公共库,即时构建具体代码,并直接在IDE中推荐生成的代码片段。
【Amazon CodeWhisperer简介】:https://aws.amazon.com/cn/blogs/machine-learning/introducing-amazon-codewhisperer-the-ml-powered-coding-companion/
个人开发者可以免费使用CodeWhisperer。
3、比较
图片
GitHub Copilot与Amazon CodeWhisperer的比较。
3.1 哪个更受欢迎?
由于CodeWhisperer的发布时间较短,GitHub Copilot凭借其一年的先发优势,目前占据着主导地位。根据GitHub自己的数据,在预览阶段的12个月里,超过120万开发者使用了Copilot的技术预览版。他们自己的研究表明,用户平均接受了GitHub Copilot提供的所有补全内容的26%,并且高达40%的开发者的代码文件是由GitHub Copilot生成的。
3.2 隐私如何保护?
为了提高性能,Copilot和CodeWhisperer都会收集用户的数据。在工作中使用这些工具是否会危及企业的代码库或数据?这是一个重要的问题,对于大多数公司来说可能是一个潜在的决定因素。
为了提供代码建议,GitHub Copilot会将开发者的代码和注释发送到GitHub Copilot服务。该服务依赖于文件内容的上下文,包括正在编辑的文件以及项目中的相邻或相关文件。它还可能收集存储库的URL或文件路径以识别相关的上下文。某些数据收集部分可以在遥测设置中禁用。但是其他部分,如使用信息,则是使用Copilot所必需的,无法关闭。其中可能包括个人数据,详见GitHub隐私声明。
【GitHub隐私声明】:https://docs.github.com/en/site-policy/privacy-policies/github-privacy-statement
GitHub还表示,根据他们的内部测试,他们发现GitHub Copilot的建议中很少包含直接从训练集中提取的个人数据。然而,其中一些建议可能只是看起来像个人数据(电子邮件地址、电话号码等),但实际上是从训练数据中的模式合成的虚构信息。
Amazon CodeWhisperer也会收集某些信息,如上下文信息(包括文件内容)、反馈、遥测指标和用户环境信息。在其服务条款中,亚马逊表示在预览阶段会向开发者提供打开或关闭内容共享的选项。
3.3 风险和漏洞如何处理?
这两个助手都是在可能包含不安全编码模式、错误或过时的API或习惯用语引用的公共代码上进行训练的。报告《Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions》研究发现,在使用Copilot的测试场景中多达40%的代码存在漏洞。
【报告】:https://arxiv.org/pdf/2108.09293.pdf
GitHub承认Copilot有时可能会建议使用旧的或已弃用的库和语言,并且它可能会合成包含不良模式的代码。为了减少这种情况,他们建议将其与GitHub Actions、Dependabot和CodeQL等工具结合使用,以帮助提高代码质量。
亚马逊也是如此,不过值得称赞的是,亚马逊已经采取了很好的应对措施,他们提供了安全扫描功能,用于检测Java和Python项目中的漏洞。
图片
当选择运行安全扫描时,CodeWhisperer会检测到此漏洞并显示问题。(来源:AWS机器学习博客)
话虽如此,开发者应该始终将AI辅助编码助手与适当的测试、良好的代码审查实践、可靠的安全工具以及自己的判断力结合使用!
3.4 公共代码的(错误)使用情况如何?
关于在训练集中大量使用公共代码的问题已经引起了人们的关注。理想情况下,助手应该始终生成之前从未见过的代码。如果助手直接从训练集中引用代码,这可能使代码失去合理使用的资格,并可能侵犯原始所有者的版权。
为了减少这种情况,Copilot内置了一个过滤器,试图检测和抑制GitHub Copilot建议中包含的代码与GitHub上的公共代码相匹配的情况。这个过滤器是可选的,可以关闭。根据GitHub官方的说法,Copilot大约有1%的情况下会输出与公共代码完全相同的超过约150个字符的代码片段。他们将此归咎于GitHub Copilot无法从开发者正在编写的代码中获取足够的上下文,或者此问题存在一个常见的、甚至是普遍的解决方案。
与Copilot类似,CodeWhisperer还配备了一个引用跟踪器,可以检测生成的输出是否与特定训练数据相似。关于用户编写的代码收集,亚马逊表示他们不会在预览阶段使用任何开发者编写的代码来进一步训练其模型。然而,CodeWhisperer确实会存储与开发者对代码建议的响应(如接受或拒绝建议)相关的用户活动数据。该服务使用这些反馈来提高其机器学习模型的准确性,从而使CodeWhisperer能够改进未来的建议。
4、胜出者是谁?
在语言和集成开发环境(IDE)支持方面,GitHub Copilot是胜者。它正式推出的时间更长,这就给了GitHub工作人员更多的时间来修复错误和解决问题。使用它需要进行少量的资金投入,但开发者将获得一个功能齐全、随时可用的产品。
然而,如果开发者在AWS环境中工作,那么Amazon CodeWhisperer可能是更合适的选择。亚马逊是第一家提供智能编码助手的云服务提供商,而且主要是针对自己的产品。此外,其集成的漏洞检测功能也是考虑使用它的一个很好的理由。最后,它对于个人开发者是免费的。