在Databricks中集成AI驱动的数据分析代码编写工具GitHub Copilot,可以优化和简化开发过程。
微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩
一、简介
GitHub Copilot是由GitHub与OpenAI合作开发的人工智能驱动的代码补全助手,它采用了ChatGPT模型,旨在帮助开发人员加速编码过程,同时最大限度地减少错误。该模型基于GitHub代码库中许可的代码和公开可用的代码进行训练,具备广泛的编程范式理解能力。
Databricks是由Apache Spark团队创立的开源分析云平台,支持无缝搭建数据分析和机器学习管道。此外,它还支持用户协同工作。
将GitHub Copilot与Databricks集成后,数据分析和机器学习工程师可以高效、便捷地部署解决方案。这种集成能够提供更顺畅的代码开发体验,提高代码质量和标准化程度,提高跨语言效率,加快原型开发,并有助于文档编写,从而提高工程师的生产力和效率。
GitHub Copilot和Databricks集成的先决条件:
设置Databricks账户:https://www.databricks.com/try-databricks#account
设置GitHub Copilot:https://github.com/features/copilot
下载并安装Visual Studio Code:https://code.visualstudio.com/download
二、集成步骤
在Visual Studio Code Marketplace中安装Databricks插件。
配置Visual Studio Code中的Databricks插件。如果之前使用过Databricks CLI,则已经在本地的databrickscfg
文件中配置好了。如果没有,请在~/.databrickscfg
文件中创建以下内容。
[DEFAULT]
host = https://xxx
token = <token>
jobs-api-version = 2.0
点击“Configure Databricks”选项,然后从下拉菜单中选择第一个选项,显示上述步骤中配置的主机名,并继续选择“DEFAULT”配置文件。
完成配置后,Visual Studio Code与Databricks建立了连接。当点击Databricks插件时,就可以看到工作区和集群配置的详细信息。
用户完成GitHub Copilot账户设置后,请确保可以访问GitHub Copilot。通过Marketplace在VSCode中安装GitHub Copilot和GitHub Copilot Chat插件。
用户安装GitHub Copilot和Copilot Chat插件后,系统将提示通过Visual Studio IDE登录GitHub Copilot。如果没有提示授权,请点击Visual Studio Code IDE底部面板中的铃铛图标。
接下来,使用GitHub Copilot进行开发。
三、开发数据工程管道
数据工程师利用GitHub Copilot,可以更快的速度编写数据工程管道,包括文档编写。以下是使用提示词创建简单数据工程管道的步骤。
使用Python和Spark框架从S3存储桶中读取文件。
使用Python和Spark框架将数据帧写入S3存储桶。
通过主方法执行函数,并通过代码执行步骤得出结果。
四、在Databricks中使用GitHub Copilot进行数据工程和机器学习的优势
优秀的AI辅助编程工具,可以快速提供合理的建议并提供样板代码。
提供优化代码的建议。
更好的文档和逻辑步骤。
更快实现数据管道,并减少错误。
详细说明现有的简单/复杂功能,并提出智能代码重构技术的建议。
五、快捷键
打开Copilot文本/搜索栏,可以在其中输入提示信息。
Windows: [Cltr] + [I]
Mac: Command + [I]
在右侧打开一个独立窗口,显示前10个代码建议。
Windows: [Cltr] + [Enter]
Mac: [control] + [return]
在左侧打开一个独立的Copilot聊天窗口。
Windows: [Cltr] + [Alt] + [I]
Mac: [Control] + [Command] + [I]
取消内联建议。
Windows/Mac: Esc
接受一个建议。
Windows/Mac: Tab
查看以前的建议。
Windows: [Alt] + [
Mac: [option] + [
检查下一个建议。
Windows: [Alt] + ]
Mac: [option] + ]
六、结论
将AI辅助编程工具与IDE结合使用,有助于开发人员加快开发速度,实时提供代码建议,减少了查阅文档以获取样板代码和语法的时间,并使开发人员能够专注于创新和解决业务问题的用例。
更多资源
https://app.pluralsight.com/library/courses/getting-started-prompt-engineering-generative-ai/table-of-contents
https://docs.github.com/en/copilot/quickstart
推荐书单
《Pandas数据分析》
《Pandas数据分析》详细阐述了与Pandas数据分析相关的基本解决方案,主要包括数据分析导论、使用PandasDataFrame、使用Pandas进行数据整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可视化数据、使用Seabom和自定义技术绘图、金融分析、基于规则的异常检测、Python机器学习入门、做出更好的预测、机器学习异常检测等内容。此外,该书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。
《Pandas数据分析》适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
《Pandas数据分析》https://item.jd.com/14065178.html
精彩回顾
《严把数据质量关,用Pandas轻松进行7项基本数据检查》
《Pandas进阶指南,掌握这10个基本函数搞定数据处理(下)》
《Pandas进阶指南,掌握这10个基本函数搞定数据处理(上)》
《15个必知Pandas代码片段,助你精通数据分析》
《轻松玩转Python,5个步骤打造惊艳的折线图》
《10个Python中的数据类型技巧》
微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩
访问【IT今日热榜】,发现每日技术热点