当前位置:AIGC资讯 > AIGC > 正文

数据分析进阶,Databricks集成GitHub Copilot实用指南

在Databricks中集成AI驱动的数据分析代码编写工具GitHub Copilot,可以优化和简化开发过程。

微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩

一、简介

GitHub Copilot是由GitHub与OpenAI合作开发的人工智能驱动的代码补全助手,它采用了ChatGPT模型,旨在帮助开发人员加速编码过程,同时最大限度地减少错误。该模型基于GitHub代码库中许可的代码和公开可用的代码进行训练,具备广泛的编程范式理解能力。

Databricks是由Apache Spark团队创立的开源分析云平台,支持无缝搭建数据分析和机器学习管道。此外,它还支持用户协同工作。

将GitHub Copilot与Databricks集成后,数据分析和机器学习工程师可以高效、便捷地部署解决方案。这种集成能够提供更顺畅的代码开发体验,提高代码质量和标准化程度,提高跨语言效率,加快原型开发,并有助于文档编写,从而提高工程师的生产力和效率。

GitHub Copilot和Databricks集成的先决条件:

设置Databricks账户:https://www.databricks.com/try-databricks#account

设置GitHub Copilot:https://github.com/features/copilot

下载并安装Visual Studio Code:https://code.visualstudio.com/download

二、集成步骤

在Visual Studio Code Marketplace中安装Databricks插件。

配置Visual Studio Code中的Databricks插件。如果之前使用过Databricks CLI,则已经在本地的databrickscfg文件中配置好了。如果没有,请在~/.databrickscfg文件中创建以下内容。

[DEFAULT]
host = https://xxx
token = <token>
jobs-api-version = 2.0

点击“Configure Databricks”选项,然后从下拉菜单中选择第一个选项,显示上述步骤中配置的主机名,并继续选择“DEFAULT”配置文件。

完成配置后,Visual Studio Code与Databricks建立了连接。当点击Databricks插件时,就可以看到工作区和集群配置的详细信息。

用户完成GitHub Copilot账户设置后,请确保可以访问GitHub Copilot。通过Marketplace在VSCode中安装GitHub Copilot和GitHub Copilot Chat插件。

用户安装GitHub Copilot和Copilot Chat插件后,系统将提示通过Visual Studio IDE登录GitHub Copilot。如果没有提示授权,请点击Visual Studio Code IDE底部面板中的铃铛图标。

接下来,使用GitHub Copilot进行开发。

三、开发数据工程管道

数据工程师利用GitHub Copilot,可以更快的速度编写数据工程管道,包括文档编写。以下是使用提示词创建简单数据工程管道的步骤。

使用Python和Spark框架从S3存储桶中读取文件。

使用Python和Spark框架将数据帧写入S3存储桶。

通过主方法执行函数,并通过代码执行步骤得出结果。

四、在Databricks中使用GitHub Copilot进行数据工程和机器学习的优势

优秀的AI辅助编程工具,可以快速提供合理的建议并提供样板代码。

提供优化代码的建议。

更好的文档和逻辑步骤。

更快实现数据管道,并减少错误。

详细说明现有的简单/复杂功能,并提出智能代码重构技术的建议。

五、快捷键

打开Copilot文本/搜索栏,可以在其中输入提示信息。

Windows: [Cltr] + [I]

Mac: Command + [I]

在右侧打开一个独立窗口,显示前10个代码建议。

Windows: [Cltr] + [Enter]

Mac: [control] + [return]

在左侧打开一个独立的Copilot聊天窗口。

Windows: [Cltr] + [Alt] + [I]

Mac: [Control] + [Command] + [I]

取消内联建议。

Windows/Mac: Esc

接受一个建议。

Windows/Mac: Tab

查看以前的建议。

Windows: [Alt] + [

Mac: [option] + [

检查下一个建议。

Windows: [Alt] + ]

Mac: [option] + ]

六、结论

将AI辅助编程工具与IDE结合使用,有助于开发人员加快开发速度,实时提供代码建议,减少了查阅文档以获取样板代码和语法的时间,并使开发人员能够专注于创新和解决业务问题的用例。

更多资源

https://app.pluralsight.com/library/courses/getting-started-prompt-engineering-generative-ai/table-of-contents

https://docs.github.com/en/copilot/quickstart

推荐书单

《Pandas数据分析》

《Pandas数据分析》详细阐述了与Pandas数据分析相关的基本解决方案,主要包括数据分析导论、使用PandasDataFrame、使用Pandas进行数据整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可视化数据、使用Seabom和自定义技术绘图、金融分析、基于规则的异常检测、Python机器学习入门、做出更好的预测、机器学习异常检测等内容。此外,该书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。

《Pandas数据分析》适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。

《Pandas数据分析》https://item.jd.com/14065178.html

精彩回顾

《严把数据质量关,用Pandas轻松进行7项基本数据检查》

《Pandas进阶指南,掌握这10个基本函数搞定数据处理(下)》

《Pandas进阶指南,掌握这10个基本函数搞定数据处理(上)》

《15个必知Pandas代码片段,助你精通数据分析》

《轻松玩转Python,5个步骤打造惊艳的折线图》

《10个Python中的数据类型技巧》

微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩

访问【IT今日热榜】,发现每日技术热点

更新时间 2024-01-23