当前位置:AIGC资讯 > AIGC > 正文

AIGC 大模型辅助数据分析案例-省份城市信息精准提取

「如果 AI 应用者,没有任何认知框架基础,直接让 AI 猛干,那么,他将一事无成。」

    以我所在的数据领域工作,AI 直接上手完成一份分析报告,几乎是不可能完成的任务。

AI 不知道你们公司有哪些系统,系统里又有哪些数据库,数据库里的表之间的关联是什么,各字段代表什么含义。甚至有些字段有特殊业务含义,或者已经弃用了,AI 通通不知道。

这么看来,好像 AI在数据分析领域就是废物,解决不了任何问题,更无法直接应用到工作上。

    其实不然。当今 AI 的能力,能做你的超级辅助。当然,核心还得是人,这对个人的能力要求更高了。然而,对人的要求主要是什么呢?一言蔽之,快速获取框架、快速提炼和总结输出的能力。

    我们来看一个我遇到的实际案例,案例很小,但是用 AI 解决的思路很有启发。

任务是这样的,你的老板给你了一堆极度不规范的地址,需要从地址中提取规范的省份和城市信息。地址长这鬼样:

    如果让你做这部分数据清洗,给你 30s 时间,思考一下?

30s 时间到!

    发现了吗?这些地址极其之乱,乱成什么样呢?(这个是 AI 总结的哦)

地址格式多样:地址中包含省、市、区、街道、门牌号、楼层、房间号等信息,且顺序和格式不统一。

省份信息不明确:部分地址中直接提到了省份名称,如“浙江省杭州市”,而有些则只提到了城市,如“广州市天河区”。

特殊区域标识:有些地址中包含了特殊区域的标识,如“中国(四川)自由贸易试验区”、“中国(上海)自由贸易试验区”。

非地址信息:有些文本看起来像地址的一部分,但实际上并不是地址信息,如“广州市天河区市场监督管理局”。

    你可能会想,我筛选关键字,比如,“广州”,手工识别后,把“广州市”填入城市,广州市归属广东省,再在省份列填入“广东省”。几十行还好,花个半个小时、 一个小时能还能忍忍。那如果有几百行,几千行地址呢?

    头痛么?头痛就对了。这个时候,求助 AI !当然,这里也是有技巧(prompt)的,技巧后面再说。就用咱中国的大模型之光 kimi 来做个示范。这个是 kimi 告诉我的解题思路。看一下 kimi 是怎么思考的。

kimi 的回答

1 、待处理地址数据特征分析

2 、提供解决问题的方法和思路

3 、逐步提供可操作的执行步骤

4 、跟你商量这个思路行不行,不合适咱还可以调整

看看,如果是你的员工,你是不是开心坏了。

能拆解任务,分析特性,并根据待处理的数据,提供大致的解题思路,还能告诉你这么做的思考理由。给了你一步一步操作的方法,还能有商有量,快速调整。

这样的员工,去哪里找!

实操和互动

如果提示词是启动,迈出了第一步。那么,接下来,你的实操以及跟 AI 的互动,则是问题能否实际落地解决的关键。你,就是现实世界和虚拟世界交互过程的关键纽带。

在和AI 商量完你认可的解决思路后。你,就可以按照步骤,执行一步步任务。

先看第一步,提取城市信息。

可以看到,kimi 给了你很多方法供你选择。你逐个使用 kimi 给的公式,在 excel 上尝试,直到能完成提取任务。

眼尖的小伙伴是不是发现了,我截图中,kimi 提供的方法是有问题的。它把“浙江省杭州市西湖区”这个字符串里的“西”当做特殊字符来定位城市信息了。如果待解析的地址是“广州市黄埔区”,excel 公式就会报错。

怎么办?告诉 AI,让它改。

可以看到,kimi 提供了正则表达式和不用正则表达式提取的两种选择。你可以根据你的 excel 版本来灵活选择实现方式。

完成之后,你拿到了大量的识别后的规范城市信息。

就可以到第二步了,找省份。

由于大量的地址里根本不包含省份信息,例如这个地址“佛山市南海区桂城街道季华东路”。甚至有些省份是直辖市,他们的市,就等于省,比如北京市。还有一些省是少数民族自治区,例如广西,不叫广西省,正确的叫法是广西壮族自治区。怎么办?

统统问 AI。这是我的问法。

kimi 还留着上一个 prompt 的记忆,还以为我在找他要解决方式呢。实际上,我只需要它直接返回省份匹配的结果给我。

也是一样,不要客气,直接让它改。

很好,任务看似完成了。

但是,贴到 excel 的时候又有了个小问题,所有的数据挤在一行,没办法切行存储。

怎么办?再调整。kimi 绝对是任劳任怨的好员工。

直到这一步,这个任务就完成了七七八八了。kimi 给我的表格,是可以直接贴到 excel 里,执行 vlookup 操作的。

讲解到这里,大部分的任务已经完成了。

    细心的小伙伴可能会留意到,这里还有一些问题没有解决的。

这个就需要通过再与 kimi 提问,互动解决了。例如,这个地址本来就连城市信息都没有的话,那没办法。只能筛选出来,一批批问kimi 了。

在没有用 api 接口调用服务的情况下,这类操作不是很推荐,只能是一次性操作。下次再遇到类似任务,还得再手动执行,问一次 kimi 。

看一百次不如自己手动操作一次。好了,小伙伴们探索去吧。kimi 免费哦。

感悟时间

    现实物理世界和虚拟世界(AI)之间还有巨大的鸿沟。AI所提供的解决方案,你是没办法直接套用到现实世界中的。这条沟需要人去填!

    对于未来的儿童教育,更需要极速拓宽视野。在某一个专业领域深扎,思考、内化吸收、转化、表达、整合、归纳能力。当然,还需要有一具健康的体魄,才能去好好享用这个世界。

总结

### 文章总结
**主题**:AI在数据分析中的辅助作用及人的重要性
**核心观点**:
1. **AI的局限性**:AI在直接上手完成数据分析任务时存在局限性,因为它缺乏对公司系统、数据库结构和业务逻辑等认知框架的了解。
2. **人的核心作用**:人类在AI辅助下的作用是不可替代的,其核心在于快速获取框架、快速提炼和总结输出的能力。
3. **AI作为超级辅助**:虽然AI无法直接取代人类完成复杂任务,但它可以成为超级助手,辅助人类解决数据清洗、分析等难题。
**实际案例**:
- **任务**:处理一批不规范的地址数据,提取规范的省份和城市信息。
- **挑战**:地址格式多样、省份信息不明确、存在特殊区域标识和非地址信息。
- **AI的应用**:利用大模型kimi进行数据特征和解决思路的分析,逐步提供可操作的执行步骤。
- **人与AI的互动**:
- 通过提示词和AI沟通,选择合适的解决方法。
- 在执行过程中发现并修正AI的错误。
- 不断调整和优化解决方案,确保数据清洗的准确性。
- **结果**:完成任务并生成可直接用于Excel操作的表格数据。
**感悟**:
1. **鸿沟填补**:现实物理世界与虚拟世界(AI)之间存在鸿沟,需要人来填补这一鸿沟,以实现AI解决方案的落地应用。
2. **综合能力培养**:对于未来的教育和人才培养,应注重拓宽视野、提升思考、内化吸收、转化、表达、整合和归纳等多方面的综合能力。
3. **健康体魄**:健康的体魄是有效利用智慧和能力、享受世界的基础。
**结论**:在AI辅助的数据分析领域,人的核心作用是不可或缺的,而AI则成为了一种强大的工具和助手。通过有效的互动和合作,人类可以充分发挥AI的优势,解决复杂的数据分析问题。

更新时间 2024-08-03