云器Lakehouse ：轻松加载并深度分析2024巴黎奥运会数据

在云器Lakehouse上玩Kaggle数据之Paris Olympics 2024 Games Dataset

数据见闻

2024年10月8日

2024年巴黎奥运会作为第33届夏季奥林匹克运动会，不仅在体育竞技层面吸引了全球的目光，而且在数据分析方面也呈现出许多有趣和值得关注的话题。

2024年巴黎奥运会作为第33届夏季奥林匹克运动会，不仅在体育竞技层面吸引了全球的目光，而且在数据分析方面也呈现出许多有趣和值得关注的话题。在Kaggle上，也找到了本届奥运会的完整数据集。

Kaggle数据集地址：https://www.kaggle.com/datasets/sajkazmi/paris-olympics-2024-games-dataset-updated-daily 。记得给SYED SAJEEL HAIDER在kaggle点个upvote，据说这样Kaggle就可以给他发个金牌！

该数据集包含的有关 2024 年巴黎夏季奥运会的所有内容，在11个csv文件里包括了场地、团队、赛程、奖牌、奖牌获得者、赛事、团队、运动员、教练等方面的数据。

其中results目录里包含了45个项目的结果数据。

❓问题引入：如何以懒人的方式把这些数据加载进云器Lakehouse进行分析呢？去看看这里会有哪些有趣的数据发现？

懒人的方式：不想写建表的DDL语句，何况是要写12个表的DDL语句。那么能想到的最简单的办法是什么？

不想动手，那就要动动脑了。回顾一下，在玩US Funds dataset from Yahoo Finance数据的时候，用过的两种方式都是要写好建表DDL语句的。必须要想到新的办法，那就是用云器Zettapark来完成这个懒人任务。

✅Zettapark 是用于处理云器Lakehouse 数据的 Python 库。它提供了一个高级的 Python API，用于在云器Lakehouse 中执行 SQL 查询、操作数据和处理结果。Zettapark 使得在 Python 中使用云器Lakehouse 变得更加简单和高效。你可以使用 Zettapark 执行 SQL 查询、操作数据和处理结果，就像在 Python 中使用 pandas 一样。

下载数据到本地

从Kaggle数据集地址：https://www.kaggle.com/datasets/sajkazmi/paris-olympics-2024-games-dataset-updated-daily下载数据到本地，放在data目录下。

安装云器Zettapark

创建Zettapark会话

使用Zettapark的第一步是与ClickZetta Lakehouse建立会话。

懒人捷径：通过Zettapark的save_as_table方法一步实现目标表结构创建和数据导入

检查csv文件，进行分类处理，其中需要将results目录下的各类比赛项目的数据进行并表，增加一列sport用来代表比赛项目，就用文件名前缀即可。

代码如下：

在云器Lakehouse里查看zettapark save_as_table的结果

可以看到，刚才下载下来的csv文件里的数据，通过云器zettapark的save_as_table已经全部写进云器Lakehouse的表里了。这避免了要手写12张目标表的的DDL语句，大幅成就了懒人，并且效率极高，特别适合在大数据平台上玩小数据，省去了文件（比如csv文件）很多的情况下，文件数据进入云器Lakehouse的麻烦。

通过DataGPT分析数据

基于2024巴黎奥运会的数据集，我们可以进行多种有趣的分析，比如：

奖牌统计： 分析各国获得的金牌、银牌和铜牌数量，以及总奖牌数，从而了解各国在奥运会上的表现。
运动员表现： 研究不同运动员的成绩，包括他们的个人最好成绩、在本届奥运会上的表现以及与其他运动员的比较。
项目分析： 分析哪些项目最受欢迎或产生了最多的奖牌，以及哪些项目的竞争最为激烈。
时间趋势： 如果数据集包含历届奥运会的数据，可以分析奖牌分布随时间的变化趋势。
年龄和性别分布： 分析参赛运动员的年龄和性别分布，了解不同年龄段和性别在不同项目中的表现。

接下来我们就用云器Lakehouse的DataGPT来分析刚才通过zettapark save_as_table加载进来的数据。

参赛运动员的年龄和性别分布

只需要向DataGPT提问“运动员的年龄和性别分布”，DataGPT就会生成如下的回答。从最幼者12岁到最长者70岁，生命不息，运动不止，满屏的奥运精神，此致敬礼！

在美好的青春岁月里做人生值得骄傲的事情，向青春的光彩致敬！

哪些项目最受欢迎或产生了最多的奖牌

只需要向DataGPT提问“哪些项目最受欢迎或产生了最多的奖牌”，DataGPT就会生成如下的回答。你喜欢的项目是哪一个？

每个国家的教练数

东道主就是东道主，教练数上是杠杠的Top1！

每天奖牌数

原来接近尾声的8月10日是产生奖牌数最多的一天，看来刚开始少点也不用着急哦！

总结

在云器Lakehouse上玩数据，总觉得数据是非大不可，否则就是杀鸡焉用宰牛刀了。本文尝试了Kagge上2024巴黎奥运会小数据集的场景，本方案省去了小数据集里对多个文件创建目标表建表的繁琐任务，从而大幅扫清了数据工程方面的麻烦事。通过DataGPT直接以问答的方式分析数据，从而可以使得更多非技术人员玩转数据，喜欢上数据分析，帮助企业数据文化走向大众化。

你还有哪些感兴趣的数据问题？快来用云器Lakehouse耍起来吧！

更多热门文章

云器科技宣布完成数亿元融资，打造多云及一体化数据平台

从 Hadoop 到 Snowflake，2023年数据平台路在何方？

生成式AI搭台，Data+Analytics唱戏 - Snowflake、Databricks 2023年度大会前瞻

改变数据的使用方式，云器科技要用新一代数据平台帮助客户“事半功倍”

对话贾扬清、关涛、张伯翰：AI 平民化趋势下，数据架构将被彻底颠覆？

云器Lakehouse现已开放注册

欢迎申请体验，每个账号开通会获赠一定金额的代金券，助您快速试用体验。如需更多代金券额度，请您联系商务获取。

快速注册