十个 Python 技巧，满足大部分数据分析需求

数据分析师日常工作会涉及各种任务，比如数据预处理、数据分析、机器学习模型创建、模型部署。

在本文中，我将分享10个 Python 操作，它们可覆盖90%的数据分析问题。

1、阅读数据集

阅读数据是数据分析的组成部分，了解如何从不同的文件格式读取数据是数据分析师的第一步。下面是如何使用 pandas 读取包含 COVid-19 数据的 csv 文件的示例。

以下是 countRies_df.head() 的输出，我们可以使用它查看数据框的前 5 行：

十个 Python 小技巧，覆盖了90%的数据分析需求！

2、汇总统计

下一步就是通过查看数据汇总来了解数据，例如 NewConfiRMed、TOTAlConfiRMed 等数字列的计数、均值、标准偏差、分位数以及国家代码等分类列的频率、最高出现值

使用 descRibe 函数，我们可以得到数据集连续变量的摘要，如下所示：

十个 Python 小技巧，覆盖了90%的数据分析需求！

在 descRibe() 函数中，我们可以设置参数”include = ”all””来获取连续变量和分类变量的摘要

3、数据选择和过滤

分析其实不需要数据集的所有行和列，只需要选择感兴趣的列并根据问题过滤一些行。

例如，我们可以使用以下代码选择 country 和 NewConfiRMed 列：

我们还可以将数据过滤country，使用 loc，我们可以根据一些值过滤列，如下所示：

十个 Python 小技巧，覆盖了90%的数据分析需求！

4、聚合

计数、总和、均值等数据聚合，是数据分析最常执行的任务之一。

我们可以使用聚合找到各国的 NewConfiMed 病例总数。使用 gRoupby 和 agg 函数执行聚合。

5、Join

使用 Join 操作将 2 个数据集组合成一个数据集。

例如：一个数据集可能包含不同国家/地区的 COVid-19 病例数，另一个数据集可能包含不同国家/地区的纬度和经度信息。

现在我们需要结合这两个信息，那么我们可以执行如下所示的连接操作

6、内建函数

了解数学内建函数，如 Min()、Max()、Mean()、suM() 等，对于执行不同的分析非常有帮助。

7、用户自定义函数

我们自己编写的函数是用户自定义函数。我们可以在需要时通过调用该函数来执行这些函数中的代码。例如，我们可以创建一个函数来添加 2 个数字，如下所示：

8、Pivot

Pivot 是将一列行内的唯一值转换为多个新列，这是很棒的数据处理技术。

在 COVid-19 数据集上使用 pivot_table() 函数，我们可以将国家名称转换为单独的新列：

9、遍历数据框

很多时候需要遍历数据框的索引和行，我们可以使用 ITeRRows 函数遍历数据框：

10、字符串操作

很多时候我们处理数据集中的字符串列，在这种情况下，了解一些基本的字符串操作很重要。

# country coluMn to uppeR case
# country coluMn to loweR case
# Finding length of chaRacteRs in the country coluMn

互联网技术 / 互联网资讯 · 2024年3月25日