PythonPandas中的数据聚合神器：agg方法

英勇投弹手 · 发表于 2024-9-5 00:17:01

更多Python学习内容：ipengtao.comPandas是Python中用于数据处理和分析的强大库，它提供了各种功能来处理和转换数据。在Pandas中，有时需要对数据进行聚合操作，以便分析和摘要数据。agg方法是Pandas中的一个强大工具，可以帮助进行各种数据聚合操作。本文将详细介绍Pandas中的agg方法，包括如何使用它以及如何处理不同类型的数据聚合。什么是数据聚合？在数据分析和处理中，数据聚合是将多个数据合并、计算或摘要为单个结果的过程。这个结果通常包括统计信息，如平均值、总和、最大值、最小值等，以便更好地理解和分析数据。Pandas提供了多种数据聚合方法，其中之一就是agg方法。Pandas中的agg方法agg是Pandas中的一个方法，用于在数据帧（DataFrame）或系列（Series）上执行多个聚合操作。它可以接受一个或多个聚合函数，并将它们应用于指定的列或索引，生成一个包含聚合结果的新数据帧或系列。agg方法的一般语法如下：DataFrame.agg(func, axis=0, *args, **kwargs)其中：func：一个或多个聚合函数，可以是函数、字符串或函数列表。axis：指定应用聚合函数的轴，0表示列，1表示行。默认值是0。*args和**kwargs：可选参数，用于传递给聚合函数的额外参数。基本的数据聚合首先，看看如何使用agg方法执行一些基本的数据聚合操作。将使用一个示例数据帧来演示这些操作：import pandas as pddata = { 'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 60000, 75000, 80000, 90000]}df = pd.DataFrame(data)计算均值要计算某一列的均值，可以使用agg方法并传递'mean'作为聚合函数：mean_salary = df['Salary'].agg('mean')print(mean_salary)这将输出69000.0，即薪水列的均值。计算多个聚合值还可以使用agg方法一次计算多个聚合值，例如均值、总和和最大值：aggregations = { 'Age': 'mean', 'Salary': ['sum', 'max']}result = df.agg(aggregations)print(result)这将输出以下结果：Age 35.0Salary 365000.0dtype: float64这个结果是一个包含多个聚合值的Pandas系列。使用自定义聚合函数除了内置的聚合函数，还可以使用自定义函数来进行数据聚合。例如，可以编写一个函数来计算薪水列中高于某个阈值的人数：def count_above_threshold(salary_series, threshold): return (salary_series > threshold).sum()above_70000 = df['Salary'].agg(count_above_threshold, threshold=70000)print(above_70000)这将输出2，即薪水高于70000的人数。分组数据聚合agg方法也可以与groupby方法一起使用，以便在分组数据上执行聚合操作。首先，创建一个包含更多数据的数据帧：data = { 'Department': ['HR', 'Engineering', 'Engineering', 'HR', 'Finance'], 'Salary': [60000, 70000, 75000, 55000, 80000]}df = pd.DataFrame(data)按部门计算平均薪水要按部门计算平均薪水，可以使用groupby方法分组数据，然后使用agg方法计算平均值：average_salary_by_department = df.groupby('Department').agg({'Salary': 'mean'})print(average_salary_by_department)这将输出以下结果：SalaryDepartment Engineering 72500.0Finance 80000.0HR 57500.0同时计算多个聚合值还可以同时计算多个聚合值，例如平均薪水和最高薪水：aggregations = { 'Salary': ['mean', 'max']}result = df.groupby('Department').agg(aggregations)print(result)这将输出以下结果：Salary mean maxDepartment Engineering 72500 75000Finance 80000 80000HR 57500 60000使用自定义聚合函数可以编写自定义的聚合函数，然后将其应用到分组数据上。例如，可以编写一个函数来计算每个部门的薪水中位数：def median_salary(salary_series): return salary_series.median()median_salary_by_department = df.groupby('Department')['Salary'].agg(median_salary)print(median_salary_by_department)这将输出以下结果：DepartmentEngineering 72500.0Finance 80000.0HR 57500.0Name: Salary, dtype: float64处理多个列agg方法也可以处理多个列，同时应用多个聚合函数。例如，可以同时计算年龄和薪水的均值和总和：aggregations = { 'Age': ['mean', 'sum'], 'Salary': ['mean', 'sum']}result = df.groupby('Department').agg(aggregations)print(result)这将输出以下结果：Age Salary mean sum mean sumDepartment Engineering 32.5 65 72500.0 145000Finance 45.0 45 80000.0 80000HR 40.0 80 57500.0 115000处理不同类型的数据聚合有时，可能需要在同一个数据帧中应用不同类型的聚合函数，这取决于不同列的数据类型。例如，对于字符串列，可能希望计算唯一值的数量，而对于数值列，可能想要计算均值和总和。下面是一个包含不同数据类型的示例数据帧：data = { 'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 60000, 75000, 80000, 90000], 'City': ['New York', 'San Francisco', 'New York', 'Los Angeles', 'Chicago']}df = pd.DataFrame(data)处理不同类型的列要处理不同类型的列，可以为不同的列指定不同的聚合函数。例如，对于字符串列（例如Name和City），可以使用nunique函数来计算唯一值的数量，对于数值列（例如Age和Salary），可以计算均值和总和：aggregations = { 'Name': 'nunique', 'Age': ['mean', 'sum'], 'Salary': ['mean', 'sum'], 'City': 'nunique'}result = df.agg(aggregations)print(result)这将输出以下结果：Name 5Age 35Salary 69000City 4dtype: int64在这个示例中，为不同类型的列选择了不同的聚合函数，从而获得了不同类型的聚合结果。总结Pandas中的agg方法是一个强大的工具，用于执行各种数据聚合操作。可以使用内置的聚合函数，也可以编写自定义的聚合函数，以满足不同的数据分析需求。通过结合agg方法和groupby方法，可以在分组数据上执行复杂的聚合操作。希望本文对大家在Pandas中使用agg方法进行数据聚合有所帮助。通过掌握这个功能，将能够更轻松地分析和摘要数据，从而更好地理解和解释数据集。如果你觉得文章还不错，请大家点赞、分享、留言下，因为这将是我持续输出更多优质文章的最强动力！如果想要系统学习Python、Python问题咨询，或者考虑做一些工作以外的副业，都可以扫描二维码添加微信，围观朋友圈一起交流学习。偷偷告诉大家一句：加了好友之后，备注优质资料可以额外免费获取一份价值99的《Python学习优质资料》，帮助你更好的学习Python。往期推荐Python基础学习常见的100个问题.pdf（附答案）100个爬虫常见问题，完全版PDF开放下载！学习数据结构与算法，这是我见过最友好的教程！(PDF免费下载)Python办公自动化完全指南(免费PDF)PythonWeb开发常见的100个问题.PDF历时一个月整理的Python爬虫学习手册全集PDF（免费开放下载）

		自动登录	找回密码
密码			会员注册