|
基本原理在Python的Pandas库中,DataFrame是一个强大的数据结构,用于处理表格数据。Pandas提供了多种方法来筛选DataFrame中的数据,其中使用in和notin是模仿SQL查询中IN和NOTIN操作的一种方式。在SQL中,IN用于筛选出在某个列表中的值,而NOTIN则用于筛选出不在列表中的值。在Pandas中,我们可以通过布尔索引来实现类似的功能。代码示例示例1:使用in进行筛选假设我们有一个DataFramedf,包含了员工的姓名和部门信息,我们想要筛选出部门为"IT"或"HR"的员工。importpandasaspd#创建示例DataFramedata={'Name':['Alice','Bob','Charlie','David','Eve'],'Department':['IT','HR','Finance','IT','HR']}df=pd.DataFrame(data)#使用in筛选特定部门departments=['IT','HR']filtered_df=df[df['Department'].isin(departments)]print(filtered_df)12345678910111213'运行运行示例2:使用notin进行筛选如果我们想要筛选出除了"IT"和"HR"部门之外的所有员工,可以使用notin。#使用notin筛选非特定部门filtered_df_not_in=df[~df['Department'].isin(departments)]print(filtered_df_not_in)123示例3:使用in和notin结合条件有时候,我们可能需要同时使用in和notin来满足更复杂的筛选条件。#同时使用in和notin进行筛选filtered_df_complex=df[(df['Department'].isin(departments))&(~df['Name'].isin(['Alice','Bob']))]print(filtered_df_complex)123注意事项isin()函数对于大数据集可能会比较慢,因为它需要对每个元素进行检查。使用isin()时,传入的列表应该是可哈希的,例如列表、元组或集合。确保在布尔索引中使用括号来正确地应用逻辑运算符,如&(和)、|(或)和~(非)。结论通过上述示例,我们可以看到Pandas中的in和notin操作可以有效地模仿SQL中的IN和NOTIN查询。使用布尔索引,我们可以灵活地对DataFrame进行各种复杂的筛选操作。掌握这些技巧,可以帮助我们更加高效地处理和分析数据。![](https://img-blog.csdnimg.cn/direct/08a02446429a4a85bb9963d696b9f5bd.png)>>【痕迹】QQ+微信朋友圈和聊天记录分析工具1.0.4(1)纯Python语言实现,使用Flask后端,本地分析,不上传个人数据。>>(2)内含QQ、微信聊天记录保存到本地的方法,真正实现自己数据自己管理。>>(3)数据可视化分析QQ、微信聊天记录,提取某一天的聊天记录与大模型对话。>>**下载地址:https://www.alipan.com/s/x6fqXe1jVg1**>12345678910
|
|