相关性分析:指对两个或多个具有相关性的变量元素进行分析1.散点图和相关性热力图2.相关系数相关系数最早是由统计学家卡尔皮尔逊设计的统计指标,是研究变量之间线性相关承兑的值,一般用字母r表示。2.1Pearson相关系数Pearson相关系数是衡量两个数据集合是否在一条线上面,用于衡量变量间的线性关系。这里是引用如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:(1)、当相关系数为0时,X和Y两变量无关系。(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。通常情况下通过以下取值范围判断变量的相关强度:相关系数0.8-1.0极强相关0.6-0.8强相关0.4-0.6中等程度相关0.2-0.4弱相关0.0-0.2极弱相关或无相关2.2Spearman相关系数Spearman相关系数适用于不符合正态分布或者总体分布类型未知的数据,Spearman用于描述两个变量之间关联的程度与方向。待补充2.3Kendall等级相关系数Kendall等级相关系数是用于反应分类相关变量的相关指标,适用于两个变量均为有序分类的情况,对相关的有序变量进行非参数性相关检验。待补充3.Python代码讲解3.1数据集日期,蜜汁焗餐包,铁板酸菜豆腐,香煎韭菜饺,香煎罗卜糕,原汁原味菜心2015/1/1,13,18,10,10,272015/1/2,9,19,13,14,132015/1/3,8,7,11,10,92015/1/4,10,9,13,14,132015/1/5,12,17,11,13,142015/1/6,8,12,11,5,92015/1/7,5,10,8,10,72015/1/8,7,6,12,11,52015/1/12,0,5,5,7,102015/1/13,8,6,9,8,92015/1/14,4,8,5,3,102015/1/15,8,15,9,13,92015/1/16,11,14,9,9,152015/1/17,14,16,9,4,142015/1/18,9,8,12,9,152015/1/19,9,10,6,11,112015/1/20,11,8,14,6,132015/1/21,7,1,5,12,82015/1/22,13,13,5,11,112015/1/23,5,8,7,8,112015/1/24,7,9,7,10,92015/1/25,7,14,7,6,82015/1/26,6,9,12,7,52015/1/27,12,6,12,9,42015/1/28,8,7,12,10,62015/1/29,7,8,10,10,112015/1/30,7,9,16,10,112015/1/31,8,8,10,10,92015/2/1,6,6,11,6,91234567891011121314151617181920212223242526272829303.2代码讲解3.2.1读取excel文档,Pearson相关系数+热力图importpandasaspdimportmatplotlib.pyplotaspltimportseabornassns#读取菜品销售量数据filepath='C:/Users/14210/Desktop/机器学习代码/data/cor.xlsx'cor=pd.read_excel(filepath)#计算相关系数矩阵,包含了任意两个菜品间的相关系数print('5种菜品销售量的相关系数矩阵为:\n',cor.corr())#绘制相关性热力图plt.subplots(figsize=(8,8))#设置画面大小plt.rcParams['font.sans-serif']=['SimHei']#用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False#用来正常显示负号sns.heatmap(cor.corr(),annot=True,vmax=1,square=True,cmap="Blues")plt.title('相关性热力图')plt.show()123456789101112131415161718193.2.2结果图3.2.3读取csv文档,Pearson相关系数+热力图#读取csv文件importpandasaspdimportseabornassnsimportmatplotlib.pyplotaspltfilepath='C:/Users/14210/Desktop/机器学习代码/data/cor.csv'data=pd.read_csv(filepath)df=pd.DataFrame(data)#计算出相关系数并输出,这里选择的是皮尔逊相关系数cor=data.corr(method='pearson')print(cor)#输出相关系数rc={'font.sans-serif':'SimHei','axes.unicode_minus':False}sns.set(font_scale=0.7,rc=rc)#设置字体大小sns.heatmap(cor,annot=True,#显示相关系数的数据center=0.5,#居中fmt='.2f',#只显示两位小数linewidth=0.5,#设置每个单元格的距离linecolor='blue',#设置间距线的颜色vmin=0,vmax=1,#设置数值最小值和最大值xticklabels=True,yticklabels=True,#显示x轴和y轴square=True,#每个方格都是正方形cbar=True,#绘制颜色条cmap='coolwarm_r',#设置热力图颜色)plt.savefig("我是相关热力图.png",dpi=600)#保存图片,分辨率为600plt.ion()#显示图片1234567891011121314151617181920212223242526272829303132333.2.4结果图4.结果分析根据热力图可以看出,原汁原味菜心与铁板酸菜豆腐、蜜汁煸餐包这两种菜品的相关性较强,说明大部分客户对这3种菜品的偏好程度相当。
|