Pearson相关性分析(Pearson Correlation Analysis)——jamovi软件实现

发布于 2022年6月26日 星期日 15:52:14 浏览:3713
原创不易,转载请注明来源,感谢!
附件下载:
Pearson相关性分析.csv 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了Pearson相关性分析(Pearson Correlation Analysis)的假设检验理论,本篇文章将实例演示在jamovi软件中实现Pearson相关性分析的操作步骤。

关键词:jamovi; 相关分析; Pearson相关分析; 连续变量相关分析; Pearson相关系数

一、案例介绍

某研究者研究健康成年人的体重和双肾脏总体积(ml)的关系,测得24名健康成年人的体重wt (kg)与双肾脏总体积volume (ml),拟探讨健康成年人的体重与双肾体积是否有关。对数据的变量进行标签赋值后部分数据见图1。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是分析两个连续变量之间的相关性,可以使用Pearson相关分析。但需要满足5个条件:

条件1:两个变量均为连续变量。本研究中的成人体重和双肾总体积均为连续变量,该条件满足。

条件2:两个连续变量应当是配对的,即来源于同一个个体。本研究中同时检测了研究对象的体重和双肾总体积,变量之间是对应关系,该条件满足。

条件3:两个连续变量之间存在线性关系,该条件需要通过软件分析后判断。

条件4:两个变量都不存在明显的异常值,该条件需要通过软件分析后判断。

条件5:两个变量呈双变量正态分布或近似正态分布,该条件需要通过软件分析后判断。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件3判断(线性关系分析)

(1) 软件操作

选择“分析”—“探索”—“散点图”,将变量“体重”选入“X轴”框,将变量“双肾体积”选入“Y轴”框,在“回归线”中勾选“线性”和“标准误”(图2),结果如图3所示。

图2
图3
(2) 结果解读

由图3结果可见,散点大致呈一条直线,说明存在线性关系。该条件满足。

2. 条件4判断(异常值判断)

(1) 软件操作

① 选择“分析”—“探索”—“描述”,将观察变量“体重”、“双肾体积”选入右侧“变量”框(图4)。

图4

② 在“统计”下的“样本量”中勾选“个案数”、“缺失”,在“集中趋势”中勾选“均值”、“中位数”,在“离散”中勾选“标准差”、“最小值”和“最大值”(图5),结果如表1所示。

图5
表1

③ 在“绘图”下的“箱线图”中勾选“箱线图”和“数据”,“数据”下拉菜单中选择“散点”(图6),如图7-1—图7-2所示。

图6
图7-1
图7-2
(2) 结果解读

表1“描述”表格中,列出了观察变量的最小值和最大值,依据专业可判断体重可能存在38 kg和85 kg,双肾总体积可能存在213 ml和348 ml的情况;此外,图7-1—图7-2中的箱线图也未提示任何异常值。综上,本案例未发现需要删除的异常值,满足条件4。

3. 条件5判断(正态性检验)

(1) 软件操作

Pearson相关分析要求变量呈双变量正态分布,而并非简单的要求两个自变量各自服从正态分布。有实验模拟显示,采用Shapiro-Wilk检验同时考察双变量正态分布和两变量分别的正态分布,在重复1万次服从两变量正态分布的实验中若以P=0.1为界值时,约有11%的实验不服从双变量正态分布;若以P=0.05为界值时,约有6%的实验不服从双变量正态分布。由于在jamovi软件中,尚无考察双变量正态分布的程序,且该条件比较宽松,因此可以考察两个自变量各自的正态分布情况代替分析双变量正态分布。

① 在“描述”模块中,在“绘图”下的“Q-Q图”中勾选“Q-Q”(图8),结果如图9-1—图9-2所示。

图8
图9-1
图9-2

② 在“统计”中勾选“Shapiro-Wilk检验”(图10),结果如表2所示。

图10
表2
(2) 结果解读

图9-1、图9-2和表2分别按照组别列出了两个变量的分析结果。图9-1、图9-2的Q-Q图上变量散点基本围绕对角线分布,提示两个变量服从正态分布;表2的正态性检验结果显示两变量的P值分别为0.953和0.312,均>0.1,也提示两变量服从正态分布。综上,本案例满足条件5。

(二) 统计描述及推断

1. 软件操作

选择“分析”—“回归”—“相关矩阵”将变量“体重”和“双肾体积”均选入右框,在“相关系数”中勾选“Pearson系数”,“假设检验”中勾选“相关”,“附加选项”中勾选“报告p值”,“标记有统计学意义的相关”、“个案数”、“置信区间”(图11),结果如表3所示。

图11
表3

2. 结果解读

(1) 统计描述

从表1的“描述”表格可知,健康成年人的体重为(59.833±14.388) kg,双肾总体积(269.782±39.287) ml。

(2) 统计学推断

表3的“相关矩阵”分析结果显示,两组Pearson相关系数r =0.947 (95%CI:0.879~0.977),P<0.001。可知本研究样本人群的双肾总体积与体重之间存在较强线性相关性。

四、结论

本研究采用Pearson相关分析判断健康成人的双肾总体积与体重是否有关。通过绘制散点图显示两变量之间存在正向线性关系;通过箱线图及专业知识判断,数据不存在需要删除的异常值;通过Q-Q图和Shapiro-Wilk检验,提示数据服从正态分布。

描述性分析结果显示,健康成年人的体重为(59.833±14.388) kg,双肾总体积为(269.782±39.287) ml。Pearson相关分析显示,健康成人的双肾总体积与体重之间的Pearson相关系数r =0.947 (95%CI:0.879~0.977),P<0.001。综上,可知本研究样本人群的双肾总体积与体重之间存在较强正向线性相关。

五、知识小贴士

  • Pearson相关分析要求两个变量之间存在线性关系。要确定是否存在线性关系,研究者需要查看两个变量的散点图,如果散点图大致呈一条直线,说明有线性关系,如果不是一条直线则没有线性关系。常见散点图提示的相关类型如图12所示。
图12
  • Pearson相关系数,是表示两个随机变量之间线性相关程度和方向的统计量,即r>0,为正相关;r=0为零相关。r的绝对值大小则表示两变量之间线性相关的密切程度,|r|越接近1,说明关联程度高,|r|越接近于0,说明关联程度越低。
  • 关于相关系数强弱的判断标准,对于不同专业存在稍微的差异,使用时需要结合专业背景综合决定。此外,Pearson相关系数多用于进行多重线性回归分析前的探索性分析,此时对于相关系数r的判断分级并不是很重要。

六、分析小技巧

  • 如果发现存在异常值,首先要考虑数据是否存在录入错误。如果存在,应修改为正确值。错误数值修订后,需要重新再做散点图,因为修订数值后,可能仍是异常值或者其他的观测值成为了异常值。如果不是录入错误,可以考虑是否为测量误差,如果存在,通常需剔除这些观测值,或将异常值替换为测量范围的上限值(研究者确认异常值超出仪器测量范围并且知道测量错误的方向)。如果异常值不是由于录入或者测量错误导致,这些异常值可能代表了真实的数据情况,尽管这些数据并不符合统计预期,但也没有理由删除,对这种情况的处理方法目前还没有统一标准。研究者可以根据实际情况选择合适的方法,也可以咨询相关专业人员
End
文章目录 沉浸式阅读