论医学统计学对2022年高考数学的重要性?

发布于 2022年6月9日 星期四 20:57:30 浏览:6705
原创不易,转载请注明来源,感谢!

2022年全国高考已经落下帷幕,其中数学试卷给大家的感觉就是一个字——难!但是,在甲卷和乙卷中都出现了流行病与卫生统计学相关的试题。流行病与卫生统计学是公共卫生与预防医学一级学科下的重要的二级学科之一。临床疗效的分析,实验方法的评估,卫生政策的制定(blabla,此处省略一万字)都离不开流行病与卫生统计学分析。总之,两个字,重要!下面我们就一起来详细剖析这两道题,看看难度如何。

一、2022高考全国甲卷理科数学第20题

(一) 题目

一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:

不够良好良好
病例组4060
对照组1090

(1) 能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?

(2) 从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,\(\frac{P(B \mid A)}{P(\bar{B} \mid A)}\) 与 \(\frac{P(B \mid \bar{A})}{P(\bar{B} \mid \bar{A})}\) 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R

(i) 证明:\(R=\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}\);

(ii) 利用该调查数据,给出\(P(A \mid B)\),\(P(A \mid \bar{B})\)的估计值,并利用(i)的结果给出R的估计值。

附:\(K^{2}=\frac{n(a d-b c)^{2}}{(a+b)(c+d)(a+c)(b+d)}\),\(\begin{array}{c|lll}P\left(K^{2} \geqslant k\right) & 0.050 & 0.010 & 0.001 \\\hline k & 3.841 & 6.635 & 10.828\end{array}\)

(二) 解析

这道题目是临床研究或公共卫生研究中非常常见的一种类型——病例对照研究,本题考察的是卡方检验和比值比(OR值)的计算。

题目中病例组是“患地方病的代表性人群”,对照组是“不患地方病的代表性人群”,而暴露因素是“生活习惯”。医学研究中通常整理为如下的四格表。

暴露因素病例组(事件B发生)对照组(事件B未发生)合计
卫生习惯不够良好
(事件A发生)
401050
卫生习惯良好
(事件A未发生)
6090150
合计100100200

病例对照研究中,暴露风险比值比(odds ratio,OR)是指病例组的暴露风险比值\(\left(\frac{a}{a+c} / \frac{c}{a+c}\right)\)和对照组的暴露风险比值\(\left(\frac{b}{b+d} / \frac{d}{b+d}\right)\)之比,即:\(OR=\left(\frac{a}{a+c} / \frac{c}{a+c}\right) /\left(\frac{b}{b+d} / \frac{d}{b+d}\right)=\frac{a d}{b c}\)

题(1)解析:

此题本质是卡方检验,附件中K2的公式是四格表卡方值(\(\chi^{2}\)值)的计算公式。详见四格表资料的\(\chi^{2}\)检验(\(\chi^{2}\) Test)——理论介绍

具体计算如下:

n=100+100=200

\(K^{2}=\frac{n(a d-b c)^{2}}{(a+b)(c+d)(a+c)(b+d)}\)

\(=\frac{200 \times(40 \times 90-60 \times 10)}{100 \times 100 \times 50 \times 150}\)

\(=24>10.828\)(根据题中附表)

故:有99.9% (当然也有超过99%)的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异。

注:从卫生/医学统计学的专业角度来讲,此处的“把握”一词不太适宜,易与专业词汇“把握度”混淆。因此,此处若按照统计推断下结论,可为:在α=0.001水平上拒绝零假设(病例组和对照组的卫生良好率相等),可认为病例组与对照组的卫生良好率的差异有统计学意义(P<0.001)

题(2)解析:

(i)解析:证明R的推导过程

\(\frac{P(B \mid A)}{P(\bar{B} \mid A)} \div \frac{P(B \mid \bar{A})}{P(\bar{B} \mid \bar{A})}=\frac{P(B \mid A)}{P(\bar{B} \mid A)} \cdot \frac{P(\bar{B} \mid \bar{A})}{P(B \mid \bar{A})}\)

\(=\frac{\frac{P(A B)}{P(A)}}{\frac{P(A \bar{B})}{P(A)}} \cdot \frac{\frac{P(\bar{A} \bar{B})}{P(\bar{A})}}{\frac{P(\bar{A} B)}{P(\bar{A})}}=\frac{P(A B) P(\bar{A} \bar{B})}{P(A \bar{B}) P(\bar{A} B)}\)

\(\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}=\frac{\frac{P(A B)}{P(B)}}{\frac{P(\bar{A} B)}{P(B)}} \cdot \frac{\frac{P(\bar{A} \bar{B})}{P(\bar{B})}}{\frac{P(A \bar{B})}{P(\bar{B})}}\)\(=\frac{P(A B) P(\bar{A} \bar{B})}{P(\bar{A} B) P(A \bar{B})}\)

故:\(R=\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}\)

(ii)解析:计算R

\(P(A \mid B)=\frac{P(A B)}{P(B)}=\frac{40}{100}=\frac{2}{5}\);

\(P(\bar{A} \mid B)=\frac{P(\bar{A} B)}{P(B)}=\frac{3}{5}\);

\(P(\bar{A} \mid \bar{B})=\frac{P(\bar{A} \bar{B})}{P(\bar{B})}=\frac{90}{100}=\frac{9}{10}\);

\(P(A \mid \bar{B})=\frac{P(A \bar{B})}{P(\bar{B})}=\frac{1}{10}\)

\(R=\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}=\frac{\frac{2}{5} \times \frac{9}{10}}{\frac{3}{5} \times \frac{1}{10}}=6\)

但这道题的难度在于,题干中虽然给了K2(即\(\chi^{2}\)值)的公式,但是并未交代a、b、c、d、n的具体含义,或者对应的表格中的哪个格子的数字,对于并未学过病例对照研究设计的高中生来说是否能判断a、b、c、d、n是个啥?流行病学、统计学、概率论放在高考数学卷中,或许有点太难了!

二、2022高考全国乙卷理科数学第19题

(一) 题目

某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木总材积量,随机选取了10棵这种树木,测量每棵树的根部面积(单位:m2)和材积量(单位:m3),得到如下数据:

样本号i12345678910总和
根部横截面积xi0.040.060.040.080.050.050.050.070.070.060.6
材积量yi0.250.400.220.540.510.340.360.460.420.403.9

并计算得 \(\sum_{i=1}^{10} x_{i}^{2}=0.038\), \(\sum_{i=1}^{10} y_{i}^{2}=1.6158\), \(\sum_{i=1}^{10} x_{i} y_{i}=0.2474\)

(I) 估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;

(II) 求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);

(III) 现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2. 已知树木的材积量与其根部横截面积近似成正比,利用以上数据给出该林区这种树木的总材积量的估计值。

附:相关系数 \(r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)}}\),\(\sqrt{1.896} \approx 1.377\)

(二) 解析

这道题目是Pearson相关性分析的内容,一个变量为根部横截面积xi,另一个变量为材积量yi

题(I)解析:

即为分别求两组数据(即两个变量)的平均值。

具体计算如下:

该林区这种树木平均一棵根部横截面积为:

\(\bar{x}=\frac{0.6}{10}=0.06 \mathrm{~m}^{2}\)

平均一棵材积量为:

\(\bar{y}=\frac{3.9}{10}=0.39 \mathrm{~m}^{3}\)

题(II)解析:

即为Pearson相关系数的计算,详见Pearson相关性分析(Pearson Correlation Analysis)——理论介绍

具体计算如下:

\(r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)}}\)

\(=\frac{\sum_{i=1}^{n}\left(x_{i} y_{i}-\bar{y} x_{i}-\bar{x} y_{i}+\bar{x} \bar{y}\right)}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-2 \bar{x} x_{i}+\bar{x}^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-2 \bar{y} y_{i}+\bar{y}^{2}\right)}}\)

\(=\frac{\sum_{i=1}^{n}\left(x_{i} y_{i}\right)-\sum_{i=1}^{n}\left(\bar{y} x_{i}-\bar{x} \bar{y}+\bar{x} y_{i}\right)}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-\bar{x}\left(2 x_{i}-\bar{x}\right)\right)\left(\sum_{i=1}^{n} y_{i}^{2}-\bar{y}\left(y_{i}-\bar{y}\right)\right)}}\)

\(=\frac{\sum_{i=1}^{n}\left(x_{i} y_{i}\right)-\bar{y} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)-\sum_{i=1}^{n}\left(\bar{x} y_{i}\right)}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-\bar{x}\left(2 x_{i}-\bar{x}\right)\right)\left(\sum_{i=1}^{n} y_{i}^{2}-\bar{y}\left(y_{i}-\bar{y}\right)\right)}}\)

\(=\frac{\sum_{i=1}^{n} x_{i} y_{i}-\frac{1}{n}\left(\sum_{i=1}^{n} x_{i}\right)\left(\sum_{i=1}^{n} y_{i}\right)}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n} x_{i}\right)^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n} y_{i}\right)^{2}\right)}}\)

\(=\frac{\sum_{i=1}^{n} x_{i} y_{i}-n \bar{x} \bar{y}}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-n(\bar{x})^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-n(\bar{y})^{2}\right)}}\)

\(=\frac{0.2474-10 \times 0.06 \times 0.39}{\sqrt{\left(0.038-10 \times 0.06^{2}\right) \times\left(1.6158-10 \times 0.39^{2}\right)}}\)

\(=\frac{0.2474-0.234}{\sqrt{0.002 \times 0.0948}}\)

\(=\frac{0.0134}{\sqrt{1.896 \times 10^{-4}}}\)

\(\approx \frac{1.34}{1.377}\)

\(\approx {0.97}\)

题(III)解析:

即根据两变量的比值,已知变量xi,求变量yi

具体计算如下:

已知树木的材积量与其根部横截面积近似成正比,可设比值为k

则:\(k=\frac{\bar{y}}{x}=\frac{0.39}{0.06}=6.5\)

当根部横截面积总和为186 m2,总材积量的估计值为

\(\hat{y}=k \times 186=6.5 \times 186=1209 \mathrm{~m}^{3}\)

这道题的难度在于相关系数的计算过程中公式推导较为费时。

总之,今年的高考数学卷就这两道流统相关的题目来说,还是具有较高难度!

最后祝愿所有考生取得优异成绩,金榜题名!希望将来有更多考生致力于医学事业的发展!

End
文章目录 沉浸式阅读