一、2022高考全国甲卷理科数学第20题
(一) 题目
一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 | 良好 | |
病例组 | 40 | 60 |
对照组 | 10 | 90 |
(1) 能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2) 从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,\(\frac{P(B \mid A)}{P(\bar{B} \mid A)}\) 与 \(\frac{P(B \mid \bar{A})}{P(\bar{B} \mid \bar{A})}\) 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R。
(i) 证明:\(R=\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}\);
(ii) 利用该调查数据,给出\(P(A \mid B)\),\(P(A \mid \bar{B})\)的估计值,并利用(i)的结果给出R的估计值。
附:\(K^{2}=\frac{n(a d-b c)^{2}}{(a+b)(c+d)(a+c)(b+d)}\),\(\begin{array}{c|lll}P\left(K^{2} \geqslant k\right) & 0.050 & 0.010 & 0.001 \\\hline k & 3.841 & 6.635 & 10.828\end{array}\)
(二) 解析
这道题目是临床研究或公共卫生研究中非常常见的一种类型——病例对照研究,本题考察的是卡方检验和比值比(OR值)的计算。
题目中病例组是“患地方病的代表性人群”,对照组是“不患地方病的代表性人群”,而暴露因素是“生活习惯”。医学研究中通常整理为如下的四格表。
暴露因素 | 病例组(事件B发生) | 对照组(事件B未发生) | 合计 |
卫生习惯不够良好 (事件A发生) | 40 | 10 | 50 |
卫生习惯良好 (事件A未发生) | 60 | 90 | 150 |
合计 | 100 | 100 | 200 |
病例对照研究中,暴露风险比值比(odds ratio,OR)是指病例组的暴露风险比值\(\left(\frac{a}{a+c} / \frac{c}{a+c}\right)\)和对照组的暴露风险比值\(\left(\frac{b}{b+d} / \frac{d}{b+d}\right)\)之比,即:\(OR=\left(\frac{a}{a+c} / \frac{c}{a+c}\right) /\left(\frac{b}{b+d} / \frac{d}{b+d}\right)=\frac{a d}{b c}\)
题(1)解析:
此题本质是卡方检验,附件中K2的公式是四格表卡方值(\(\chi^{2}\)值)的计算公式。详见四格表资料的\(\chi^{2}\)检验(\(\chi^{2}\) Test)——理论介绍。
具体计算如下:
n=100+100=200
\(K^{2}=\frac{n(a d-b c)^{2}}{(a+b)(c+d)(a+c)(b+d)}\)
\(=\frac{200 \times(40 \times 90-60 \times 10)}{100 \times 100 \times 50 \times 150}\)
\(=24>10.828\)(根据题中附表)
故:有99.9% (当然也有超过99%)的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异。
注:从卫生/医学统计学的专业角度来讲,此处的“把握”一词不太适宜,易与专业词汇“把握度”混淆。因此,此处若按照统计推断下结论,可为:在α=0.001水平上拒绝零假设(病例组和对照组的卫生良好率相等),可认为病例组与对照组的卫生良好率的差异有统计学意义(P<0.001)
题(2)解析:
(i)解析:证明R的推导过程
\(\frac{P(B \mid A)}{P(\bar{B} \mid A)} \div \frac{P(B \mid \bar{A})}{P(\bar{B} \mid \bar{A})}=\frac{P(B \mid A)}{P(\bar{B} \mid A)} \cdot \frac{P(\bar{B} \mid \bar{A})}{P(B \mid \bar{A})}\)\(=\frac{\frac{P(A B)}{P(A)}}{\frac{P(A \bar{B})}{P(A)}} \cdot \frac{\frac{P(\bar{A} \bar{B})}{P(\bar{A})}}{\frac{P(\bar{A} B)}{P(\bar{A})}}=\frac{P(A B) P(\bar{A} \bar{B})}{P(A \bar{B}) P(\bar{A} B)}\)
\(\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}=\frac{\frac{P(A B)}{P(B)}}{\frac{P(\bar{A} B)}{P(B)}} \cdot \frac{\frac{P(\bar{A} \bar{B})}{P(\bar{B})}}{\frac{P(A \bar{B})}{P(\bar{B})}}\)\(=\frac{P(A B) P(\bar{A} \bar{B})}{P(\bar{A} B) P(A \bar{B})}\)
故:\(R=\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}\)
(ii)解析:计算R
\(P(A \mid B)=\frac{P(A B)}{P(B)}=\frac{40}{100}=\frac{2}{5}\);
\(P(\bar{A} \mid B)=\frac{P(\bar{A} B)}{P(B)}=\frac{3}{5}\);
\(P(\bar{A} \mid \bar{B})=\frac{P(\bar{A} \bar{B})}{P(\bar{B})}=\frac{90}{100}=\frac{9}{10}\);
\(P(A \mid \bar{B})=\frac{P(A \bar{B})}{P(\bar{B})}=\frac{1}{10}\) \(R=\frac{P(A \mid B)}{P(\bar{A} \mid B)} \cdot \frac{P(\bar{A} \mid \bar{B})}{P(A \mid \bar{B})}=\frac{\frac{2}{5} \times \frac{9}{10}}{\frac{3}{5} \times \frac{1}{10}}=6\)但这道题的难度在于,题干中虽然给了K2(即\(\chi^{2}\)值)的公式,但是并未交代a、b、c、d、n的具体含义,或者对应的表格中的哪个格子的数字,对于并未学过病例对照研究设计的高中生来说是否能判断a、b、c、d、n是个啥?流行病学、统计学、概率论放在高考数学卷中,或许有点太难了!
二、2022高考全国乙卷理科数学第19题
(一) 题目
某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木总材积量,随机选取了10棵这种树木,测量每棵树的根部面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 总和 |
根部横截面积xi | 0.04 | 0.06 | 0.04 | 0.08 | 0.05 | 0.05 | 0.05 | 0.07 | 0.07 | 0.06 | 0.6 |
材积量yi | 0.25 | 0.40 | 0.22 | 0.54 | 0.51 | 0.34 | 0.36 | 0.46 | 0.42 | 0.40 | 3.9 |
并计算得 \(\sum_{i=1}^{10} x_{i}^{2}=0.038\), \(\sum_{i=1}^{10} y_{i}^{2}=1.6158\), \(\sum_{i=1}^{10} x_{i} y_{i}=0.2474\)
(I) 估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(II) 求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(III) 现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2. 已知树木的材积量与其根部横截面积近似成正比,利用以上数据给出该林区这种树木的总材积量的估计值。
附:相关系数 \(r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)}}\),\(\sqrt{1.896} \approx 1.377\)
(二) 解析
这道题目是Pearson相关性分析的内容,一个变量为根部横截面积xi,另一个变量为材积量yi。
题(I)解析:
即为分别求两组数据(即两个变量)的平均值。
具体计算如下:
该林区这种树木平均一棵根部横截面积为:
\(\bar{x}=\frac{0.6}{10}=0.06 \mathrm{~m}^{2}\)
平均一棵材积量为:
\(\bar{y}=\frac{3.9}{10}=0.39 \mathrm{~m}^{3}\)
题(II)解析:
即为Pearson相关系数的计算,详见Pearson相关性分析(Pearson Correlation Analysis)——理论介绍。
具体计算如下:
\(r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)}}\) \(=\frac{\sum_{i=1}^{n}\left(x_{i} y_{i}-\bar{y} x_{i}-\bar{x} y_{i}+\bar{x} \bar{y}\right)}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-2 \bar{x} x_{i}+\bar{x}^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-2 \bar{y} y_{i}+\bar{y}^{2}\right)}}\) \(=\frac{\sum_{i=1}^{n}\left(x_{i} y_{i}\right)-\sum_{i=1}^{n}\left(\bar{y} x_{i}-\bar{x} \bar{y}+\bar{x} y_{i}\right)}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-\bar{x}\left(2 x_{i}-\bar{x}\right)\right)\left(\sum_{i=1}^{n} y_{i}^{2}-\bar{y}\left(y_{i}-\bar{y}\right)\right)}}\) \(=\frac{\sum_{i=1}^{n}\left(x_{i} y_{i}\right)-\bar{y} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)-\sum_{i=1}^{n}\left(\bar{x} y_{i}\right)}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-\bar{x}\left(2 x_{i}-\bar{x}\right)\right)\left(\sum_{i=1}^{n} y_{i}^{2}-\bar{y}\left(y_{i}-\bar{y}\right)\right)}}\) \(=\frac{\sum_{i=1}^{n} x_{i} y_{i}-\frac{1}{n}\left(\sum_{i=1}^{n} x_{i}\right)\left(\sum_{i=1}^{n} y_{i}\right)}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n} x_{i}\right)^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n} y_{i}\right)^{2}\right)}}\) \(=\frac{\sum_{i=1}^{n} x_{i} y_{i}-n \bar{x} \bar{y}}{\sqrt{\left(\sum_{i=1}^{n} x_{i}^{2}-n(\bar{x})^{2}\right)\left(\sum_{i=1}^{n} y_{i}^{2}-n(\bar{y})^{2}\right)}}\) \(=\frac{0.2474-10 \times 0.06 \times 0.39}{\sqrt{\left(0.038-10 \times 0.06^{2}\right) \times\left(1.6158-10 \times 0.39^{2}\right)}}\) \(=\frac{0.2474-0.234}{\sqrt{0.002 \times 0.0948}}\) \(=\frac{0.0134}{\sqrt{1.896 \times 10^{-4}}}\) \(\approx \frac{1.34}{1.377}\) \(\approx {0.97}\)题(III)解析:
即根据两变量的比值,已知变量xi,求变量yi
具体计算如下:
已知树木的材积量与其根部横截面积近似成正比,可设比值为k
则:\(k=\frac{\bar{y}}{x}=\frac{0.39}{0.06}=6.5\)
当根部横截面积总和为186 m2,总材积量的估计值为
\(\hat{y}=k \times 186=6.5 \times 186=1209 \mathrm{~m}^{3}\)这道题的难度在于相关系数的计算过程中公式推导较为费时。
总之,今年的高考数学卷就这两道流统相关的题目来说,还是具有较高难度!
最后祝愿所有考生取得优异成绩,金榜题名!希望将来有更多考生致力于医学事业的发展!