关键词:泊松分布; Poisson分布; 等离散
一、基本概念
若某事件的发生是完全随机的,则在单位时间(或空间)事件发生0次、1次、2次、…、X次相应的概率为:
则称该事件的发生服从参数为 𝜆 的Poisson分布,𝜆 是其唯一参数,为Poisson分布的均数(𝜆>0),式中e =2.71828为自然对数的底,是常数,X是事件发生次数,P(X)为事件发生次数为X时的概率。
二、适用条件
考察一个变量X是否服从Poisson分布,需要满足以下条件:
条件1:在充分小的观察单位上X的取值最多为1,事件出现两次或两次以上的概率可忽略不计。
条件2:一个事件的发生不影响其它事件的发生,即事件独立发生,不存在传染性、聚集性的事件。
条件3:每一次事件的发生概率是相同的。
三、性质
(1) 总体均数 𝜆 =总体方差σ2。
(2) 二项分布在发生概率很小,样本含量(试验次数) n趋向无穷大时,近似于Poisson分布。一般,当n≥20,P≤0.05时,二项分布近似于Poisson分布。
(3)𝜆 ≥20时,Poisson分布近似正态分布。
(4) Poisson分布具有可加性:若随机变量X1,X2,X3,…,Xn服从Poisson分布,且相互独立,那它们的和也服从Poisson分布。可以利用Poisson分布的可加性,将小单位相加然后用正态近似法处理。
四、累积概率的计算
若随机变量X服从Poisson分布,则单位时间(或空间)内发生的次数最多为m次的概率为:
若随机变量X服从Poisson分布,则单位时间(或空间)内时间发生的次数最少为m次的概率为:
五、参数估计与假设检验
(一) 总体均数的区间估计
总体均数的1-α (α一般取0.05或0.01)置信区间估计方法有两种:
第一种为查表法,即当样本计数X≤50时,可以直接查Poisson分布置信区间表,即可得到总体均数的置信区间。
第二种为正态近似法,即当样本计数X>50时,Poisson分布可按照正态分布处理,其计算公式为:
当样本含量较大时,在零假设下得到的G统计量近似服从自由度为d (d=p-l)的χ2分布。p和l分别为前后两个模型包含的自变量个数。
(二) 样本均数与总体均数的比较
对于Poisson分布而言,进行样本均数和总体均数的比较有两种方法:
第一种为直接法:当总体均数 𝜆<20时,可通过直接计算概率的方式对样本均数与已知总体均数间进行有无统计学差异的比较。
第二种为正态近似法,即当总体均数𝜆 ≥20时,可用正态分布进行处理,检验统计量u的计算公式为
(三) 两个样本均数的比较
对服从Poisson分布的样本,其样本计数可看作样本均数。假设两个样本计数分别为X1和X2,可利用正态近似法进行比较。
1. 两样本的观察单位数相等,即n1=n2
当X1+X2≥20时,
当5<X1+X2<20时,
2. 两个样本的观察单位数不相等,即n1≠n2
当X1+X2≥20时,
当5<X1+X2<20时,
六、案例分析
(一) 案例一
根据流行病学研究,一般人群中某病的患病率为2‰,某临床医师对当地30000名抽烟人群进行了调查,其中患该病人数为76人,问抽烟人群患病率是否高于一般人群?
本例中可认为人群中该罕见病的发生人数服从Poisson分布,𝜆 =30000×2‰=60≥20,可按正态近似法计算。
1. 建立假设检验,确定检验水准
H0:π=0.0002
H1:π>0.0002
α=0.05
2. 计算统计量
3. 确定P值,作出推断结论
查(u界值表)得单侧0.01<P<0.02,按α=0.05水准,拒绝H0,接受H1,可以认为抽烟人群患病率高于一般人群。
(二) 案例二
某市发生了饮用水污染事件,为了解水质污染情况,当地疾病预防控制中心采集了甲、乙两个点的1 ml末梢水样进行细菌培养,分别培养出菌落总数430个和300个,请问甲、乙两个地点的污染情况是否相同?
本例水样中的菌落总数服从Poisson分布,两个水样均为1ml,观察单位相等。两样本计数分别为X1=430和X2=300,X1+X2=730≥20,按照正态分布处理。
1. 建立假设检验,确定检验水准
H0:𝜆1=𝜆2,即甲、乙两点每毫升末梢水样中菌落总数相等
H1:𝜆1≠𝜆2,即甲、乙两点每毫升末梢水样中菌落总数不相等
α=0.05
2. 计算统计量
3. 确定P值,作出推断结论
查(u界值表)得双侧P<0.002,按α=0.05水准,拒绝H0,接受H1,可以认为甲地点每毫升末梢水样中菌落总数高于乙地点每毫升末梢水样中菌落总数。