今天给各位分享卡方检验的知识,其中也会对卡方检验进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
2.3,即临界值大于统计量,故差异不显著,接受。
2.应用实例2——独立性检验
卡方独立性检验是用来检验两个属性间是否独立。一个变量作为行,另一个变量作为列。下面一例便是介绍卡方独立性检验的方法。
【例2】某机构欲了解现在性别与收入是否有关,他们随机抽样500人,询问对此的看法,结果分为“有关、无关、不好说,,三种答案,图3中县调查得到的数据。
下面是利用Excel解决此问题的步骤。
(1)零假设:性别与收入无关。
(2)确定自由度为(3-1)×(2-1)=2,选择显著水平α=0.05。
(3)求解男女对收入与性别相关不同看法的期望次数,这里采用所在行列的合计值的乘积除以总计值来计算每一个期望值,如图4所示,在单元格B9中键入“=B5*E3/E5”,同理(第一个等于号理解为在单元格中键入):
B10=“=B5*E4/E5,
C9=“=C5*E3/E5”,
C10=“=C5*E4/E5”,
D9=“=D5*E3/E5”,
D10=“=D5*E4/E5”。
(4)利用卡方统计量计算公式计算统计量,在单元格B15中键入“=(B3-B9)^2/B9”,其余单元格依次类推,结果如图5所示。
(5)利用Excel提供的CHIINV函数计算显著水平为0.05,自由度为2卡方分布的临界值,在Excel单元格中键入“=CHIINV(0.05,2)”按回车键,得临界值为5.9915。
(6)比较统计量度和临界值,统计量14.32483大于临界值5.9915,故拒绝零假设。
3.应用实例3——统一性检验
检验两个或两个以上总体的某一特性分布,也就是各“类别”的比例是否统一或相近,一般称为卡方统一性检验或者卡方同质性检验。下面一例便是利用卡方统一性检验的例子。
【倒3】某咨询公司想了解南京和北京的市民对最低生活保障的满意程度是否相同。他们从南京抽出600居民,北京抽取600居民,每个居民对满意程度(非常满意、满意、不满意、非常不满意)任选一种,且只能选一种。将统计结果键入Excel工作表中,如图6所示。
下面是利用Excel解决此问题的步骤。
(1)零假设:南京和北京居民对最低生活保障满意程度的比例相同。
(2)确定自由度为(4-1)×(2-1)=3,选择显著水平α=0.05。
(3)求解卡方检验的l临界值,在Excel单元格中键入“=CHIINV(0.05,3)”,按回车键得临界值为7.81。
(4)计算北京和南京不同满意程度的期望值,在单元格B11和C11中分别键入“=$B$7*D3/$D$7”和“=$C$7*D3/$D$7”,选中B11:C11,按住C11右下角填充控制点,填充至C14。
(5)计算卡方统计量,在单元格B19中键入“=(B3-B11)^2/B11”,其余单元格依次类推,结果如图7所示。
(6)比较统计量和临界值,统计量1.3875小于临界值7.81,故接受零假设。 大家好,我们在之前阐述过,对于体外诊断产品来说,实际上是由检测系统和临床治疗方案选择两部分内容组成,而将它们联系再一起的,就是统计学,我们在之前阐述过一些其他的统计学方案,今天我们给大家介绍的是卡方检验。
什么是卡方检验?
卡方检验,通常写成χ2检验,是一种统计假设检验,用于分类变量的分析,以确定观察到的数据是否与预期不同。卡方检验是一种常用的非参数检验,这意味着它们不假设所涉及的数据的分布(例如,正态分布)。相反,该测试依赖于奇偶分布,这是一个总体的理论值分布。
卡方检验的类型
有两种主要的卡方检验类型:
拟合卡方检验,用于检验一个变量的观察频率(每个类别中的观察数)是否与预期的不同。换句话说,该检验决定了样本分布是否与群体分布相匹配。
独立卡方检验,也被称为关联卡方检验,它对两个变量进行比较,看它们是否彼此不同。
这些类型的测试使用卡方检验统计量和分布,以及你观察到的值与预期值之间的比较,用于不同的目的。它们被称为皮尔逊卡方检验。还有其他各种使用卡方检验统计量的检验,包括趋势卡方检验、麦克尼玛检验(用于分析配对数据)、单方差检验和似然比检验,单我们这次并不会讨论这些检验。
在本文中,我们将重点讨论独立卡方检验,因为它在社会科学、医学统计和计量经济学中得到了广泛的应用,它被用来比较一个样本中分类变量的分布和另一个样本中分类变量的分布。
何时使用卡方检验
关联卡方检验适用于你想比较的两个变量的频率的交叉表。这被称为或然率表,其中行和列的每个组合(例如,一个小家庭中有症状的COVID-19的人数)在表中用一个单元格表示(见表1)。关键是这两个变量都是分类的,也就是说,它们可以在不同的类别中采取有限的可能值。分类变量的例子包括种族、疾病的存在(是/否)和年龄分组(例如,0-5岁,6-10岁,11岁以上)。
表1 | 在一项研究中,在218名对COVID-19检测呈阳性的参与者中,按家庭规模显示COVID-19的症状状态的概率表。
你可以用卡方检验来研究像这样的两个变量之间的关联,其假设如下:
➤ 无效假设(H0)是这两个变量之间没有关联。
➤ 备选假设(H1)是存在任何形式的关联。
卡方检验的局限性在于它需要有足够大的样本量才有效。作为一般规则,当预期值小于5时,我们应该转向精确的概率分布,并使用费雪精确检验。
如何进行卡方检验
一位卫生研究人员可能正在进行一项关于COVID-19传播动态的研究,并希望调查家庭规模是否与那些病毒检测呈阳性的人中是否出现症状性疾病有关。为了帮助回答这个研究问题,他们可以使用以下四个步骤进行独立的卡方检验。
第1步:提出无效假设和备选假设
进行卡方检验的第一步是明确提出假设。在这个例子中,具体的假设如下。
无效假设(H0)是:在人群中,家庭规模和有症状的COVID-19感染之间没有关联。换句话说,两个家庭规模组中有症状的比例之间的真实差异为零(π1 - π2 = 0)。
备选假设(H1)是,家庭规模和有症状的感染之间存在关联,并且两个家庭规模组中有症状的比例之间的真实差异不为零(π1 - π2 ≠ 0)。
第2步:计算无效假设下的预期值
在这一步,我们使用我们的或然率表(表1),为每个单元格找出如果无效假设为真时的预期频率。为了做到这一点,我们使用行和列的总数,称为边际总数,并推导出预期值:
因此,如果家庭规模与症状状态没有关系,我们将预期两个家庭组中有症状的感染比例相同。
在小家庭组中预计有症状COVID-19的预期值为(73 × 126)/218 = 42.1,在大家庭组中预计有症状COVID-19的预期值为(145 × 126) / 218 = 83.8。表2显示了或然率表中所有四个单元的预期值。值得注意的是,卡方计算是根据频率值本身进行的,而不是根据比例进行的。
表2 | 在一项对COVID-19检测呈阳性的研究中,218名参与者的COVID-19症状状况按家庭规模显示的应急表。预期值显示粗体。
在我们的例子中,鉴于我们感兴趣的变量都有两个类别,我们使用了一个2×2的或然率表,但是如果我们想比较有两个以上类别的分类变量的分布,可以使用这四个相同的步骤轻松扩展卡方检验。
第3步:计算卡方检验统计量
现在我们比较两个变量的观察频率和预期频率。我们需要计算一个检验统计量,以总结它们的差异程度,以及任何差异在多大程度上是由随机变化造成的。卡方(χ2)检验统计量用以下公式计算:
在这个公式中,∑符号表示取或然率表中所有四个单元格的后续数量之和(加在一起)。对于本文中的示例:
第四步:计算P值,评估反对无效假设的证据强度
χ2检验统计量越大,观察值和预期值之间的差异越大。为了检验关联的强度,我们可以将χ2检验统计量与其在无效假设下的已知分布进行比较,并计算出P值。空白的χ2值和P值在实践中可以通过统计软件很容易地计算出来,如果用手计算的话,可以用参考表来计算。这些值取决于自由度,对于2×2表来说,自由度等于1,对于有更多类别的或然表来说,自由度会更大。它们还取决于显著性水平(通常是α=0.05)。
在我们的例子中,χ2产生了一个小的P值(P<0.001),这意味着我们从卡方检验中得到的解释是,有非常强的证据反对无效假设。我们可以得出结论,有证据表明,较大的家庭规模和有症状的COVID-19感染之间可能存在关联。
广告分割线
当前,《诊断试剂简明统计手册》正在微信线上商店热销中,购买链接请见下方~
如果想选购其他IVD方面的开发、验证和使用相关技术资料,也可以直接访问我们的微信商店,具体链接请见下方~
另外,我们的仓储式知识星球也开张啦,最大的特点就是资料全面且在不断快速更新,这其中包括国内法规和指南,我们公众号当中收费的国外法规翻译、市场研报和线上商店中39元价位的技术手册等等,只需要298元即可成为星球会员,欢迎大家加入,具体链接请见下方~
诊断科学编辑团队收集、整理和编撰,如需更多资讯,请关注公众号诊断科学(DiagnosticsScience)。
长按识别关注
“诊断科学”平台
长按识别添加客服
加入“读者交流群”
本平台转载文章仅代表原作者观点,不代表本平台立场,如有侵权请联系平台删除!
求分享
求点赞
求在看
卡方检验的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于卡方检验、卡方检验的信息别忘了在本站进行查找喔。
本文导读目录:
1、一文掌握卡方检验
2、卡方检验
来源:我得学城本文约5000字,建议阅读10分钟本文将详细介绍卡方检验(Chi Square Test)。 卡方检验(Chi Square Test)被广泛使用,特别是在涉及医学、产品设计、工程和几乎所有研究项目的决策中。 为了理解什么是卡方检验,首先需要了解什么是假设检验,因为卡方检验是假设检验的一种。一旦知道什么是假设检验,就能够在此基础上了解许多不同种类的假设检验,例如卡方检验、t检验、Z检验、Wilcoxon检验等。 假设检验是一种统计分析方法,它查看样本并确定样本的测试结果是否可以应用于全部数据。因为样本只是整个数据集的一小部分,所以基于它们的测试结果总会存在一些不确定性。这意味着由于抽样的随机性质,任何来自样本的测试结果都可能是完全巧合。 如果我们想得出工厂里的手机电池的寿命数据。显然,我们是不能测试组装线上的每一部手机的,我们只抽样测试了几个。有趣的是,不同抽样的电池平均寿命都不相同。有些时候是24.5小时,有些时候是23.7小时等。此外,每次抽样数量也不同。当生产量较低时,样本大小也会降低。此外,均值只是一个数字,所以当比较两次抽样的均值时,我们无法知道用了多少样本得到了这个数字。因此,当电池平均寿命看起来非常好时,有可能是因为那次抽样的样本量太小造成的。反之亦然。在这种情况下,我们如何确定电池寿命?另外,我们如何知道本次抽样的平均值是因为随机抽样而不是实际差异而不同?这就是我们应该使用假设检验的地方。使用假设检验,我们将能够从样本中以一定的置信水平(例如95%,99%等),告诉我们电池是否可以续航24小时。 上面是单样本 检验统计量公式。我们可以通过将观测(样本)均值和假设(总体)均值之间的差异除以“标准误差” 来计算检验统计量。式中, 是样本的标准偏差, 是样本大小。在单个样本测试中,将测试统计量(例如上面的公式)与一个固定的数字(例如24小时)进行比较。然后,从这个测试统计量计算 值,并决定样本均值是否等于假设的总体均值。根据上面的公式,测试统计量考虑到了样本数量 。因此,通过使用假设检验,我们可以考虑每次抽样样本大小的变化。那么,什么是“双样本测试”?在双样本测试中,将会有两个不同的样本。例如,比较iPhone的电池寿命与三星Galaxy的电池寿命。几乎所有的假设检验都会有单样本和双样本版本。在假设检验中有三个关键步骤,我们还没有详细介绍,它们是:设置零假设(null hypothesis),备择假设(alternative hypothesis)和显著性水平( );从检验统计量计算 值;根据 值和显著性水平 拒绝或不拒绝零假设。 零假设首先,它为什么被称为零假设?零假设假定两个组之间没有关系(在双样本测试中)或总体均值与某些预定义值不同(在单样本测试中)。因为科学家必须始终持怀疑态度并小心处理他们发现的东西。科学家不能对没有足够证据的事情感到过于兴奋并告诉每个人它有效。它被称为“零假设”,是因为它假设实验期间观察到的任何差异仅是随机机会的结果(result of random chance)。这个零是我们的默认值。在足够证据表明零假设不成立之前,零假设被认为是真实的。 备择假设也称为研究假设。如果备择假设为真,则被视为惊人的发现。注意:我们以只有一个假设为真的方式构建零假设和备择假设。显著性水平也称为 值,是我们可以指定的值,例如1%、5%、10%等。将其视为偏向备择假设的程度,也可表征为在零假设实际为真时拒绝零假设的概率。例如,如果将 设置为1%,则不偏向备择假设。但如果将 设置为10%,则容易接受备择假设,因为更容易拒绝零假设。将 设置得高意味着将更随便地拒绝 (这是单侧检验。) 我们将在后面介绍。 如果 值在显著性水平范围内,能够拒绝零假设。注意,零假设永远不会被证明是真的,我们只是未能拒绝它。假设检验是统计学中最重要的概念之一。它在日常生活中被广泛使用,例如产品的A/B测试,药物批准,临床试验等,以帮助公司做出明智的决策。假设检验为我们提供了一个坚实的框架,以使用来自人口的较小样本做出决策。 卡方检验是一种假设检验。但是为什么要发明这种特定类型的测试?在上面的假设检验示例中,目标是查看样本平均值是否等于某个常数(例如24小时),这是假设的总体均值(hypothetical population mean)。这个测试的名称是“t-test”,它是最简单和最流行的假设检验之一。卡方检验用于另一种用途。它是为了看看一件事是否与另一件事有关。例如,考虑在哪里上的大学与他们能赚多少钱。 让我们用数据举个例子。我们将使用卡方检验来查看某些COVID症状和ICU入院是否相关。COVID症状和ICU入院数据。https://www.ncbi.nlm.nih.gov/pubmed/32031570下表显示了多少有和没有厌食症状(anorexia)的人,在感染COVID后进入了ICU。让我们在这里停一下,试着猜一下这些数字是否相关。直觉告诉我们,它们似乎是相关的。因为在总共36个进入ICU的人中,有24人(67%)患有厌食症。然而,也有患有厌食症的人(总共55人)没有进入ICU(31人,总厌食症的56%)。那么,我们如何确定它们是否相关呢?我们可以使用卡方检验来确定。步骤如下: 第一步:根据给定数据创建表格,也称为“条件表”或“观察O”;第二步:为每个数据点计算“期望值E”;第三步:计算 ;第四步:通过添加第3步中的值来获取 (卡方);第五步:获取你的“自由度”;第六步:计算 值,或查找卡方概率表中的检验统计量。第一步:根据给定数据创建表格,也称为“条件表”(Contingency Table)或“观察O”(Observation O)第二步:为每个数据点计算期望值 在卡方检验中,为每个数据点计算期望值。在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。换句话说,期望值像是随机试验在同样的机会下重复多次,所有那些可能状态平均的结果,便基本上等同“期望值”所期望的数。期望值可能与每一个结果都不相等。换句话说,期望值是该变量输出值的加权平均。期望值并不一定包含于其分布值域,也并不一定等于值域平均值。(https://zh.wikipedia.org/wiki/期望值)例如,掷一枚公平的六面骰子,其每次“点数”的期望值是3.5,计算如下: 不过,3.5虽是“点数”的期望值,但却不属于可能结果中的任一个,没有可能掷出此点数。按如下方法计算期望值。忽略实际观察值相反,根据总数比例计算期望值忽略实际计数,使用“总计”列和行ICU(36),非ICU(102),厌食症(55)和非厌食症(83)来按比例计算期望值。在这个例子中,通过简单地按比例计算总数,你可以得出单元格ICU,厌食症的期望值如下:在36个ICU患者中,预计有36 *(55/138)名患有厌食症的患者。为什么要计算期望值E表?因为,如果实际观察值,例如[ICU,厌食症]的24与期望值(36 * 55/138 = 14.35)有很大的不同,那么厌食症和ICU之间可能会有一些关联。另一方面,当观察结果类似于预期时,无论是ICU还是非ICU,患有厌食症的患者的比例都将相同。那么,厌食症对ICU入院可能没有太大的影响。得到观察值(O表)与期望值(E表)。观察值(O表)期望值(E表)第三步:计算 公式为卡方检验中使用的卡方统计量, :自由度, :观测值, :期望值。这个公式是什么意思?为什么这个公式是卡方检验的检验统计量?卡方检验统计量基本上是观测值和期望值之间差异的平方和的标准化。它是标准化的,因为它像任何典型的标准化一样将平方差除以期望值。基本上,这个检验统计量告诉我们观察值偏离了期望值多少。但是,我们为什么要使用卡方分布来计算检验统计量的 值呢?我们为什么相信检验统计量会遵循卡方分布?原因在这里。当 是独立的标准正态变量时,那么这些随机变量的平方和 , 遵循均值为 ,标准差为 的卡方分布。等等,我们的观测数(24、12、31、71等)是独立的标准正态变量吗?如果它们遵循正态分布,它们可以。因为正态分布中的任何点 都可以用公式 ( 平均值)/ 标准差 转换为标准正态分布 (z ) 。那么,我们的观察数(24、12、31、71等)是否遵循正态分布?根据中心极限定理(Central Limit Theorem,CLT),如果从一个群体中取样足够大(样本大小大于30通常被认为足够保持CLT),即使群体不是正态分布,样本的平均值也将是正态分布的。那么,我们的观察结果(24、12、31、71等)似乎不是其他数字的平均值,它们就是数据本身。如果是这样,为什么我们认为这将遵循正态分布呢?如果我们可以将数据点显示为均值会怎样?让我们看看我们的列联表。厌食症和ICU你能在这里看到伯努利试验的暗示吗?是的,因为每个变量(厌食症和ICU)只有两种可能的结果,“成功”和“失败”。从二项分布的角度来看,患者的总数为 ,每个比率(ICU成功的36/138,厌食症成功的55/138)都将是 。当二项分布中的 越来越大时, 将遵循平均值为 ,标准偏差为 的正态分布。这被称为二项分布的正态近似(Normal Approximation to Binomial Distributions)。对于足够大的 ,具有 次试验和成功概率 的二项分布越来越接近于正态分布。正态分布将具有与二项分布相同的平均值 和标准偏差 。下面,让我们联系起来。现在我们知道样本是从正态分布中取出的。然后,(观察值-期望值)值也将遵循正态分布,因为 是一个常数。然后使用卡方分布用于检验统计量是有道理的,因为卡方分布是 个标准正态分布的平方和。卡方检验通常忽略了这个正态分布的假设,但这个假设是卡方检验成立的原因。第四步:将步骤3中的值相加,即可得到 (卡方)卡方检验统计量: 第五步:获取“自由度”每个分布都有参数。例如,正态分布的参数是平均值和标准差。二项分布的参数是 和 等。卡方分布有什么参数?它有自由度, 。“自由度”是什么意思?它是如何工作的?它是否意味着我有多少自由度?这是一个奇怪而令人困惑的名字...为了给你一个容易记住的例子,假设有三个随机变量 、 和 ,它们的平均值为15。在这种情况下,这三个随机变量中有多少个实际上是随机的?只有两个。为什么?假设 和 有变化的自由度。但是,为了使它们的平均值为15, 必须是 。因此, 没有自由度来变化。现在让我们将这个概念应用到卡方的自由度上。你可以将自由度视为用于计算检验统计量的独立信息片段的数量。在我们的情况下,我们有一个 的列联表。我们知道样本的总数。在这种情况下,df是1。为什么?因为在 的表中,一旦你知道一个数字,给定总数,表中的其他单元格就被设置了。让我们将这个概念转化为一个公式。对于具有 行和 列的列联表,计算卡方检验自由度的公式如下:自由度 = (# of rows - 1)×(# of columns - 1)这是一个合理的概括吗?我相信这是这样的。那为什么我们需要考虑自由度?因为自由度会影响卡方分布的形状。因此,它会影响关于是否拒绝零假设的决策。第六步:计算P值,或从卡方概率表中查找检验统计量最后一步是计算 值。许多 值计算器都可以在网上找到。一个很好的例子是:https://www.di-mgt.com.au/chisquare-calculator.html或者使用Python,只需几行代码即可计算 值。 大家可能在学校里学习了卡方概率表。此表中的值不是 值。它们是卡方分布的检验统计量,基于不同的自由度和置信度 。我们需要将计算出的检验统计量与该表中的数字进行比较。卡方表注意,卡方检验对样本量特别敏感。观察左下角(20 df / 的7.434)和右上角(1 df / 的7.879)。它们的检验统计量是可比较的。这意味着,在样本量足够大的情况下,即使连接看起来不显着,也可能出现统计显着性。至此,我们只是手动计算了卡方检验统计量。在此步骤之后,我们将遵循假设检验的标准步骤,即根据 值和显着性水平 拒绝或未能拒绝零假设。这个步骤只有两种可能的结果。 值小于 。我们可以拒绝零假设。 值大于 。在这种情况下,我们无法拒绝零假设。了解更多 值内容,请阅读https://towardsdatascience.com/how-to-interpret-p-value-with-covid-19-data-edc19e8483b,后面我们会介绍这篇文章。4. 结论最后,祝学习愉快!本文来源:https://medium.com/intuitionmath/chi-square-test-intuition-examples-and-step-by-step-calculation-de45c873abd1 编辑:王菁 校对:林亦霖 卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test) 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。 卡方检验是以分布为基础的一种常用假设检验方法,它的无效假设是:观察频数与期望频数没有差别。 该检验的基本思想是:首先假设成立,基于此前提计算出值,它表示观察值与理论值之间的偏离程度。根据分布及自由度可以确定在假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。 值表示观察值与理论值之间的偏离程度。计算这种偏离程度的基本思路如下。 (1)设A代表某个类别的观察频数,E代表基于计算出的期望频数,A与E之差称为残差。 (2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。 (3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。 进行上述操作之后,就得到了常用的统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson ,其计算公式为 (i=1,2,3,…,k) 其中,为i水平的观察频数,为i水平的期望频数,n为总频数,为i水平的期望频率。i水平的期望频数等于总频数n×i水平的期望概率,k为单元格数。当n比较大时,统计量近似服从k-1(计算时用到的参数个数)个自由度的卡方分布。 作为学术界的领袖,Pearson先生当初发表在《哲学杂志》上的论文题目为:On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. 由卡方的计算公式可知,当观察频数与期望频数完全一致时,值为0;观察频数与期望频数越接近,两者之间的差异越小,值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,值越大。换言之,大的值表明观察频数远离期望频数,即表明远离假设。小的值表明观察频数接近期望频数,接近假设。因此,是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果值“小”,研究者就倾向于不拒绝;如果值大,就倾向于拒绝。至于在每个具体研究中究竟要大到什么程度才能拒绝,则要借助于卡方分布求出所对应的P值来确定。 卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者间的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。 1、四格表资料的卡方检验 四格表资料的卡方检验用于进行两个率或两个构成比的比较。 1)专用公式: 若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=,自由度v=(行数-1)(列数-1) 2)应用条件: 要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。 2、行×列表资料的卡方检验 行×列表资料的卡方检验用于多个率或多个构成比的比较。 1)专用公式: r行c列表资料卡方检验的卡方值= 2)应用条件: 要求每个格子中的理论频数T均大于5或1卡方检验的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于卡方检验、卡方检验的信息别忘了在本站进行查找喔。
未经允许不得转载! 作者:谁是谁的谁,转载或复制请以超链接形式并注明出处。
原文地址:http://www.kpfe.org/post/9150.html发布于:2025-12-27

![[新手必看]华为刷机你一定要知道的](http://www.kpfe.org/zb_users/theme/kpfe/style/noimg/7.jpg)


