分类、有序、定量变量...你清楚你的变量类型吗?

当前位置:首页 > 社会

分类、有序、定量变量...你清楚你的变量类型吗?

发布时间:2020-07-21 17:24:31

看到这个题目,想必有小伙伴不屑地想,分类/有序/定量变量,谁没听过。但是你真的了解这些不同类型的变量,真的用对了吗?今天就和大家一块儿念叨念叨“卡方检验中不得不聊的变量分类”。

SPSS软件中变量类型有Scale、Ordinal、Nominal三种(如下图),在进行Crosstab(卡方检验)时需要根据不同变量类型设置不同的统计量来检验,但是如何界定设定的变量属于什么类型?

分类变量(Nominal/Categorical Variable)

分类变量,有时候也被称为名义变量,一般指两个及以上的分类,但是本身没有等级顺序之分。

举个栗子,性别就是一个只有两个分类的变量(男同学和女同学);头发的颜色也是一个分类变量,黑的、红的、黄的、蓝的……(各种假发的颜色,嘿嘿~~~),对于这些变量你是无法给他们排排序(红的最漂亮,开玩笑,蓝的才最漂亮)。

看(吃)了上面的栗子,相信大家对于没有等级顺序特点的分类变量印象深刻!但是这里要注意两个原则:① 不同类别之间要互相排斥,也就是说每个研究对象只能归到一类;② 所有研究对象均有归属,不可遗落。比如说上面提到性别(男 or 女);包含了性别的全部类别,同时不同类别之间又具有排斥性。

有序变量(Ordinal Variable)

有序变量和分类变量长得有点儿像,但是两者还是有明显的区别。有序变量是指分类数大于等于3,且类别之间存在序次关系的响应变量。在对此类资料进行统计分析的过程中,我们发现,有序变量的“类间距”并不相等,也就是各类型之间的稀疏程度并不是均匀的。

再举个栗子,假设你手里的数据有一个变量——经济水平,有三个分类(低、中、高)。首先,你可以把调查人群按照经济收入水平分为低、中、高收入人群(想想自己还在低收入中游荡……),然后你还可以根据收入的高低,给调查对象排序。

还有一个大家比较熟悉的经济收入的孪生兄弟——教育水平(小学、中学、大学、研究生)。即使我们可以将教育水平从小到大进行排序,但是实际上每个教育水平之间差距并不是简单的相等。

一般情况下,我们对不同的教育水平会分别赋值1、2、3、4,进而比较小学“1”和中学“2”,中学“2”和大学“3”,或者大学“3”和研究生“4”之间的差别。相信有小伙伴会发现,这里的小学“1”和中学“2”的差距有可能大于中学“2”和大学“3”的差距(学习要从娃娃抓起,还是很正确的~~~)。

在这个栗子中,我们虽然满以为很正确地将调查人群按照教育水平分类赋值,但是事实上,不同赋值并不能反映教育水平之间的实际差距。如果有小伙伴将其作等距对待,这样的处理则往往是粗糙而不精确的。

定距变量(Scale/Interval Variable)

定距变量(又叫连续性变量或者定量变量)与有序变量又有点儿像,但是定距变量可以确切地测量同一类别各个水平高低、大小次序之间的距离,因而可以做加减法。

比如说,上面例子中提到的经济收入,如果我们看原始数据——每个研究对象的具体收入,10000元、15000元、20000元。我们可以说第二个人收入比第一个人高5000元,第三个人比第二个人也高5000元。

SPSS操作时该如何设置

知道了变量分类,我们再来看看SPSS中Analyze→Crosstab→Statistics设置

(1) Chi-squares:卡方检验,主要用于分组变量(Row)和结局变量(Column)都为分类变量;Risk:可以计算OR值或者RR值,用来说明两个变量之间是否存在关联,以及关联程度,详见独立样本四格表的卡方检验 / 多个独立样本列联表的卡方检验

(2) McNemar:配对卡方检验,两种诊断试验结果变量(Row/Column)都为分类变量;Kappa:一致性检验,用于评价分类结果一致性和信度的一种重要指标,详见一致性检验和配对卡方检验

(3) Cochran’s and Mantel-Haenszel statistics:用于分层卡方检验

(4) Correlations:用于分析变量均为有序变量的相关分析,可同时输出Pearson相关和Spearman秩相关,同 Analyze →Correlate →Bivariate

(5) Ordinal:可用于分析变量均为有序变量的相关分析,常用Gamma检验,详见碰见有序分类资料怎么办

(6) Nominal:用于分析变量均为分类变量的关联性分析(独立性检验),并提供四种关联系数

(7) Nominal by Interval:Eta是当一个变量为分类变量,而另一个变量为定量变量时的相关性测量指标。此时分类变量必须是数值型编码,例如,性别在数据库中应该是“1”(代表男性),“2”(代表女性),而不可以是“男”和“女”(字符型)。

Eta值范围在0到1之间,其中0值表示行变量和列变量之间无相关性,接近1的值表示高度相关。Eta适用于在区间刻度上度量的因变量(例如身高)以及具有有限类别的自变量(例如性别)。

(更多内容可关注“医咖会”微信公众号:传播医学知识和研究进展,探讨临床研究方法学。)

欢迎分享转载 →分类、有序、定量变量...你清楚你的变量类型吗?

Copyright © 2002-2020 鲁旭娱乐网 版权所有 备案号:粤ICP备14025430号-1

收藏本站 - 网站地图 - 关于我们 - 网站公告 - 广告服务