心理学学习笔记智力的测量

发布日期：2018-05-23 编辑整理：安徽省自考网【字体：大中小】

智力的科学研究从一开始就与智力的测量紧密地联系在一起。早在二千多年以前,中国的先哲们就提出了许多测量人的智力以及其他心理特征的思想和方法(刘劭,约168~240)。现代智力测验的出现只是近一百多年的事。

一、智力测验概述

心理测验意指在对心理进行测量时所使用的工具,有时也称心理量表。通常它是由一组精心设计的测试题目或项目组成,其作用在于抽取一组标准化的行为样本,通过对这组行为反应的观察分析,测验者就可以对引起行为的心理活动做出推论和解释。心理测验依其所测的内容和分类的标准不同,种类繁多,如人格测验、教育测验和团体测验等等,智力测验是心理测验的一种,也是最早发展的测验之一。

(一)智力测验的产生

19世纪中叶,达尔文的进化论激发了人们对智力和心理能力的研究。可以设想,如果生存的重要因素是对环境的适应,那么,在人类进化中,智力必定起着重要作用。高智力的人由于其对环境的优良适应性必定通过自然选择,被保留下来。根据这种思想,达尔文的表兄弟高尔顿(Francis Galton,1822~1911)对智力进行了第一个系统性研究。他认为,智力水平的高低与神经系统的完整性和功能有效性有关,外部世界的信息是通过我们的感觉到达于大脑的。感觉越敏锐,获得的信息越多;信息越多,判断与思维越有用武之地。感觉辨别力"基本上是心智能力中最高的能力"。为此,高尔顿设计了多种测量工具,用于度量人们在各种感觉辨别力上的差异,例如,对声音的反应时间、命名颜色的速度等等。但以后的研究发现,在简单的感觉判断和更复杂的认知能力之间几乎不存在任何关系。

世界上第一个正式的智力测验,是由法国心理学家比内和医生西蒙(Binet &Simon)在1905年编制的。它的产生是为了分辨出不适合在一般学校学习的智力落后儿童,从而给以特殊教青。比内认为,智力是由多种能力组成的,智力测验必须包含大量不同类型的测验项目。同时,年龄也是影响测验结果的一个关键因素，最聪明的3岁的孩子也不能与一个智力一般的9岁孩子相提并论。为此,他们提出了"心理年龄"的概念,表示智力水平的办法是计算智商。

(二)智力测验的种类

心理测验本身依据题目形式、编制目的、施测要求、解释方式等可以划分为各种不同的类型,这里介绍几种与智力测验有关的分类。

1.个别测验和团体测验
任何测验都可以由主试者向一个人单独施测,也可以同时施测于一组人。根据施测对象的数目,测验可以划分为个别测验和团体测验。

个别测验指那种在同一时间内主试者只能对一个受测者进行施测的测验。如比内量表、韦氏儿童智力量表等大多数儿童智力测验都属于个别测验。个别施测对于某些特殊对象,如幼儿、智力障碍儿童等尤为必要。它耗费的时间和精力较多,测验程序比较复杂,并且主试者必须进行严格的训练后方能胜任。因此显得不够经济,短时间内不可能获得大量资料。

团体测验与个别测验相反,能够在同一时间内由一位主试者对多名受测者进行施测,如一般的教育测验,各种人格量表,以及团体智力测验等都是集体进行的。团体施测较之个别施测显然可以节省大量人力与时间,并且可以在短时间内收集大量信息,同时主试者也无须接受严格的专业训练。不过它的缺点也正与个别测验的优势相反:主试者无法充分观察和控制每一位受测者的反应,测量误差不易控制。

2.文字测验和非文字测验
测验题目可以由各种不同的方式呈现,比如数字、文字、图形或各种实物都可用以组成题目进行测验,测验呈现的方式不同,受测者的作答方式也不一样。根据这一点,心理测验可以划分为文字测验和非文字测验。

文字测验的题目以文字材料组成并呈现,要求受测者用文字或语言的方式作答。文字测验的实施比较简便,而且较易于测量人类高层次的心理功能。但是,这类测验容易受社会文化背景的影响,在跨文化比较研究中应用比较困难。同时,不同的文化程度会影响测验结果,对于那些在语言文字方面有困难的人和幼小儿童则完全不适用。

题目不以文字表述,受试者不以语言或文字方式作答的测验称为非文字测验。非文字测验的说明由主试者口头叙述,测验题目多属于图画、工具、模型等,对仪器、实物等辨认或操作的操作性测验,也属于非文字测验。这类测验一般只适用于个别施测,费时费力,且对测验结果的评分易于受主观因素的影响,很难达到严格的标准化水平。但是由于其材料的特殊性,这类测验不易受文化因素的影响,可用于广大文化水平较低者,如学前儿童、文盲等,并且适合于进行跨文化研究。
由于一个人在认知领域的知识往往并不能代替其在操作领域的技能,因此一般的智力测验同时包含两类题目,并且将两部分测验先分别计分,然后再结合起来进行解释,效果较好,如韦氏儿童智力量表。

3.速度测验和难度测验
速度测验关注的是回答题目的速度,要求受测者尽快地作答,完成题目越多越好。其目的在于考察受测者在测验任务上的反应速度。速度测验一般由比较容易的题目组成,不需要深入思考,只是题量大而时间限制非常严格,一般情况下几乎没有受测者能够在允许的时间内完成全部题目。这类测验以受测者在规定时间里答对的题目数量来区分优劣,常用于测查需要牢固掌握的基础知识部分。

难度测验关注的是被试答题的正确性,要求受测者认真思考,准确地回答问题。测验的构成比较复杂,题目从易到难排列,最难的题目几乎没有一个受测者能够解决。这类测验可以没有时间限制或限制得非常宽松,通常以95%的受测者都有可能做完全部题目为前提来规定时间。它旨在测量受测者的解题技巧和解决问题的最高能力水平,以完成的数量和准确性为计分标准。各类学科竞赛所用的测验可谓难度测验的典型示例。

(三)心理测验的性质

智力测验是心理测验的一种,心理测验本身所具有的性质,智力测验都具有,下面简
要介绍一下心理测验的基本性质。

1.心理测量的对象是心理特质
心理测量中作为研究对象的心理属性,称心理特质,如学习动机、记忆广度、推理能力和情绪稳定性等等,智力测验所测量的智力也是一种心理特质。心理特质指的是使一个人对于较广泛的一类情景稳定地做出同一反应的心理特点,它是建立在对人类大量相似行为进行观察的基础之上的一种科学构想,它是心理学家用以描述或解释行为的工具,不是客观事物。

2.对心理特质的测量是间接的
心理特质作为一种科学构想本身是抽象的,不可能直接观察到,因而对它的测量只能是间接的,即从行为样例中推理得出。尽管对于有些心理特质的测量方法在长时期使用中已经标准化,使用得相当普遍,但至今还没有对哪一种构想的测量方法得到普遍接受。因此时常有下述情况出现:两个具有不同理论观点的测验编制者,为测量同一种心理特质,使用着不同的间接测量途径,即选用不同的行为表现进行操作性说明。例如对儿童智力,有人用特定实验上的反应时长短去测定,有人用非文字智力测验的得分去测定,也有人认为只有把智力测验中言语部分和操作部分相结合才是最佳选择。

3.心理测量具有误差
任何测量,无论是物理的抑或心理的都会出现误差。任何测量进行多次,其结果不会完全一致,心理测量的误差尤为突出。因为心理测量是从对一个行为样本的观察中获得数据,再去推论得出结果,从部分推论整体,用以解释一个人的心理特质,自然不会百分之百的准确。同时,这有限的观察数据又是在某一特定时间、地点条件下获得的,引起误差的因素多种多样,即便采取措施也不可能完全避免,从对心理特质的理论说明,到计分、评分和结果解释各个环节上,都会有误差出现。因此,只凭一次测验结果并不能完全准确地反映所要测量的心理特质。要了解一个人如此行为的原因,或进一步由此预测他的未来行为,需要多方面考虑。

4.心理测量工具的适用性与社会文化背景有关
任何心理测验的适用性都有其特定的范围,它在测验编制开始时就已确定,依据测验的目的,适合于使用该测验的被试团体称为目标群体。任何心理测验也只有当它被应用于它所适用的目标群体时,才能显示出它的效能。由于人的心理在不同文化、教育和社会环境中有很大差异,如果把一个测验应用于目标群体之外的个人或团体,那么使用其原有的常模来做评定就很不恰当,会对结果做出既不客观、又不公正的判断。由于社会因素的影响,甚至在同一个社会文化团体中,不同性别或不同年龄的受测者对同一个测验的反应也不一致。因此,我们在选用测验工具时,除审查测验本身的质量外,还需要考虑它的适用性特征。

二、心理测验的技术指标

我们在选择一个智力测验来度量智力水平时,首先会考虑到:用这种工具测得的结果准确
吗?测验分是否能有效地预测他在现实生活中取得的成就或他的学习成绩?每次所测得的结果都一致吗?测验结果的一致性和准确性,即测验的可靠性和有效性,是任何一个良好的测量工具都必须保证的前提,在测量学上称之为信度和效度。智力测验与其他测量工具一样,必须具有一定的信度和效度,才能对人的智力做出客观、准确的度量,并对测量结果做出合理的解释。

(一)信度

信度即可靠性,是指多次测验结果的一致性程度。一个好的测量工具,对同一事物反复多次测量,或由不同的人使用,其测量结果应该保持不变。正如用一个体重计在一天内测量某人的体重,如果每次测量结果相差很大,我们知道人的体重不会产生很大波动的,因此,这个体重计不是一个可靠的测量工具。

任何测验,它都是只对一个行为样本进行测量的,这样以它为基础所做推论就不可能绝对精确。正如你在一门课程上的多次考试,由于题目不同,每次所得分数也不会完全相同一样,测量的结果总包含着一定的测量误差。信度依据误差大小有程度上的差异,大小介于0与1之间。通常由两个测量结果的相关系数来表示,称之为信度系数。根据误差源的性质,一个测验的信度可以分为以下几种。

1.再测信度
再测信度是指测验结果跨时间的一致性。它是用同一个测验对同一组人前后进行两次测量,两次测验分数的相关系数就是再测信度。再测信度反映的是两次测验结果有无变动,因此又称稳定性系数。

2.评分者信度
评分者信度是指不同评分者之间在测验结果计分上的一致性。当测验结果是由评分者主观评定时,评分者信度尤为重要。例如在体操比赛中,裁判评分的一致性直接影响着运动员的名次,因此一般都要取消两极各一个分数后再求平均成绩。在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。

3. 内部一致性信度
内部一致性信度又称同质性信度,是指一个测验或分测验中各题目所测内容的一致性。智力测验通常由许多不同的题目构成,内部一致性信度可以通过将测验题目区分为两半,比较人们在两部分上的得分情况获得。如果测量题目之间具有很高的相关,表示具有高内部一致性,或者说同质性信度很高。一般说来,智力测验的同质性信度较高。从测量方法上考虑,这样求得的信度也称分半信度。

(二)效度

效度是指测量的有效性,即一个测验对它所要测量的特性准确测量的程度。一个测验总是为一定的测量目的而设计编制的,并具有一定的操作规则和使用范围,判断它的效度高低,首先要看它达到测验目的的程度,如果能正确地测量出所要测的东西,那么它就是高效度的测量。例如,用英文书写的算术题测量儿童算术能力,他的成绩不佳可能出自算术能力低,也可能出自英文水平差未能理解题意。因此,作为能力测验便是无效的。同理,智力测验只能用来度量智力,而不能用它来度量个性,否则也是无效的。

与信度相比,效度是一个更复杂、更重要的概念。心理学家一般将效度进一步分为内容效度、构想效度和预测效度。

1.内容效度
所谓内容效度是指测验题目对预测的内容或行为范围取样的适宜性程度。例如,教师在讲课告一段落后要进行考试,而考题不可能包含讲过的所有内容,必须从中选出一个有代表性的题目样本,编制成测验,然后根据考试分数推断学生对该范围内知识技能的掌握情况。如果测验题目不是该范围内的有代表性样本,或者过难或者过易,那么由此做出的推论,其效度必然很差。

2.构想效度
构想是指心理学理论所涉及的抽象而属假设性质的概念或特质,如智力、焦虑、自我、外向、攻击性等等。构想效度表示一个测验是否达到了对某一理论概念或特质的测量。如果一个智力测验测得的结果与该测验所依据的智力理论或假设相符合,那么,我们说该测验具有较高的构想效度。
构想效度的确定通常需要综合评价各种不同的资料,一般采取两种途径:一是考察它与度量同类构想的测验是否相关,二是考察它是否与不应有关的东西无关。例如,羞怯测验的分数应与一个人出现在聚会上的次数、团体中的发言多少以及父母和朋友的评价有关,而与度量其他构想的测验分数,如空间知觉、推论能力等基本无关.

3.预测效度
预测效度又称效标关联效度,是指一个测验对处于特定情景中的个体的行为进行预测的有效性,也就是对我们所感兴趣的行为能够预测到什么程度。在这里,被预测的行为是检验测验效度的标准,简称效标。一个心理构想的外部行为表现可能很多,因此,用于检验测验的效标也很多,效标关联效度也就不止一个。如果一个人在选拔消防员的测验上得分很低,而他在防止火灾和灭火中表现得与真正的消防队员一样好,那么,毫无疑问,这个测验不能用于消防员选拔,它的预测效度太低了。

如果一个测验是有效的,它必定是可靠的。但反过来,一个测验具有很高的信度,它并不一定是有效的。比如,如果我们使用一个指标偏高的秤测量体重,尽管每次测量都得到一致的结果,但它并不能准确测出人的体重。

(三)测验的标准化

除非我们知道参加测验的都是什么人,以及所有参加测验的人的得分情况,否则,我们单从一个测验分数能够获得的信息很少。假如你在心理学课的考试中得了80分,那么,这个成绩能否说明你学得好呢?显然,答案是不一定。如果你知道大多数人的成绩都没过70分,或大多数人的成绩都在90分以上,那么,你就可以肯定地知道自己考得究竟如何了。在这里,大多数人的得分情况为我们评估成绩的好坏提供了评价的基础或参照系。

在一个测验正式付诸使用以前,测验的编制者都要建立常模,以使测验分数的解释更加清晰、明确。常模是解释测验结果的参照指标,由总体测量结果的统计平均值表示。将测验施测于一个标准团体,即总体中的一个有代表性的样本是制定常模的必要条件。参加测验的每一个人所得原始分都要与常模团体相比较才能做出解释,即指出该分数在总体上所处的位置。

最常见的两种常模表示法是百分位系统和标准分数系统。百分位系统,又称百分制,它是将一组测验分数分成100等分。一个百分位数反映在标准团体中高于和低于某个分数的人数比例。例如,不管实际的得分是多少,如果某人在测验中的得分为80百分位数,那就意味着高于这个分数的人只有20%,他处于80%下面人的最前端。标准分数系统是一种更复杂的常模表示方法。由于几乎所有能力测验的分数分布都呈正态曲线形式(如图6.4所示)。标准分数是根据测验分数的正态性质确定的,每个测验分数为正态曲线上的一个点,一个分数离中点越远,获得这一分数的人数越少,而它所处位置以标准分数来表示,即Z分数=(X-M)/S,其值介于+3和-3之间。

图6.4 正态分布与智力测验分敏

大量施测的结果测验分数呈正态分布形式。大多数人的智商分数落在中央部分,而高低两个极端则人数很少。该分布的平均数为100,标准差为16(比内量表)或15(韦氏量表)。

应当注意的是,除非标准团体是当前参加测验总体的有代表性样本,否则,由常模得出智商分数是不准确的。有些测验成绩会因时代的变迁而有所提高。如果用过去的测验给现在的人施测,我们会发现大部分人的成绩可能超过过去的平均分。在学校里,经常发生用过去几十年的常模解释现在的测验结果,而得出现在的学生更聪明的错误结论

三、经典智力测验

目前,大多数的智力测验都是根据比内测验的思想和方法编制的,使用简短明确的多种题
目,测验的计分也比较容易。内容方面不包括道德判断等社会性较强的问题,也不涉及学习新的知识以及太费时间的问题。

(一)斯坦福一比内测验

比内的智力测验发表后,美、英、德、日、意等国分别将其翻译成本国文字并结合各自的国情予以修订。其中以1916年推孟在美国斯坦福大学修订的版本最负盛名,称为斯坦福一比内测验〈Stanford-Binet Test〉,并广泛地流行到世界各国。在我国,最早是陆志韦于1924年翻译并修订了斯坦福一比内测验。

斯坦福一比内测验是一种个别施测的标准化智力测验,自1916年修订完成并广泛使用后,又经过1937年和1960年两次修订,内容上作了很多变动,1986年出版最新的第四版。适用于2~18岁的被试。测验题目经过严格的筛选,按从易到难的顺序排列在各分测验中,由受过专门训练的测试人员对儿童进行单独测量和计分。目前的版本由15个分测验构成,代表着4个主要的认知领域:言语推理、抽象或视觉推理、数量推理和短时记忆。在测验过程中,每一步骤的实施必须遵照标准程序。测验一般从低于儿童年龄的较容易的题目开始,在儿童不能回答更难的问题时结束。

(二)韦克斯勒智力量表

韦克斯勒智力量表(WechsleE Intelligence Scales)是美国临床心理学家韦克斯勒
(D.Wechsler)于20世纪中期编制的三种智力量表的总称,是目前世界上使用最多的智力测量,工具。它包括韦氏成人智力量表(简称WAIS),测量16岁以上成人的智力;韦氏儿童智力量表(简称WISC),用于6至16岁学龄儿童;韦氏幼儿智力量表(简称WPPSI),测量4至6岁半学龄前儿童的智力。这三种量表项目类别相似,只是内容及难度方面存在差异。

韦克斯勒认为:"智力是个人有目的的行动、理智地思考以及有效地应付环境的整体的或综合的能力。"基于这种认识,他在成人智力量表和儿童智力量表中都设计了11个分测验,以对智力进行全面考察。这些分测验分别度量个体的言语能力和操作能力。言语能力的测量包括常识、词汇、类比、理解、算术和记忆广度,操作能力包括图片排列、填图、积木、译码、拼图等。

韦氏量表的一个重要特点是摈弃了心理年龄的概念,但保留了智商概念。它运用统计方法,以儿童在同一个年龄团体中成绩所处的位置确定智商高低。用这种方法确定的智商又称离差智商。它的另一个显著特点是,不仅给出了一个人的智商总分,而且还给出了言语和操作两方面的各个分量表分,使我们可以更加清晰地了解一个人的智力结构,以及他在智力发展上的优势与弱点,从而对培养和补救提供了科学依据韦氏智力量表也需要进行个别施测。个别施测不仅使测量更加准确,减少干扰,而且可以获得许多其他信息,如对待测验结果的态度、情绪表现等等,从而有助于做出更准确的判断。

(三)团体智力测验

团体智力测验最早出现在第一次世界大战时期。面对150万应征人伍者,为了适应战争的需要,美国陆军先后研制了甲、乙两种纸笔型团体智力测验。团体智力测验被广泛用于学校、企业、军队等人员选拔和招聘工作中。目前,广泛应用的团体智力测验是英国的瑞文标准推理测验(SPM),由60道题目组成,图6.5是两个瑞文标准推理测验的题目示例。

图6.5 瑞文标准推理测验的题目示例

四、智力测验与性向测验、成就测验的关系

智力测验与性向测验和成就测验同属能力测验范畴,三者既有相似之处,又有区别。能力测验是一个概括性名词,这类测验主要以应答的速度和正确性为指标判定结果。一般是分数越高或正确答案越多表明能力越强,成就越大。由于对能力的认定与实施目的不同,实际使用时,能力测验被分为智力测验(intelligence test)、性向测验(又称能力倾向测验,aptitude test)和成就测验(achievement test)。

心理测验最早开始于为筛选学习困难儿童而编制的智力测验,但由于在理论上至今仍然未能给智力下一个公认的明确定义,因而智力测验的目标范围始终存在争议。但就目前通用的智力测验而言,一般注重的是表现在认知活动中的稳定的一般能力,如言语能力、数学能力、记忆能力、空间知觉、推理能力等。通用的智力测验如比内智力量表、韦氏儿童智力量表等,这些都可视为对个体的基本能力素质的考察。

性向测验泛指用以测量潜在才能的测验。其目的在于发现儿童的潜在才能,深入了解其长处和发展倾向。如美国大学入学考试用的学能测验(Scholastic Aptitude Tests,SAT),这一测验度量的是到大学后学习成功的可能性。潜在才能是指个体未来发展的可能性,即在给予一定的学习机会时可能达到的水平,而不是个体现在已经具有的能力。

成就测验或称成绩测验,主要考察受测者在学习和训练后所具有的知识和技能水平,由于它被广泛地应用在教育工作中,因此,有时也被称为教育测验(educational test)。根据不同的标准,还可以对之进行更为细致的分类。影响成就测验上成绩的不仅是能力,而且包括习得的知识。