台灣是一個測驗導向社會,我們藉由一份份有系統測驗,意圖瞭解一個人學業成績、能力評量、人格特質、態度傾向情緒波動。
這使我們到歷了無數次測驗或考試,而所映照出分數,代表了個人傾向、態度,價值。然而,這許多大大小小測驗,能測出我們想要答案嗎?
台北市立大學心理諮商學系黃宏宇教授,認為過去編製傳統測驗,存在一些假設瑕疵,例如大眾提出詰問:「這個測驗嗎?」。
黃宏宇認為過去編製傳統測驗,存在假設瑕疵。
攝影/陳怡瑄
我們成長經驗中,會一份試卷分數加加減減,得出總分測驗結果,同時代表了我們某項特質或能力程度。
這是傳統測驗普遍基於「古典測驗理論觀點」編製出的處理方式。古典測驗理論方法且,但是測出來結果,能夠反映出每個人表現嗎?
事實上,於試題內容,人是多變且外因素影響個體。因此運用古典測驗理論加總各題項分數,總分表現個人特質方式,了每個人於各題項認知處理歷程。
黃宏宇説測驗目的,是希望透過、且方式,測到個人能力或態度傾向。但是運用古典測驗理論編製測驗,有著三大假設錯誤。
「其一是尺度問題,」黃宏宇進一步説:「例如今天有一個題項詢問你程度,請你圈選1到5分,但是有可能因為每個人於分數標準,有人覺得4分,有人可能覺得3分了。另外有種可能是,假設最近考試壓力大,你覺得好像,於是填答了4分5分,這『等距假設』導致誤差。」
因為各題項分數,每個人心理表徵並見得是等距。而如果這些等距各題項分數加總,稱該總分個人特質話,可能會影響測驗結果。
「另一種『答題風格』假設錯誤。」黃宏宇表示我們每個人,有屬於自己答題「反應風格(response style)」。
可以觀察一下自己或他人,寫測驗時候,是不是會有填答傾向?例如有些人喜歡填答「是」-具贊試題傾向,或者相反。另外,還有些人反應,分數1到5答案之中,不是將分數填答「1」、填答「5」,有中間值,這每個人答題反應風格。
延伸閱讀…
另外黃宏宇指出華人普遍喜歡趨中填答,「」、「感覺」是會遇到中庸答案,這樣答題反應風格,造成研究偏誤。比如説,具趨中反應受試者,填答「3」時,其內心反應強度,搞不好和填答「5」人相似。
「然而古典測驗理論觀點裡,無法改善這類偏誤,只能它列為測驗是否影響因子而已。」黃宏宇補充道:「事實上,每個人個別試題反應上,會有表現。」
後第三個假設錯誤是「測驗難度依賴性」。黃宏宇表示:「古典測驗理論編製出的測驗,同時拿普通班、資優班、資源班進行施測,會發現測驗結果。於資優班而言,題目可能;但是於資源班來説,題目會過,此時去定義測驗本身是偏難或偏易。」這是因為受試者具有族羣特殊性存在。
倘若具有族羣受試者時進行同一份測驗,羣體間存在能力上差異,進而會影響到測驗結果分析。此外,古典測驗理論信度模式下,測量結果誤差會存在羣體間變異,這是一個不合理假設。試想一件M號衣服,它中等身材人穿合身,但是於身材人不是那麼。測驗是如此,中等測驗適合學生,但見得適合資優或資源班學生,因此測量結果誤差會不相同。
而遵循古典測驗理論研究者,測驗分數視為等距量尺來計分,個體認知反應歷程,以及忽視測驗結果誤差變異性,並此宣稱獲得研究結果。黃宏宇強調,以此方法所得出研究結果,可能是有瑕疵、或是。
延伸閱讀…
當代測驗理論:試題反應理論(item response theory, IRT)
「試題反應理論可以解決上述問題。」黃宏宇堅定道:「因為試題反應理論建構機率參數模型裡,受試者能力試題特性納入考慮,其中受試者表現情形或反應機率,可以內潛在特質形成一種性遞增數學函數。」
這條數學函數稱作「試題特徵曲線」(item characteristic curve, ICC),是數學方程式推導形成「機率參數模型」,可以來表徵每一道試題特性,包含試題、試題鑑別度試題猜測度,並透過機率模型,顯示受試者個體能力試題上答題表現。這個架構之中,能提供且貼近能力或特質測量。
具備「試題特徵曲線」題項,可以估計出受試者某一試題上選答機率,以及受試者某種潛特質程度。潛在特質程度(或),試題上正確反應機率便。
黃宏宇指出:「於古典測驗理論測驗總分來看待個人特質,試題反應理論是單一題項觀點出發測量理論。」這個關係線中,可看出試題是否能鑑出個人潛在特質,以及瞭解個人答題上緻貌。
若以試題反應理論來分析個體反應風格,黃宏宇指出「中庸答題」受試者試題選項之特徵曲線會呈現廣的分佈,意味著不管能力或特質,其試題中間選項選答機率。