字級:
小字級
中字級
大字級

美國教育測驗服務社進修紀要 [選才 第233期 103.1.15]

教育與測驗有密不可分的關係,無論國內或國外,對於學習成就的衡量,最直接有效的方式便是透過測驗給予評分,再由此評分判斷學生的學習情況。臺灣學生在進入大學之前,絕大多數需要通過學科能力測驗或指定科目考試,而承辦這兩項重要考試的大學入學考試中心(以下簡稱本中心)便有責任在測驗的環節中,盡可能做好最佳處理,所以藉由他山之石,以精進本中心各項測驗的信度(Reliability)、效度(Validity)及公信力,是重要也必須的。基於此,本中心於102年11月30日至12月8日由楊宏章顧問帶領兩位統計研究同仁前往美國教育測驗服務社(Educational Testing Service, ETS,以下簡稱ETS)進修與學習,除了精進測驗統計上的知識和技術之外,更希望了解ETS的實務處理方式。以下先簡介ETS,其次詳列本次的進修課程,接著說明時間安排與心得收穫,最後總結。

一、ETS簡介

ETS成立於1947年,現為全世界最大的私人非營利教育測驗組織。總部座落於美國紐澤西州的Lawrence Township,臨近普林斯頓大學(Princeton University)及紐澤西州立羅格斯大學(Rutgers, The State University of New Jersey)。ETS承辦多項業務,包含廣為大眾熟知的國際型考試TOEIC、TOEFL、GRE和Praxis,以及美國的本土測驗K-12、SAT,其中SAT為美國大學入學的主要考試之一,由大學理事會(College Board)委託辦理,考試內容包含三個主要單元,分別為批判性閱讀(Critical Reading)、數學(Mathematics)和寫作(Writing),此外還有較為深入的SAT Subject Tests,包含英文、歷史、數學、科學和語言等五部分。除此之外,ETS於測驗相關的研究上,更是不遺餘力,在信度、效度、等化(Equating)、試題反應理論(Item Response Theory, IRT)等方面,皆有著名的研究人員不斷深入探究理論與實務的連結。

二、ETS進修課程

本次前往ETS參加其全球部門(ETS Global Institute Global)主辦的測驗統計課程(Psychometric and Assessment Development course),課程時間為102年12月2日至6日,每日以2到3個不同的主題式密集上課,整個課程在全球部門管理主任(Annabelle G. Simpson)、經理(Abdullbaset A. Abdulla)與助理(Stefania Mastrogiacomo)等人的協助之下,一切順利進行。參與課程的學員來自澳門、越南、智利、墨西哥、美國、馬來西亞、奈及利亞和臺灣,共計18人,此亦顯示ETS所舉辦的各種測驗或計畫確實受到許多國家的重視,因此當有相關課程開授時,許多不同國家的人員皆爭相前往取經。在ETS全球部門的安排下,由ETS的多位專家授課,課程包含三個部分,分別為主要課程(Main Session)和兩個平行課程(Parallel Sessions),而主課程中有13個不同主題的演講和討論,平行課程中則分別有6和3個演講,各種課程和內容分列如下(括弧中為主講者):

主要課程

1.Overview of Psychometric Concepts(Mary Pitoniak)
2.Steps in the Test Development Process(Uma Venkateswaran)
3.Reliability & Standard Error of Measurement (Ourania Rotou)
4.Test Validity(John Young)
5.Evidenced Centered Design (ECD)(Diego Zapata)
6.Test Equating I(Skip Livingston)
7.Test Equating II(Skip Livingston)
8.Differential Item Functioning (DIF)(Sydell Carlton)
9.Item Response Theory (IRT)(Fred Robin)
10.Item and Test Analysis(Sooyeon Kim)
11.Item Banking(Tim Davey)
12.Standard Setting(Mary Pitoniak)
13.Open Discussion on Psychometric Issues(Tim Davey & Mary Pitoniak)

平行課程一:教師資格評鑑(Teacher Licensure Assessment)

1.Praxis Testing Program:Overview(Cory Murphy & Terry Owens)
2.The Praxis Series(Cory Murphy & Terry Owens)
3.Establishing Content Specifications for Praxis II Subject Tests(Carmen Luna)
4.Item Writing/Reviewing for Teacher Credentialing Tests – Example:Principles of Learning and Teaching Test(Kimberly Segal-Morris & Sumbo Oluwalana)
5.Standard Setting for Teacher Credentialing Tests(Wanda Swiggett)
6.Discussion on Teacher Quality(Laura Goe)

平行課程二:全國性評鑑(National Assessment)

1.Overview of NAEP Testing Program(Rochelle Michel)
2.NAEP Survey Questionnaires(Jonas Bertling)
3.NAEP Score reporting Tool(Robert Finnegan)

註:NAEP為National Assessment of Educational Progress,美國全國教育進步測驗)

三、時間安排與心得收穫

以下以課程時間為順序,說明各主題授課內容的概況,及筆者在每個課程中所獲得的簡短心得:

  12月2日:從與會學員和授課教授的自我介紹開始,了解來自四面八方每位同學的背景,以及參加本次課程的目的,同時得知各位教授所專精的項目與授課主題。第一位登場的授課教授便是Pitoniak博士,首先介紹心理測驗統計的基本概念,同時點出許多重要的主題,也完整地為後續的每個課程鋪陳。第二位教授是Venkateswaran博士,清楚描繪出ETS在測驗施行的流程,其中對於預試(Pretest)和題庫(Item Bank)的倚重,值得本中心參考。

  12月3日:始於Rotou博士的信度與測量標準誤(Standard Error of Measurement, SEM)的介紹,精闢的講解加深學員對於信度分析的理解。接著是原任職於羅格斯大學的Young教授為學員說明測驗效度的重要性,教授互動式的講解,不局限於投影片內容,而是以自身的經歷說明如何建構和衡量效度,令人收穫匪淺。當日最後一位講者是Zapata博士,為學員講述證據中心評量設計(Evidenced Centered Design, ECD),對筆者而言,這是一個較新的主題,而整個演講中最引人注意的部分是Zapata博士介紹的一套系統,此系統為題殼設計概念,其中已包含題目主要的題幹,因此僅需更動例如主詞、動詞等部分,即可自動組出類似的多道題目。不過在高風險測驗下適用性不高,但應用於教學上非常合適。

  12月4日:是最令人期待的一天,由Livingston博士以3個小時的時間為學員介紹等化。雖然筆者在赴美之前已閱讀過其所撰寫的Equating test Scores (Without IRT)一書,但在作者本人的引導之下,對於許多不同實驗設計、等化方式,及不同設計適用於何種情況或群體,或不同等化方式的限制,皆有更清楚的了解。下午時段則由Carlton博士講述關於差別試題功能(Differential Item Functioning, DIF),其中最重要的是以實際例子說明何種試題容易出現DIF,在ETS中常被引用的實例為「color of lemon」,因為檸檬有綠和黃兩種顏色,所以該考題若出現在不同國家,則容易出現DIF。除此之外,從課程中亦了解impact和DIF確切的差異。

  12月5日:第一節課是由Robin博士主講的試題反應理論(Item Response Theory, IRT),從作答反應的符號定義開始帶入,接著比較古典測驗理論(Classical Test Theory, CTT)和IRT的使用限制與優缺點,並介紹如何將IRT應用於資料之中,以及不同的模型表現情形,最後再以電腦適性化測驗(Computer Adaptive Test, CAT)作為收尾。第二節課由Kim博士介紹試題分析(Item and Test Analysis),說明ETS係同時透過CTT與IRT兩種方式進行試題分析,更重要的是從試題分析中點出預試的重要性,藉預試可了解試題是否過難、太易、敘述模糊等,且可對試題進行難易度判別和歸類,至於最好的預試做法是在正式卷中嵌入預試題,而該部分不予計分,也就是SAT現在的作法。另外,亦展示了一套常用軟體的介面,方便統計研究者和命題者快速了解該試題的優缺點與問題點。第三節課Davey博士講述從統計學和心理學觀點來看題庫的需求,內容主要分為四部分,包含何謂題庫、題庫應涵蓋哪些資訊、資訊該如何組成、資訊該如何應用。Davey博士概略地介紹題庫不應該僅是一個儲存試題的位置,而是同時具備各種資料和統計分析功能的資料庫,因此可將題庫分為三個部分,分別為試題內容(Item Content)、巨量資料(Metadata)、統計分析(Statistics),具此三者才可稱為一個恰當的題庫。

  12月6日:首先由Pitoniak博士介紹標準設定(Standard Setting),其中分為五個部分,分別為標準設定的定義、不同種類標準的描述、設定標準時的步驟、常見的標準設定方法、評估標準設定的效度方式,演講以輕鬆詼諧的方式進行,清楚地介紹多種不同標準設定的做法,例如Angoff法、Bookmark法等。第二節課則是Davey和Pitoniak博士共同主持的討論會,會中來自各國的學員紛紛提出疑問,而兩位博士也以所知盡量回答。最後,下午時段則是安排了證書頒發與合影。

四、後記

本次前往ETS進修心理與測驗課程,深深感覺到在ETS如此龐大的機構中,研究能量仍然不間斷地增加,更佩服該機構對於每一道試題所花費的心力。由於本次參與進修的學員們背景大多不同,且多數無測驗統計相關知識,因此課程較著重於概念式介紹和各種心理測驗的精神說明,不過仍有部分單元的詮釋較為深入。課程中亦開放學員們提問,除了較為機密性的問題不便回答,其餘各種相關問題,主講者皆熱情地回覆。在課程時間之餘,全球部門的Simpson博士、Abdulla博士和Pitoniak博士特地安排12月3日的課後,邀請每位學員至普林斯頓大學參觀古色古香的校園與主要圖書館(Firestone library),並介紹愛因斯坦的往事與校園中許多不同建築物的由來,而徜徉其中,確實令人感到此處十分適合進行研究。最後,承蒙中心予此機會進修,並感謝ETS全球部門的細心規劃,使本次進修過程非常順利,且獲益良多。

Mary Pitoniak博士簡介心理測量概念Mary Pitoniak博士簡介心理測量概念
Diego Zapata博士說明證據中心評量設計Diego Zapata博士說明證據中心評量設計
課後合影課後合影
TOP