国产第页,国产精品视频一区二区三区,国产精品网站夜色,久久艹影院,精品国产第一页,欧美影视一区二区三区,国产在线欧美日韩精品一区二区

歷史回眸 蒲公英文摘 > 歷史回眸 >

【計算機自動化項目生成概述】電氣工程及其自動化自考

發(fā)布時間:2020-03-03 來源: 歷史回眸點擊：

　　摘要：近年來，計算機自動化項目生成作為應(yīng)對測驗項目曝光問題的很具前景的一項技術(shù)，逐漸得到越來越多研究者的重視。這種技術(shù)是以認(rèn)知心理學(xué)和心理測量學(xué)為基礎(chǔ)，在測試過程中借助計算機自動生成目標(biāo)難度水平的項目。該文首先簡要介紹了這種技術(shù)的理論基礎(chǔ)和兩種具體方法，然后以項目設(shè)計系統(tǒng)法為例說明自動化項目生成研究的具體步驟與優(yōu)點，最后評述了這種技術(shù)的局限性及未來的發(fā)展趨勢。
　　關(guān)鍵詞：計算機自動化項目生成，認(rèn)知設(shè)計系統(tǒng)法，項目模型法，構(gòu)念效度。
　　分類號：B841
　　
　　隨著心理測驗在招聘選拔情境中的應(yīng)用越來越普遍，測驗項目的曝光問題也逐漸引起人們的重視。測驗項目的曝光不僅會影響測驗的公平性，也可能會影響測驗的心理測量學(xué)屬性。計算機自動化項目生成被許多研究者認(rèn)為是應(yīng)對測驗項目曝光問題的很具前景的一項技術(shù)。自動化項目生成是指在測驗過程中，計算機根據(jù)項目編制者或者自適應(yīng)施測程序的要求，在項目生成算法的指導(dǎo)下，即時自動生成符合指定項目參數(shù)的項目。盡管這個項目先前并不存在，也沒有經(jīng)過試測，但項目參數(shù)可以通過基于項目刺激特征與項目屬性之間關(guān)系的心理測量學(xué)模型進(jìn)行預(yù)測。因而自動化項目生成可以看作是認(rèn)知心理學(xué)、心理測量學(xué)以及計算機技術(shù)三者有機結(jié)合的產(chǎn)物，是對傳統(tǒng)項目編制方法的革新。這種技術(shù)已經(jīng)被應(yīng)用到能力和成就測驗領(lǐng)域，還被用于對復(fù)雜技能的評估，如問題解決、臨床診斷和教學(xué)技能，因項目編制效率高、結(jié)構(gòu)效度好而受到歡迎。
　　
　　1　理論基礎(chǔ)
　　
　　盡管早在20世紀(jì)70年代已經(jīng)有研究者提出項目生成的思想，但真正利用項目生成方法編制測驗的實踐則是從80年代中期才開始的。其間Embretson對構(gòu)念效度的重新闡述對促進(jìn)自動化項目生成的發(fā)展起著關(guān)鍵作用。Cronbach和Meehl提出的構(gòu)念效度已經(jīng)指導(dǎo)能力測驗幾十年了，但Embretson認(rèn)為他們的提法混淆了構(gòu)念本身的含義以及與其他類似構(gòu)念的關(guān)聯(lián)。由于相關(guān)數(shù)據(jù)的累積只能通過測驗編制完成之后的施測獲取，因此傳統(tǒng)的構(gòu)念效度概念只能用來描述測驗當(dāng)前的構(gòu)念，卻不能為測驗設(shè)計提供指導(dǎo)。
　　為了將測驗設(shè)計結(jié)合進(jìn)構(gòu)念效度概念，Embretson提出一個兩部分分離的構(gòu)念效度：構(gòu)念表征(construct representation)和規(guī)則廣度(nomothetic span)。構(gòu)念表征涉及鑒別任務(wù)表現(xiàn)潛在的認(rèn)知成分，而規(guī)則廣度則關(guān)注測驗分?jǐn)?shù)與其他構(gòu)念之間的詳細(xì)關(guān)系。Embretson認(rèn)為傳統(tǒng)構(gòu)念效度的方法只包含后者，通過和其他測量相關(guān)聯(lián)給測驗分?jǐn)?shù)賦予意義(規(guī)則廣度)：而認(rèn)知心理學(xué)的新進(jìn)展表明測量的意義也可以直接獲得，即通過對在單個項目的問題解決行為中所涉及的過程、策略和知識的理解來確立(構(gòu)念表征)。構(gòu)念表征的研究范式包含運用認(rèn)知心理學(xué)的方法為測量任務(wù)建立心理加工模型，如操縱測量任務(wù)的刺激特征，從而改變對假定認(rèn)知過程的影響。
　　這種兩部分分離的構(gòu)念效度對測驗編制來說有很大優(yōu)勢。最重要的是可以用認(rèn)知理論指導(dǎo)測驗編制。因為測驗分?jǐn)?shù)的意義在構(gòu)念表征階段已經(jīng)確立，因此可以設(shè)計測驗項目來反映特定的認(rèn)知結(jié)構(gòu)，進(jìn)而根據(jù)那些已經(jīng)得到實證性支持的影響目標(biāo)過程、策略和知識結(jié)構(gòu)的刺激特征來選擇項目；同時，規(guī)則廣度也受目標(biāo)認(rèn)知過程與重要外部變量之間關(guān)系的影響，對問題解決過程的認(rèn)知分析可有助于它的提高。
　　
　　2　具體方法
　　
　　根據(jù)認(rèn)知理論在項目生成中的影響過程和作用，Embretson等認(rèn)為可將目前主要的自動化項目生成方法分成兩種：認(rèn)知設(shè)計系統(tǒng)法和項目模型法。這兩種方法分別對應(yīng)于Bejar等所提出的強理論(strong theory)和弱理論(weak theory)。強理論通過問題解決過程中隱含的心理學(xué)原理來精細(xì)地控制組成測驗的模型或生成模型的實例的難度，如Embretson的矩陣完成測驗和Beiar的心理旋轉(zhuǎn)測驗；弱理論以一組內(nèi)容和難度上有廣泛代表性的校準(zhǔn)好的測驗項目為起點，依據(jù)最佳實踐原則(best-practice guideline)而非心理學(xué)原理生成模型，如GRE數(shù)學(xué)測驗。這種分類方法對項目自動生成具有實踐指導(dǎo)意義，因此下面將對兩種方法的基本思想、步驟以及應(yīng)用條件進(jìn)行詳細(xì)介紹。
　　
　　2．1　認(rèn)知設(shè)計系統(tǒng)法
　　認(rèn)知設(shè)計系統(tǒng)法的基本思想是通過實驗研究，發(fā)現(xiàn)項目刺激特征中的基本成分和隨機成分。基本成分或控制成分(radicals or controlling elements)是指對項目心理測量學(xué)特性(如難度)有顯著影響的項目刺激特征；隨機成分或非控制成分(incidentals or non-controlling elements)被定義為對項目的心理測量學(xué)特性(如難度)沒有顯著影響的項目刺激特征。一般認(rèn)為，基本成分主要有以下兩類：第一類與工作記憶操作有關(guān)，如矩陣推理測驗項目中規(guī)則的數(shù)量，閱讀理解測驗中的單詞轉(zhuǎn)換等；第二類與知識操作有關(guān)，如閱讀理解測驗中的詞頻等。隨機成分都是些表層特征，如數(shù)學(xué)題目中涉及人物或物品的名稱等。
　　
　　2．2　項目模型法
　　項目模型法，也稱模版法(template)，是指以具有良好心理測量學(xué)指標(biāo)的項目為基準(zhǔn)(原型或框架)，通過替換那些被認(rèn)為與問題解決過程無關(guān)的特征，如物體名稱、具體數(shù)字等，形成多個新項目。雖然這些新項目看起來與原來的項目不同，但實質(zhì)卻是類似的。實際上項目模型法也可看作是生成同構(gòu)異形題多個實例的過程，這些項目在實質(zhì)內(nèi)容和心理測量學(xué)屬性上都相一致。如果正如假設(shè)的那樣，新項目繼承了項目模板的特性，在心理測量學(xué)特性上與原先模板的特性非常接近，則可以直接通過這些新項目估計測試者的能力，而不需要進(jìn)行試測。
　　
　　2．3　兩種方法的比較
　　這兩種方法的根本差別在于對認(rèn)知心理學(xué)研究成果的倚重程度，認(rèn)知設(shè)計系統(tǒng)法對認(rèn)知心理學(xué)的依賴程度更高些。
　　對項目模型法來說，認(rèn)知心理學(xué)的影響主要體現(xiàn)在兩個方面：(1)必須要限定那些與測量構(gòu)念相關(guān)的變量允許替換的范圍，以免在很大程度上改變認(rèn)知加工過程。如替代的速度和距離需要更復(fù)雜的計算，以改變問題的難度。(2)利用語義網(wǎng)絡(luò)來確定什么樣的替代變量的組合是有意義的。比如在交通方式及其相應(yīng)的動詞上，飛機對應(yīng)飛行，汽車對應(yīng)行駛。項目模型法是期望通過最小限度地替換現(xiàn)存項目中的部分成分，去生成與原模板特性類似的大量項目。項目模型法因應(yīng)用范圍廣、花費比較適中等優(yōu)點，受到ETS等考試服務(wù)機構(gòu)的青睞，如用于GRE中的數(shù)學(xué)測驗、數(shù)量推理測驗的項目生成。然而這樣的項目因變動較小，重復(fù)曝光，容易被測試者記住，進(jìn)而導(dǎo)致心理測量學(xué)屬性的顯著差異。
　　對認(rèn)知設(shè)計系統(tǒng)法來說，認(rèn)知心理學(xué)的研究起重要作用，它直接影響項目類型的認(rèn)知加工分析和解決過程中認(rèn)知模型的建立。這個模型對項目解決過程、刺激特征對過程的影響以及過程對成績的影響進(jìn)行了詳細(xì)說明。因此，基于認(rèn)知設(shè)計系統(tǒng)法建構(gòu)的項目，允許替換所有項目表層特征，只是基本成分的隱蔽性要求更好些。通過這種比較，我們可以看出對于那些有堅固認(rèn)知研究基礎(chǔ)的項目類型來說，認(rèn)知設(shè)計系統(tǒng)法顯然是更合理的選擇。目前這種方法已經(jīng)被用于非言語能力傾向測驗，如矩陣推理項目、圖形類推、空間折疊以及空間物品排列；正試圖應(yīng)用于其他類型的項目，如言語類推、言語分類、字母序列、段落理解以及數(shù)學(xué)問題解決。
　　
　　3　具體步驟
　　
　　下面介紹認(rèn)知設(shè)計系統(tǒng)法的具體步驟。其實在具體實施中，項目模型法也秉承類似的做法，只是對實驗控制和認(rèn)知心理學(xué)實驗的倚重程度上有所不同。根據(jù)Embretson等的做法，認(rèn)知設(shè)計系統(tǒng)法指導(dǎo)下的自動化項目生成主要包括以下4個階段：
　　
　　3．1　為現(xiàn)存項目建立認(rèn)知模型
　　在項目生成研究的最初階段，認(rèn)知設(shè)計系統(tǒng)法需要為現(xiàn)存的能力測驗項目建立認(rèn)知模型，目的是從整體上了解項目變異的來源。首先從文獻(xiàn)綜述出發(fā)，考察潛在的認(rèn)知加工過程以及影響項目變異的刺激特征，即哪些刺激特征可能會對項目的難度、區(qū)分度等屬性產(chǎn)生影響。一般而言，實驗室研究中使用的任務(wù)通常會比真正的能力測驗上的項目更簡單，因此需要假設(shè)一個更復(fù)雜的模型來充分表征能力問題解決中的認(rèn)知加工過程。然后采用多種研究手段(如眼動、計算機模擬)對所識別出的、可能影響項目屬性的刺激特征進(jìn)行實驗驗證，求這些刺激特征與項目屬性之間的相關(guān)，或者比較操縱這些刺激特征引起項目屬性的變化來確定它們的影響。盡管一般而言，項目難度是研究者最關(guān)注的項目屬性，但反應(yīng)時數(shù)據(jù)對認(rèn)知加工模型的支持也很必要。
　　
　　3．2　根據(jù)規(guī)則生成項目并修正認(rèn)知模型
　　在項目生成研究的第二階段，認(rèn)知設(shè)計系統(tǒng)法主要關(guān)注項目編制和測驗設(shè)計的問題，即項目刺激特征能否被單獨操縱來影響加工難度，這些項目刺激特征是基于上一步建立的認(rèn)知模型中的變量。為操縱項目刺激特征，根據(jù)認(rèn)知模型變量建構(gòu)一套項目編制說明(項目生成算法)，然后在據(jù)此手工編制一批新項目進(jìn)行試測，確定項目刺激特征是否影響項目難度以及被試在這些項目上的表現(xiàn)。雖然通過試測可以估計項目和被試參數(shù)，但這一階段的主要關(guān)注點仍是項目刺激特征。對于認(rèn)知模型來說，項目刺激特征應(yīng)當(dāng)能充分預(yù)測項目難度、反應(yīng)時以及其他一些心理測量學(xué)指標(biāo)。另外，從實證的角度來說，具有相同刺激特征組合的項目在心理測量學(xué)指標(biāo)上應(yīng)該高度接近。
　　
　　3．3　計算機自動化生成項目
　　在項目生成研究的第三階段，需要編制計算機程序?qū)崿F(xiàn)項目自動化生成，即計算機自動化項目生成器。盡管編制出項目生成和呈現(xiàn)機制方面的程序很重要，然而為特定項目類型發(fā)展出項目結(jié)構(gòu)則是成功的關(guān)鍵。項目結(jié)構(gòu)基于第二階段修正的認(rèn)知模型，是對所有影響項目認(rèn)知復(fù)雜性的各種項目刺激特征特定組合的詳細(xì)說明。這樣，具有相同項目結(jié)構(gòu)的項目攜帶有相同來源和水平的認(rèn)知復(fù)雜性，并相應(yīng)地具有相同的心理測量學(xué)指標(biāo)。其他一些未納入認(rèn)知模型的刺激特征，對項目認(rèn)知復(fù)雜性不造成顯著的影響，是可以變動的。需要注意的是，不同項目類型(如測量空間能力與測量推理能力的項目)在項目結(jié)構(gòu)上可能存在質(zhì)的差異。
　　
　　3．4　實證性地檢驗自動生成的項目
　　在這最后階段，還需要收集些實證數(shù)據(jù)來評估項目生成器的穩(wěn)定性以及自動生成項目的質(zhì)量。項目生成器的穩(wěn)定性主要是檢視自動化生成的項目外觀上是否符合預(yù)期的設(shè)定。自動化生成項目的質(zhì)量通過比較項目生成算法預(yù)測出的參數(shù)與項目的實際參數(shù)進(jìn)行評估，若兩者非常接近，則表明設(shè)立的認(rèn)知模型以及項目生成算法是有效的。
　　
　　4　相關(guān)IRT模型
　　
　　正如前面所提及的，自動化項目生成需要合適的心理測量模型以及實質(zhì)性研究(認(rèn)知基礎(chǔ))。實質(zhì)性研究很大程度上依賴于認(rèn)知心理學(xué)，從而通過預(yù)測取代估計項目參數(shù)，而心理測量學(xué)模型則依賴于項目反應(yīng)理論的發(fā)展。隨著測量模型和認(rèn)知心理學(xué)理論的發(fā)展，研究者提出多種能將認(rèn)知心理學(xué)理論和測量模型連接起來的拓展項目反應(yīng)理論模型，如線性邏輯斯蒂模型(LLTM，Linear Logistic TestModel)、約束兩參數(shù)邏輯斯蒂模型(2PL-constrainedmodel)和項目結(jié)構(gòu)的多層次IRT模型(HierarchicalIRT model for item structure)。其中前兩種模型特別適用于認(rèn)知設(shè)計系統(tǒng)法，最后一種特別適合于項目模型法。這些模型的共同特征是將影響項目認(rèn)知復(fù)雜性的變量進(jìn)行量化，納入到測量模型，從而為項目自動化生成的參數(shù)預(yù)測奠定基礎(chǔ)。
　　
　　5　優(yōu)缺點評述
　　
　　Embretson對自動化項目生成的優(yōu)缺點進(jìn)行了總結(jié)。她認(rèn)為，與傳統(tǒng)項目編制方法相比，自動化項目生成有如下幾點優(yōu)勢：(1)編制新的項目更容易，從而更好滿足自適應(yīng)測驗對大量項目的需求；(2)生成指定難度水平與合適心理測量學(xué)特性的項目，避免了傳統(tǒng)測驗編制時有大量項目因試測中品質(zhì)不合格而被拋棄；(3)如果項目生成算法足夠精準(zhǔn)，則可不必經(jīng)過試測而將新生成項目放入題庫；(4)結(jié)構(gòu)效度存在于項目水平，即每個項目認(rèn)知復(fù)雜性的具體來源都可以通過給模型變量賦以特定權(quán)重來確定；(5)可以重新設(shè)計測驗來表征項目難度的特定來源，即認(rèn)知復(fù)雜性的某些來源的影響可以直接加以控制。而自動化項目生成的局限性主要體現(xiàn)在：(1)這種方法需要實質(zhì)心理學(xué)的支持，即為特定的項目類型發(fā)展出合理的認(rèn)知模型需要一些實證性研究來支持。然而對某種特定的測驗來說是否實際，還得在最初的研究花費與可以生成無限個的新項目的成果之間權(quán)衡。(2)盡管這種方法可以應(yīng)用于新的項目類型，但還是對已經(jīng)發(fā)展出來的項目類型最有效。因為對新項目類型來說，它們結(jié)構(gòu)效度中的規(guī)則廣度還需要通過從該項目類型獲得分?jǐn)?shù)的相關(guān)的研究來證實。
　　
　　6　研究展望
　　
　　從20世紀(jì)80年代中期開始，心理和教育測量領(lǐng)域的一些研究者對很多項目類型進(jìn)行了認(rèn)知分析并應(yīng)用到新項目的編制，探討如何將認(rèn)知理論結(jié)合到測驗編制中。到現(xiàn)在為止，已經(jīng)在多個方面取得進(jìn)展，如GRE的數(shù)量推理、分析性推理等。對于自動化項目生成，目前國外最新的研究趨勢主要集中在以下4個方面：
　　
　　6．1　原有模型的修正
　　盡管先前的研究已經(jīng)找到影響認(rèn)知復(fù)雜性的一些因素，但隨著認(rèn)知心理學(xué)研究的深入，一些研究者認(rèn)為過去的認(rèn)知模型不能覆蓋所有這些重要的影響因素，因此需要對以往的模型進(jìn)行修正，以建立解釋率更高的認(rèn)知模型來擬合相關(guān)問題解決過程，如Diehl在項目生成算法中納入干擾項的特性。
　　
　　6．2控制機制的引入
　　對于自動化項目生成，如何在研究者不干預(yù)的情形下產(chǎn)生符合要求的測驗?Embretson自動化生成的抽象推理測驗項目，從知覺角度分析，大約有7％的項目不符合要求。將自動生成的這些項目直接呈現(xiàn)給測試者，這在高利害關(guān)系的測驗中顯然是不允許的。因此有必要引入項目質(zhì)量控制機制，如Arendasy等人建議加入基于Rasch模型的校準(zhǔn)機制。
　　
　　6．3　內(nèi)容領(lǐng)域的擴展
　　過去計算機自動化項目生成的一些測驗主要集中于有堅固認(rèn)知基礎(chǔ)的領(lǐng)域(如心理旋轉(zhuǎn)、隱蔽圖形和抽象推理測驗)，很容易通過操縱相關(guān)刺激特征控制加工難度。言語測驗的自動化項目生成則涉獵較少。自然語言機制研究的進(jìn)展，逐漸為言語測驗的自動化項目生成提供技術(shù)支持，如GRE的分析性推理測驗項目的生成。
　　
　　6．4　測驗技術(shù)的革新
　　計算機自適應(yīng)測驗可以根據(jù)對測試者的能力的初步估計，從已知項目參數(shù)的題庫中選擇最佳信息量的項目，從而提高測驗的效率。如果將自動化項目生成結(jié)合進(jìn)來，計算機自適應(yīng)測驗不是從題庫中抽取項目，而是調(diào)用根據(jù)對測試者的能力的初步估計即時生成的項目，從而實現(xiàn)自適應(yīng)項目生成。這將在很大程度上降低題庫維護(hù)成本，提高測驗的安全性。根據(jù)Embretson和Yang，盡管一些項目自動化生成以及自適應(yīng)施測的程序已經(jīng)存在，但尚沒有將這兩者結(jié)合起來的研究和實踐。
　　總而言之，正如Swanson所說，自動化項目生成將成為未來測評的主流是不容置疑的，目前討論的問題主要是如何發(fā)展和應(yīng)用這種技術(shù)。計算機自動化項目生成在測驗編制中有著巨大的潛力，如效率高、結(jié)構(gòu)效度好等特點，在世界各地的多項測驗中已經(jīng)得到較好的應(yīng)用(如美國GRE、英國BARB)。在我國這一方面的研究和實踐還非常少，如何借鑒其他國家和地區(qū)的經(jīng)驗，提高我國教育與心理測驗的效率和質(zhì)量是值得我們思考的問題，如自動化項目生成的原則也可用于指導(dǎo)人工編制項目，對目前正在構(gòu)建的國家級題庫具有實際意義。

相關(guān)熱詞搜索：概述生成自動化計算機自動化項目生成概述計算機自動化論文參考文獻(xiàn) 計算機自動化參考資料范文

熱點文章閱讀

版權(quán)所有 蒲公英文摘 www.huhawan.com

<dfn id="s2wsu"></dfn>

<abbr id="s2wsu"></abbr>