托福口語是機器打分還是人工打分
大家比較關(guān)心托??谡Z的打分方式,下面小編就和大家聊聊這個話題。
【托福口語】托??谡Z評分時人工還是機器
托??谡Z本次改革引入自動評分系統(tǒng),其實這項計劃早就在準備中了,這從ETS這份官方報告當(dāng)中就可以看出,其實現(xiàn)在所使用的引擎已經(jīng)是5.0版本的引擎,下面我們就來看一下托??谡Z機器評分的要點。
19年托福改革后,我們可以非??隙ǖ馗嬖V大家,托??谡Z一定是機器批改,至少機器批改參與了每一位同學(xué)的評分過程。ETS官方公布的數(shù)據(jù),最新版本的托??谡Z機器評分系統(tǒng)Speech Rater與人工評分的相關(guān)性系數(shù)是0.81。說實話,官方單純的拿這么一個統(tǒng)計學(xué)系數(shù)擺在我們的面前,對于考生或者是托福資深教師而言是沒有感覺的,這個系數(shù)到底是偏高還是偏低,究竟什么數(shù)值范圍值得我們進行參考,根本就無從比較。
真人教師來核查的幾率不是100%的,所以盡量不要在結(jié)尾處留太多的空白。這樣機器肯定首先就會給考生扣分。但是為了防止教師來核查,復(fù)聽,建議考生在備考托??谡Z的時候,學(xué)會掌控時間,盡量不要超時太久。再給考生一個小建議:在托??谡Z考試中,盡量不要停止說話,如果沒話說就多說點套話,在平時的練習(xí)中,針對機經(jīng)上的重點話題進行準備。
隨著越來越多的年輕學(xué)生在世界范圍內(nèi)學(xué)習(xí)英語作為第二語言(English as a Foreign Language),為青少年語言學(xué)生(Young Language Students)設(shè)計的標準化語言考試 (比如托??荚?。
變得越來越受歡迎。鑒于這一快速增長的趨勢,需要更好地理解年輕學(xué)生的語言發(fā)展模式和語言表現(xiàn)的語言特征成為語言學(xué)教師的需求。根據(jù)2014年,兩位口語測評學(xué)者Bailey&Heritage的研究,語言發(fā)展模式和語言表現(xiàn)對于語言學(xué)評估的創(chuàng)建提供指導(dǎo)和指導(dǎo)至關(guān)重要。ETS于是系統(tǒng)地進行實證研究:在青少年語言學(xué)生中檢查其英語語言能力(English Language Proficiency)的進展以便驗證青少年語言學(xué)生評估任務(wù)和評分標準,并為基于測試結(jié)果的提供有效性證據(jù)(Kane,2013)。
在目前ETS采用的機改Speech Rater的系統(tǒng)中,對于托??谡Z測評是何以科學(xué)、公正以及客觀地對考生們進行評價的呢?根據(jù)ETS最新的一項研究, 自1996年就有語言學(xué)學(xué)者(Ginther et al., 2010; Towell, Hawkins, & Bazergui, 1996) 使用平均話語長度(mean length of run) 這項指標來對考生們的流利度進行測評。
通俗易懂的說法,就是在托??荚囍心愕乃?quot;huh", "uh", "erm", "um", and “well" (filled pause)都會被計數(shù),當(dāng)頻率高到一定程度,就會被認為是弱流利度,另一種就是沉默(silent pauses), 在整個口語回答的過程中如果出現(xiàn)長間斷,那么系統(tǒng)會自動把你的口語歸為弱流利度。而托福口語考試的不同任務(wù)(task)其對考生們的語言能力和認知能力都有所不同,因此在進行口語獨立任務(wù)(independent speaking task)設(shè)計和口語綜合任務(wù)(integreated speaking task)設(shè)計的過程中。
在這項研究中,青少年(YLS)與成人考生(Adult learner)的流利度水平在兩個任務(wù)的機評效果中都出現(xiàn)了較為穩(wěn)定的表現(xiàn)。因此我們可以得出客觀結(jié)論,在口語流利度方面,考生們在口語獨立任務(wù)和口語綜合任務(wù)之間較少會出現(xiàn)流利度偏差。
最新的5.0引擎當(dāng)中,最新版的引擎已經(jīng)極為接近于真人閱卷者進行了評分,在ets官方所發(fā)布的資料當(dāng)中,真人評分和機器評分的相關(guān)系數(shù)已經(jīng)達到了0.81,換句話說也就是,ETS在告訴大家:我們這套系統(tǒng)已經(jīng)做得挺好了,已經(jīng)敢拿出來給你們看一看了。最為影響最終分數(shù)的3個影響因素,他們分別是:平均沉默時長,單詞重復(fù)率,和語速。
今天我們再來看另外8個重要的影響因素。
很顯然在這里排名第4位的影響因素,就是Total acoustic model score for all words with model trained on native data,看了這段生澀的語言,說實話無老師也有點要吐了。這個名詞,還真有點不是特別好解釋??偠灾?,這個其實涉及到ETS在評分過程當(dāng)中具體的一個流程,也就是在Speech Rater進行評分的時候,其實有一個關(guān)鍵性的步驟,就是讓機器來識別,考生本人所說的英語是否是地道的英語,這個主要是從發(fā)音和節(jié)奏來進行判斷,就是當(dāng)你的口語越接近于地道的發(fā)音,那么你的分數(shù)越高,反之亦然。這個影響系數(shù)達到了0.81,因此也就有了下面第2條影響因素,Total acoustic model score with model trained on nonnative data。
如上的4條,是所有的影響系數(shù)高于0.7的影響因素,接下來所列出的7條,影響系數(shù)全都低于0.7且高于0.5,這也就意味著對于最終分數(shù)的影響,沒有前面4條影響那么大,但是同時也比較重要。
其中4條高于0.6的影響因素分別是,
Average of chunk length in seconds——平均意群的長度
No.repetitions——重復(fù)程度
Score point with the highest grammatical similarity score——語法的相似程度
Total no. different lexical types——詞匯的多樣性
Average of chunk length in seconds——平均意群的長度,歸屬大類Fluency——流暢:影響因子0.66,
這意味著,句子如果全都是三個詞,類似于I like you的簡單句,那么得分一定會偏低,但是如果能多用一些固定搭配、或者一些修飾性的成分,使得這個句子一方面不脫離口語化,不會像書面語那么復(fù)雜,同時句式的內(nèi)容也可以比較豐富和飽滿,那么得分就會提高。當(dāng)然這一條的解讀還可以有很多的層次,無老師在此就先不一一展開了。
No.repetitions——重復(fù)程度,歸屬大類Fluency——流暢:影響系數(shù)0.61。
把重復(fù)程度放在流暢程度當(dāng)中,說實話有點奇怪,既然放在流暢程度這個大類當(dāng)中,估計在這里面所表述的是,你是否會出現(xiàn)結(jié)巴的情況,也就是會連續(xù)反復(fù)同一句話。
托??谡Z評分標準
口語“are rated by three to six raters”指的是每道題只有一位考官打分,但不同題目的打分考官可能不同,一位考生的六道題目最少會有三位考官, 最多會有六位( 每道題一位)。最后評分不會特別偏重某類題型,比如說獨立或綜合。所以,總體而言,ETS 的評分用一個詞來講是:holistic,即,考慮考試口語內(nèi)容的整體性。也就是說,ETS 口語評分標準不會因某個具體方面而出現(xiàn)偏重,如,在不影響理解的前提下,語音語調(diào)不好不會成為扣分原因。在holistic 這一標準下,ETS 的最重要考慮因素是:intelligible, 可理解為可以順暢的讓考官聽懂考生的表述內(nèi)容。在holistic 和intelligible 兩個標準之外,對答題內(nèi)容而言,有如下三個評分維度:
1.Structure
2.Content
3.Language
Structure, 即結(jié)構(gòu), 總體來講,ETS 評分官特別希望考生能夠在答題部分給出清晰的結(jié)構(gòu)。其中結(jié)構(gòu)要求主要包括:
1)主題句thesis statement:在開頭部分明確地表明自己的觀點。
2)過渡詞:在中間部分有明顯的邏輯連接詞或表過渡的信號提示詞。
3)結(jié)論:如果時間允許,做簡單地總結(jié)。
content, 即內(nèi)容。ETS 有如下要求:
1)主題明確:明確地給出觀點。
2)簡單明了:不要過多的使用bigwords 和復(fù)雜句型;用考生經(jīng)常使用熟練的詞匯。
3)細節(jié)論點到位:獨立話題例子論點和細節(jié)提供詳細;綜合話題涉及聽力和閱讀部分分別提到的具體信息,如,Task5 的聽力部分女學(xué)生提到自己很忙,困惑于時間的安排,最近需要:準備考試,寫2 篇論文,還有一個志愿者活動要參加。ETS 對于細節(jié)的期待是:希
望考生可以將學(xué)生需要完成的事情:準備考試,寫2 篇論文,還有一個志愿者活動要參加這些細節(jié)都囊括到自己的回答部分中。所以,可以看出,ETS 十分看重考生對聽力和閱讀部分細節(jié)信息的整理和轉(zhuǎn)述。
language,即語言,語言的要求包括:
1)流暢:對語速的要求并不是越快越好。最好考生是sustained speed, 即能夠以穩(wěn)定的速度順暢的表達自己的觀點,中間偶有小的停頓可以接受。
2)語音:發(fā)音標準是前提,語音語調(diào)地道對分數(shù)有一定的積極影響。ETS 給出評分參考是:只要不影響評分官的理解,即使語音語調(diào)不好,也不會扣分或影響分數(shù)。
3)允許語法錯誤:ETS 口語評分原則中明確指出考生的表述中可以存在小的語法錯誤,但是語法錯誤不允許重復(fù)出現(xiàn)。
很多考生對于口語評分經(jīng)常會抱有疑問,進而會選擇復(fù)議。而口語成績的復(fù)議成功率是有跡可循的。
托福口語評分標準哪一個點最重要?
托??谡Z評分采取 Holistic Rubric Standing(整體評分制),即同時參照以下三個標準進行整體打分:Delivery(語言表達)、Language Use(語言使用)、Topic Development(話題展開)。但是,對多數(shù)中國考生來說,主 要問題是 Delivery(語言表達)不夠清晰、流暢,所以學(xué)習(xí)重心應(yīng)該放在提高流暢性和清晰度上面。
托福口語是機器打分還是人工打分相關(guān)文章:
托??谡Z是機器打分還是人工打分
上一篇:托福口語備考計劃攻略大全
下一篇:托??谡Z口音標準是什么