民調準確度　年輕人定勝負

英國今天舉行國會大選，這一屆選舉出現一個奇怪現象：各大民調之間的預測，差異很大。上面是我根據維基百科收集的幾個主要民調機構／政治學者所預測的保守黨議席數目（可點擊放大），最高及最低者相差近７０席，其中最有名的是YouGov一反主要民調預測／政治觀察家，預計保守黨議席數目較目前３３０席減少，而且不會過半（少於３２６席，圖中深黑線）。

如果計算保守黨全國得票率領先工黨的預測數字，分別也很大，由１％至１２％不等：
Survation 1
SurveyMonkey 4
Opinium 7
ComRes 10
ICM 12

整體而言，大家都認為，保守黨領先的優勢較４月中公佈大選提前時明顯收窄了，但收窄後，保守黨與工黨之間的差距有多窄，就是分歧所在。

在下面未節譯Politico有關這個分歧理由的文章前，想先貼下面這個來自fivethirtyeight.com的圖片（可點擊放大），是民調預測與兩大黨最終全國得票率之間的差距：

大家平常會聽到，民調會表示自己大概有＋／—Ｘ％的誤差。一般誤差應為３％至４％，如果以４％為標準，二戰後１９次大選中，有接近一半（９次）是估錯；若把這個標準放寬至５％，都還有７次錯誤，包括一些大家不為意原來「錯了」的大選，例如１９８３年明顯錯了，１９９７年其實也有很大差距，但大家不會發覺是「錯了」，是因為大方向沒有錯，勝者即使得票率優勢少了，但議席數目仍遠較過半多很多。

Politico在數天前有一篇文章Why the pollsters can’t agree on UK election，解釋了為何本屆大選的各個民調之間有這麼大的差距。簡單來說，就是大家對年輕人投票率的假設。

先撇除在英國的制度下，要把全國支持度預測變成議席數目預測的困難，單是全國得票率的預測，已經可以因假設不同了而有分別。上述文章指出，對工黨表現預測較佳的，例如YouGov和Survation，一般是較依賴受訪者表示自己會否投票來把結果調整的，相反，ComRes和ICM這類，較根據受訪者年齡、財富等背景來調整結果的，對保守黨的預測會較佳。

當中，最主要的分別，就在於年輕人的投票率。Politico文章提及，２０１５年國會大選，１８—２４歲投票率為４３％，遠低迟６５歲以上的７８％；到２０１６年脫歐公投，兩者投票率分別為６４％及９０％。各大民調機構就要估計，究竟今次大選，年輕人投票率會跟歷史平均值、或近數屆情況相若，還是會突然大增？如果你的假設是前者，你把原始數據調整後，就會得出保守黨大勝的結果；否則，你會得出保守黨只能險勝的結論。

有人認為，今年年輕人踴躍登記做選民，而且受了去年他們之間較多人支持留歐、但因為年長人士較支持脫歐而令英國脫歐的教訓，年輕人這次會踴躍投票。Politico文章所引述的專家則多持相反意見，指出２０１０年及２０１５年大選，自民黨黨魁及工黨黨魁都各自很吸引年輕人，但最終都只是「網上」風潮，他們的魁力未能帶到投票站的現實世界。

Politico沒提及，但我在另一處看到（已經忘了文章來源）的是，過去兩次全國投票都失準後，民調機構已著手大規模調整選舉民調方法，但原本是預計２０２０年才會使用，而現在卻突然提前，因此他們來不及準備，不能再深入討論便要把初步調整好的方法使用，導致這些民調各自因應過去兩年失誤而作出很不同的調整。

Politico文章還提及YouGov那個保守黨議席不過半的民調。嚴格來說，那個不是傳統上的民調，而是projection，他們使用了所調multi-level regression and post-stratification的模式，簡單來說，就是訪問了一堆選民，然後根據他們的背景，來跟全部６５０個選區的選民人口特質，逐個配對，計算各議席的結果，然後得出整體議席預測。

留言

Unknown2017年6月8日上午10:05
昨天是中国2017高考第一天，语文已经考完。上海卷的作文题目是： “预测，是指预先推测。生活充满变数，有的人乐于接受对生活的预测，有的人则不以为然。请写一篇文章谈谈你的思考。” 网主这篇文拿到昨天的上海高考语文试场去应试，应该可以交差的。XD

本桑以为，此题特别适合写成一篇有关机器学习的科普文章，讲讲各种prediction 和 extrapolation 算法的特性，及其不同的适用场景。这个文章我很想写一下的。
回覆刪除
回覆

新增留言

歐洲動態(國際)

搜尋此網誌

焦點文章

阿塞拜疆航空墜毀疑涉俄鎧甲-S飛彈擊落