本文同步刊載於《關鍵評論網》2020/11/13、《科技橘報》2020/11/19
前情提要
美國總統大選結果剛出爐,即使拜登入主白宮大勢已定,川粉對於開票結果仍感到不滿,認為民主黨利用作票偷走了總統寶座。許多網上瘋傳的各種作票指證,已有不少事實查核網站說明,在此不贅述。
唯獨其中一個指證,至今仍無人可反駁 — — 拜登的得票數不符合「班佛定律」的分佈,代表存在人為操縱的可能性 。
難以反駁原因很多。這個定理早有數學家跟公式證明背書,不是阿貓阿狗胡謅出來的;所使用的得票數據並非杜撰、而是官方認證版本,事實查核網站無法否認其真實性;最後,從圖表上看來,拜登得票的數字也確實比川普背離「班佛定律」。有官方數字、有精美圖表、有數學定理、再加上專家背書,頗有「不服來辯」的氣勢!
所以,這位已仙逝70多年的班佛先生,會是川普唯一的救星嗎?
班佛定律能吃嗎
在《假帳殺手一號》一文中,我用台灣鄉鎮的人口數說明複雜的班佛定律 — — 在自然發生、不受限制的觀察值中,首位數字是1的出現機率最高,約佔全體觀察值30.1%,再來是2的17.6%,其餘依序遞減。
由於台灣人民可自由遷徙到全台368個鄉鎮,每個鄉鎮的人口數字屬於自然發生、不受限制的觀察值,因此這368個人口數的首位數,理論上來說會符合班佛定律,也就是人口數為1開頭(1,000多人到10萬多人都算唷)的鄉鎮數,約為110個左右(368個鄉鎮的30%)。
而實際上有多少呢?106個,與理論值十分接近。這代表政府公布的人口統計數據,並沒有造假。(是說造假要幹嘛…)
川粉怎麼說
Github上熱心網友放了幾個城市的開票數,以及班佛定律分析的結果。下圖是喬治亞州富爾頓縣(Fulton County)共384個投票所的票數分析,以中間的拜登為例,共有381個投票所(N)開出他的票,得票數為1開頭(X軸)的投票所有150個(Y軸、藍色長條)。不過,按照班佛定律,應該只能有114個左右(Y軸,紅色圓點)。
再看其它藍色長條與紅色圓點的距離,是不是僅從肉眼就能知道拜登在富爾頓縣的得票數,違背了班佛定律呢?
川粉請先別急著說「對!果然有問題!」。往左邊看到川普的班佛定律分析圖,是不是也覺得怪怪的?
洛杉磯才奇怪呢
看完富爾頓縣的分析圖,不禁懷疑該網友是不是反串川粉,怎麼會拿一個圖出來自打嘴巴。而且,看來這位網友並不清楚班佛定律的應用限制。
除了前面提到的「自然發生、不受限制」以外,班佛定律在應用上還有一個致命傷 — — 觀察值建議至少3,000筆資料以上。富爾頓縣才384個投票所,根本不應該使用班佛定律才對。(台灣鄉鎮人口數嚴格來說也不應使用,僅適合舉例)
這也是為什麼會出現「想打臉拜登,結果連川普一起打」這種窘境的原因。
既然如此,我改用美國人口最多的加州洛杉磯郡(Los Angeles County)來分析,因為從官方公布資料看來,洛杉磯郡有3,383個投票所,剛好符合班佛定律的要求。
先來看看洛杉磯的川普。從下圖可以看到,僅有得票數1開頭的投票所數比班佛定律少,其餘還算接近。
那洛杉磯的拜登呢?
下圖絕對會讓川粉沸騰,因為除了首位數5以外,其它都背離了班佛定律一大截!
川粉請先別大喊「抓到了齁拜登!」。
這裡有一個邏輯上的陷阱 — —每個投票所的得票數,真的如台灣鄉鎮人口數一樣,是「自然發生、不受限制」嗎?
無論是美國或台灣,為了分散投票人潮,讓投票與開票更有效率,投票所在設置上會將投票民眾「平均」分散,拉近每個投票所的負荷。這個平均分散的概念,將每個投票所的投票人數訂了上限,因此不可能「自然發生、不受限制」,所以並未滿足班佛定律的應用限制。
數字會說話,我們來看洛杉磯各投票所的註冊投票人數。由下圖以及實際註冊資料可以看得出來,3,383個投票所中,為了分散投票人潮,每個投票所大多處理1,000至2,000多名左右的民眾。
既然投票人數都不自然了,得票數自然也不可能自然。拜登在洛杉磯郡的支持率約在40%至60%之間,再考量每個投票所的註冊人數差異不大,因此出現與班佛定律背離的狀況,並不意外。
再者,剛剛沒說、川粉可能聽不下去的壞消息是 — — 透過統計值檢驗,川普在洛杉磯郡的得票數,其實也不符合班佛定律。
眼睛確實業障重呀!
第一階段初步結論有兩個:
- 太小的郡縣,投票所數量不到3,000,無法滿足班佛定律的第一個應用限制。
- 為了分散投票人潮,每個投票所的投票人數並非「自然發生、不受限制」,違反了班佛定律的第二個應用限制。
所以,以上不管是拜登還是川普得票數違反班佛定律的立論,基本上都不成立。
那班佛有啥屁用
首先,我們得想辦法滿足班佛定律的應用限制,它才能發揮作用。
第一個要解決的問題,是投票所得票數不夠「自然」。如果說「平均後」的得票數不自然,那我們為何不利用「平均前」呢?
什麼是「平均前」?
以洛杉磯郡3,383個投票所為例,「平均後」是各投票所的得票數,「平均前」則是洛杉磯郡的總得票數。
但這又出現一個問題,一個候選人才一個總得票數,這不是又不符合另一個3,000筆以上的要求了嗎?
幸好美國幅員廣大,50州加上哥倫比亞特區,下轄4,600多個行政區(如洛杉磯郡),只要把範圍擴大到每個次級行政區的總得票數,問題就能迎刃而解。
下圖是川普在全美各行政區的得票數分析,非常貼近班佛定律。
接下來的拜登分析圖,請川粉往下看之前,先深深吸一口氣。
沒錯,不管是拜登或是川普,全美各行政區的得票數都符合班佛定律。
可能有些川粉還是堅持,明明拜登的看起來就比較奇怪。的確,如前面所說,眼睛本身業障重,在判定資料是否符合班佛定律時,最嚴謹的方式必須採用卡方檢定或MAD來檢驗……
(此處略過一萬字)
而不管川普或拜登的全美得票數,都通過上述統計值的檢驗,確認符合班佛定律的。
小小結論
班佛定律並不想(也無法)證明選舉過程完全沒有一丁點的作票(川粉說法)或失誤(拜粉認為)。它想要述說的重要結論是,從各行政區現有的得票資料分佈,加上美國特有的選舉人團制,理論上在此次2020大選中,並沒有「大規模到足以影響選舉結果」的作票行為(或失誤)。
身為美國人的班佛先生若「天堂」有知,看到這次祖國大選的混亂狀況,不知會作何感想?
後記
在蒐集全美得票資料時,非常痛苦。不同媒體,得票數居然還有些許的差距;有些州政府已公布詳細數字、有的還沒公布。主要以NBC網站為主,輔以New York Times及各州政府的選舉網站,已盡個人最大努力減少錯誤。不過,由於選舉結果還有一「丁」點變數,因此最終數字可能與本次分析稍有不同。