[心得] 臥底經濟學家的10堂數據偵探課
網誌圖文版:
https://reurl.cc/MjlNEL
臥底經濟學家的10堂數據偵探課
資訊大混亂的時代,更需要辨別真偽的技能
作者:Tim Harford
推薦指數:☆☆☆☆☆
想像一個十年才出版一次的報紙跟現在每天出版的報紙,上面的頭條跟數據反應的是「現
象」還是「事實」?
人類還是情緒組成的動物
周杰倫演唱會、獵人X麥當勞聯名卡包,你各位上車了嗎?這幾天最紅的事件莫過於這兩
件事,但當你閱讀到新聞內容時,你的第一反應是什麼?失望、難過、憤慨,還是很興奮
自己搶到了但一堆人沒有呢?不管是哪一種,情緒都會是影響你看到事情的第一個東西,
也因此很容易讓你失去用理性思考去判斷事情的真偽。
這種事情發生在政治立場不一樣的時候更容易被激起,試想當初台灣全民公投時,要不要
廢核四這一題你投下的神聖一票是什麼?但不管你本來的立場是什麼,你是否強烈地受到
你偏好的政黨所傳送的訊息給影響了?反核的人看到支持自己論點的文章,連深入了解文
章來源跟數據都懶得做就會轉貼了,反之看到支持核能的文章則直接視而不見,即使那篇
文章可能來自相對公正的第三方。因此這裡第一點要講的是,看到文章跟數據時,請放下
情緒跟偏見先去仔細看一下內容再去決定跟判斷其真實跟準確性是非常重要的第一步。
數據的角度跟自身看法
好了,你放下情緒了,但你看到的數據跟你自身體驗卻相差十萬八千里,這不禁讓你懷疑
到底誰對誰錯。我用台北捷運2023年的資料算了一下,數據顯示全線平均每一班車的載客
量大約800人。這數字對你來講合理嗎?此時若我們用問卷去調查每個人對這數字的想法
,得到的結果可能是「也太少了吧?」、「我覺得我那一節車廂就有800人了」等可能和
數據結果不符的結果。但其實數據沒有問題、旅客也沒問題,其中的差異是來自於若進行
隨機抽樣,其旅客會有較多是在尖峰時刻搭乘捷運,他們的感受自然會跟800人有差距,
反之要抽樣到離峰時搭乘的人機率會比較低。因此,若我們想知道自己去搭捷運時會不會
有很多人,光看800人這件事是不夠的,還要參考周遭朋友的反饋去了解尖離峰的時間才
能有更全面的知識。
別急著解讀數字
「10/24號公布的最新失業率為3.43%,終止了連三個月上升的紀錄。」
請問這則訊息帶給你什麼樣的事實呢?3.43%聽起來不高?總算下滑了代表就業市場好轉
?如果是,那你跟我就是一樣的人了,但其實我們該做的是先去了解失業率的官方定義是
什麼。以下為勞動部對失業者、失業率以及非勞動力的定義:
失業者是指在資料標準週內年滿15歲同時具有下列條件者:(1)無工作;(2)隨時可以工作
;(3)正在尋找工作或已找工作在等待結果。此外,尚包括等待恢復工作者及找到職業而
未開始工作亦無報酬者。
失業率是指失業者占勞動力之比率。其計算方法如下:
月失業率:資料標準週之失業者 資料標準週之勞動力 휠 100。
年失業率:全年平均失業者 全年平均勞動力 휠 100。
非勞動力是指在資料標準週內,年滿15歲不屬於勞動力之民間人口,包括因就學、料理家
務、高齡、身心障礙、想工作而未找工作及其他原因等而未工作亦未找工作者。
看完定義以後,我們再去想一下官方定義是否跟你認知的失業率是一樣的,接著才去判斷
3.43%是否是一個可以接受的數字。畢竟我也是看了定義才知道失業率代表的是「正在找
工作的人」除以「勞動力」,但勞動力不包含那些「有能力」工作但沒在找工作的人。不
過合不合理就又是另外一則故事了。
數字的意義是什麼呢?
讓我們回到剛剛失業率的問題,要怎麼去解讀3.43%代表什麼?若我們對這數字沒有想法
的話,很難去想像它是高是低,但接著標題有寫「結束連三個月的走升」,於是你心裡有
一個想法,失業率可能穩定一點了。但我們再看更仔細一點,2023年平均失業率為3.48%
,今年一直到九月的平均失業率為3.39%,這時候你有更多概念了,原來今年的失業率平
均都比去年低,但九月的在今年還是相對算高,不過看起來台灣失業率都維持在3.4%上下
...等等。
我們獲得了數字之後除了要了解其定義之外,我們也需要去了解這數字帶給我們什麼樣的
資訊,不然光是知道3.43%這個數字我們無法有更多的想法,它是高是低、它在往上升還
是下降,沒有比較跟背景的話,這樣的數字其實沒有太大的意義。
冰山一角
募資平台Kickstarter曾在2012年幫助智慧手錶Pepple募得1,000萬美元,更在2014年幫助
Coolest Cooler保冷箱募得1,300萬美元。2015年Pepple捲土重來以更高階的款式再度募
得了2,000萬美元。但全部裡頭最有名的案例莫過於Zack "Danger" Brown在Kickstarter
提出的製作馬鈴薯沙拉專案,他的目標是籌得10美元,但最終共募得了55,492美元的可怕
紀錄。
這個故事告訴我們什麼?Kickstarter真厲害,大家都可以在網站上籌得必要的資金,就
算點子早就有人想過或是一看就知道在胡搞也可以。可惜的是這就是標準倖存者偏誤的故
事,之後多的是有人效仿Zack提出怪點子但一毛錢都沒籌到,而這些失敗的人數遠遠大於
成功的人數,這都是我們看不到的。
我相信大家多少都讀過也了解倖存者偏誤的可怕,而書中提到的一點有關許多學術研究期
刊的偏誤也令人省思。知名試驗棉花糖故事、選擇越多容易導致選擇困難並降低偏好、姿
勢決定你是誰等結果其實在後續很多人做類似實驗時都無法成功複製。並不是說當初這些
學者的實驗有問題,而是當我們在看期刊時很難看到那些沒有發表的論文,因為「沒辦法
證明」有新現象的論文通常都不會被發表。這也是為何有越來越多Meta analysis的期刊
,藉由分析多個類似實驗的研究來推導假設是否合理的論文。當你很興奮地找到一個現象
時,請務必想一下他是否只是曇花一現,很多事情其實只是冰山一角而已。
確保抽樣的準確性
接下來我們來聊聊選舉民調吧。我相信大家應該都滿疑惑為何有時候電視做的民調可以和
結果差那麼多,覺得統計果然就是一坨屎。但其實很可能的結果只是抽樣的方式有問題而
已。想想看若有一家媒體的調查方式是「電話民調」且是家用電話,這樣的結果所抽到的
樣本是否會非常不準?那如果改用email/ 簡訊,總會比較準了吧?還是應該在信義區百
貨戰區按照年齡分配抽取相同比例的樣本?答案是,以上方式都會有隨機偏誤的問題,家
用電話民調直接篩掉現在大部分沒有家用電話的人口;email/ 簡訊相對排除了不太會使
用3C產品的老人家;信義區路上隨機調查排除了大部分非台北市的人口。
沒錯,民調很難準,但我相信媒體們都有在努力想辦法,或許綜合上述辦法再結合更多不
同的抽樣就能更精準?你要記得的是,不管是怎樣的抽樣,在解讀數據的同時也要了解其
來源是否有漏掉特定的人口,而這些人應該也要被列入計算的,不然結果絕對只會和你想
的不一樣。
開放與好奇的心態
講了這麼多準則,你是否心裡在想「誰記得了那麼多?」,那請你務必記得這一段就好。
我現在的工作,有一個項目是需要去預測當年車市掛牌的總量,想當然,一年當中的預測
可能會要調整個幾次。但預測要怎麼做才會比較準呢?視接受到的資訊,「隨時」並「開
放」的做調整。舉例來說,上半年MG可觀的交車量使得我們在第二季調整了數字,並對LU
XGEN的目標持保留的態度,但隨著政府新的政策,我們也必須馬上隨之調整;同樣的,若
本來年初很看好TESLA的交車量,因為平價版MODEL 3即將上市,但隨著看到的交車數量好
像不如預期,就要跟著調整。不要覺得這很簡單,人很容易被錨定跟不喜歡認錯,保持開
放的心態是很重要的。
再來是好奇心,這個其實很多書籍都有討論過,好奇心能使人成長、能獲得成就感、能不
讓你感到無聊。沒有好奇心,我不會了解失業率的定義、也不會知道台北捷運的平均每班
載客人數。好奇心使人懂得用心、懂得探索、懂得放下偏見追求真相。就讓我們保持開放
與好奇的心回到孩童時期對所有事情都感到有趣吧!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.194.157.179 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/book/M.1730037909.A.2BD.html
留言