2013/09/01

統計學 裸體的?

上一課介紹了講美國通用汽車在中國發展的書,因為最近看書看得飛快,不到兩週又要介紹一本有趣的書。跟統計學有關的。喂!別關掉,看看講什麼嘛!

先申報利益(在香港寫文章跟做節目,都要申報利益,以免有打廣告之嫌),我沒唸過統計學。不是騙你,唸物理的數學厲害,怎可能沒唸過統計學呢?是這樣說沒錯,但因為求學之路有點複雜,別人在唸統計學的時候我在唸別的東西。修過唯一跟統計兩個字扯得上邊的叫「統計力學」(Statistical Mechanics),這是物理四大力學之一,可惜用不上數學裡的統計觀念。

出來工作才接觸統計學,mean 啊、standard deviation 啊、correlation 啊,每天都在算。別以為我現在改行賣東西用不著。每次客戶要談這個 guarantee 那個 guarantee , 都要拉standard deviation 來看啊!不然你以為這種東西可以「阿莎力」一口價嗎?

雖然用很多很順了,但一些定義還不是十分清楚,上星期剛好看到這本書,釐清一些問題。還發現原來有一些觀念是不正確的。

跟《American Wheel Chinese Road》一樣,港版水果報介紹了這本《Naked Statistics》,說得簡單又有趣,就買來看看。沒想到跟上一本一樣,一翻不可收拾。

作者 Charles Wheelan 上一本書《Naked Economics》在台灣有中文版叫《聰明學經濟的十二堂課》,沒看過。作者一開始也申報利益,他說不喜歡微積分,但喜歡統計學。我不懂統計學,但喜歡微積分。這本書跟我想象的統計學書不一樣,裡面沒什麼數學。當然,少數 terms 的定義放在 appendix 裡讓有興趣的人自己看。更特別的是,書裡有專門一章講我們常會遇到的誤用,這就比教科書強太多了。學會一個新東西時當然找盡各種機會去用它,但教科書並不 會提醒我們什麼時候這套理論不能用。這通常都是從老師口中學會(所以去上課很重要)或從這些好心人仕寫的書裡才學得到。

講一下我從書裡學到或澄清的一些觀念。第一個當然就是「correlation does not imply causation」。以前在工廠混,每次有事就去 run correlation;run 出來有就說這是 root cause。當時忙得很,沒去想太多,反正前輩怎麼說就怎麼做。現在想一想,果然是。當看到 A 跟 B 有 correlation 時可能它兩其實是受 C 影響,而 C 是我們沒看到的。結果去改 A 後才發現 B 根本不會動。

另外一個就是我們平常都去算 standard deviation,但其實這是整個 population 都有量測時才可以用。如果我們是取樣的話,要用另外一個叫 standard error (SE) 的參數來計算。當看到這個對我來說是新的參數時,真的花了一些時間來消化。誰說這是本給普羅大眾的讀物?不過,當看懂了以後馬上想到:唉!那我當年到底有沒有算錯啊。

書留給你們自己看(要看請舉手),再講一個故事。書是上週末看完的,過了幾天法國一家知名專門出我們這個行業市場報告的公司來拜訪,介紹他們最近做的報告 (當然希望我們買幾份啦,歐元計價的啊)。其中講到某一個 field 裡韓國三星有兩百六十個專利,百分之十的人 file 了百分之四十八的專利。我馬上想到前一陣子很熱門的 20/80 法則,說什麼百分之八十的收入都從百分之廿的人 contribute 的。我心裡想,那百分之十貢獻了百分之四十八,那百分之廿是否就佔去百分之八十呢?

我就跑去算 Normal Distribution,發現根本不是。後來再翻查 20/80 法則從那掉下來的,原是這個法則是 base on 一種叫 Pareto Distribution 來算的。Pareto Distribution 當然就不能算 standard deviation 啦。問題是,按照定義 Pareto Distribution 應該來算一些會匯聚在一起的東西,譬如說:城市人口、Bose-Einstein condensation(這是物理,假裝沒看到就好)、森林大火啦。根本就不是說員工的生產力(生產力應該是 normal distribution)。如果有老闆因為 20/80 法則而解顧了百分之八十員工那就真的是冤枉了。怪不得現在都沒人在提20/80 了。


PS. 港版水果經濟版每週都五會介紹有的沒有的書。而台版水果每週六在副刊介紹書,全都是翻譯小說。由此可以看出為何香港搞金融台灣搞文創。