• Advertisement

Big Data不代表一定準確

pc/android/unix/linux

Big Data不代表一定準確

帖子admin » 周一 6月 09, 2014 6:47 pm

http://techorange.com/2014/06/04/big-da ... g-mistake/
Big data 是近來很流行的名詞,生活中離不開網路,龐大的使用者資料利用系統不斷的在建立更新,但現在卻蔓延著一種現象:不論對於企業家、科學家、政府以及媒體來說,Big data 是一個模糊的詞彙。

五年前,Google 的研究團隊在世界級的科學期刊中,宣布了一個重大突破性的成就- Nature,不需要一個個科學檢驗的結果,就能夠追蹤流感在美國的擴散範圍。

不僅如此,他們比美國疾病控制及預防中心 CDC(Centers for Disease Control and Prevention)的運作速度要來的快,Google 的追蹤只有延遲僅僅一天,相較於 CDC 要收集以醫生手術的報告為基礎的圖,這樣浩大工程而延遲了一周甚至更久的時間,Google 顯然略勝一籌;藉由找到人們在網路上搜尋的內容與他們是否有流感症狀的關聯性,這一追蹤方式的突破,Google 當然更快。

「Google Flu Trends」的成功象徵著商業、科技、科學中流行的新趨勢:Big Data
「Google Flu Trends」不只快速、精準、便宜,Google 的工程師們不會困擾著發展假說 —— 關於搜尋怎麼樣的名詞,如「流感症狀」或「離我最近的藥房」等,可能和疾病本身的傳染息息相關。Google 團隊只拿取了 5,000 萬個搜尋關鍵字,然後讓演算法自己跑自己運作。

「Google Flu Trends」的成功象徵著近來在各領域 —— 商業、科技、科學中流行的新趨勢:Big Data,從 Google 的案例中科學學到了什麼?

當這麼多流行詞彙的產生,Big data 通常在業務想要賣東西的時候亂拋出的、一個模糊的名詞,有些純粹強調 data 規模的龐大,舉例來說,大型強子對撞機( Large Hadron Collider,簡稱 LHC )的電腦能儲存一年 15 個位元組的資料,相當於你存你喜愛的音樂 15,000 年的空間。

但之所以 Big data 能夠引起許多公司的興趣是名稱的緣故 —— 我們稱它為「Found Data 」,信用卡支付系統、網站搜尋引擎的數位疲乏、行動裝置檢測最近的手機基地台,這樣的資料庫比起 LHC 的資料量要來的更大,Facebook 就是如此。

值得一提的是,相對於它們資料庫的規模來說蒐集成本是相當低的,他們是從各個零散的目的中蒐集而成的雜亂資料點,以及他們能更根據實況做更新的動作。當我們的通訊、休閒以及商業活動轉移到網路,加上網路不只在我們的手機,包括我們的車甚至眼鏡,生活是可以被記錄、被量化的,這些在十幾年前都是難以想像的事情。

對於 Big Data,Cheerleaders 有幾個有趣的說法,每一個都實實在在地反映了 Google Flu Trends 的成功:

1. Data 分析能夠創造神奇般準確的結果。

2. 每一個個 Data 都能不被遺漏,使得舊有的統計抽樣方法過時。

2. 不用再煩惱 Data 間的因果關係,因為統計的相關性會告訴我們我們想要的資訊,科學的或是統計的模型不再需要,因為套一句 2008 年在 Wired 發表的論文《 The End of Theory 》裡的話:「有了足夠的資料,數字會自己說話」。

然而,以上說的都是 Google Flu Trends 帶來 Big data 的震撼,但是先等一下,這麼想可能就過於樂觀了。其實並不是所有人都看好它,最糟的是,根據劍橋大學教授 David Spiegelhalter 的說法提及,資料可以是完全沒有意義。

Found data 鞏固了新網路經濟,如 Google、Facebook 及 Amazon 等,透過挖掘資料,來尋求新的方法來理解我們的生活。

顧問業則使用 data 本質來明白 big data 的潛力,近來從 McKinsey Global Institute 的報告中,估計美國健康照護系統能夠一年節省 3,000 億美金,也就是每個美國人一年可以節省 1,000 美元-只要從診所紀錄追蹤到醫療保險交易,再擴及慢跑鞋各個面向蒐集而來的資料,透過更好的資料整合和分析,要省下那麼龐大的數額,絕不是空談。



如果我們忽略那些熟悉的統計概念,Big Data 注定只會帶來失望
然而即使 Big Data 給了科學家、企業家、政府這麼多的承諾,如果我們忽略那些熟悉的統計課程,big data 注定只會帶來失望。

然而,看似利用 Big Data 而有突破性成功的 Google Flu Trends,當速度緩慢又穩定的資料從 CDC 送達時,這些資料顯示 Google 對於流感般的疾病預測是過度誇大了。Google 可能沒有查覺到從他們的模型中存在著一個很大的問題點:什麼樣的搜尋關鍵字能夠和流感的擴散有關?Google 的工程師並沒有試著理解其因果關係,僅利用尋找資料裡的統計模式,他們在乎關聯性更勝於因果性,這是一般的 Big Data 分析,要理解因果關係遠遠難於了解關聯性。

這就是為什麼,根據 Viktor Mayer-Schönberger 和 Kenneth Cukie r 共同著作的書《Big Data》中寫道:不能拋棄因果關係,只是它被擊垮的基底正是它內涵的意義來源。

僅僅是以理論分析相關性難免是脆弱的,如果你不知道相關性的背後是什麼,你就不知道什麼可能會造成相關性間的破滅。

其中一個 Flu Trends 失敗的解釋是 2012 年 12 月時這些新聞中充斥著流感可怕的故事,而這些故事可能會引起健康的人們在網路上搜尋相關資訊;另一個可能的解釋是,Google 自身擁有的搜尋演算法可說是「朝夕令改」,是不斷的在轉變的,當人們進入醫療症狀時它開始自動地建議診斷情形。所以說,要相信 Google 演算出的相關性是正確的嗎?這很難說。

Data 更龐大、更快更便宜,但是不能假裝沒有這些陷阱

統計學家過去花了 200 年的時間來理解,當我們試圖用 data 來理解世界時,有什麼陷阱已經佈好而等著我們去跳,近來 Data 更加的龐大、更快又更便宜,但是我們不能假裝沒有這些陷阱,而說一切都很安全。

在 1936 年時,共和黨的 Alfred Landon 代表參選來與現任總統 Franklin Delano Roosevelt 對抗,許多權威性的雜誌、具有影響力的週刊 The Literary Digest,扛起預測選戰結果的責任。懷抱著雄心壯志,為達到搜集大樣本的目的,它採用郵寄問卷,目標寄送到 1,000 萬名民眾,四分之一的選民。如洪水般的大量郵件回覆,Digest 似乎樂在其中,在當時八月它報導指出,下周,從 1,000 萬個樣本民調裡,第一輪答案會開始計票,經過三次的檢查,驗證,五次的跨分類及加總。

在製表驚人的 240 萬個回覆,花了超過兩個月的時間, Literary Digest 宣布它的結果:Landon 將會以 55 個百分點勝過 41 個百分點的 Franklin,其餘的則是投給第三個候選人。

然而,實際選舉的結果真的是這樣嗎?

天壤之別,這次選舉帶來很不一樣的結果:Roosevelt 以壓倒性的 61 個百分點大勝 Landon 的 37 個百分點,而讓 The Literary Digest 更苦惱的是,由民調先驅 George Gallup 所進行的更小的樣本調查反而更接近最終選戰的結果,預測 Roosevelt 將會穩穩地贏選戰,這代表了,Gallup 先生知道某些 Literary Digest 所不知道的事,這個案例告訴了我們一件事:說到 Data,規模大小稱不上一回事。

民調大致上是基於選民人口為樣本,這代表說,民調機構必須要處理兩個問題:抽樣錯誤與抽樣誤差。

抽樣錯誤反映著一個風險:隨機的選取樣本意見不代表能夠真實反映大多數人的意見,在《margin of error》中提出民調反映著風險和更大的樣本存在更小的偏差幅度,1,000 個訪談者對於許多調查目的來說,已經是足夠的樣本,而 Gallup 先生表示他訪問了 3,000 名訪談者。

難道說,3000 個訪談者會優於 240 萬個郵寄問卷的結果嗎?這個答案是,抽樣錯誤會產生更危險的朋友:抽樣偏差,抽樣錯誤是當隨機選定樣本卻不能靠著偶然來反映潛在的大眾,抽樣誤差是當樣本不是隨機取樣時所產生的問題。而 Gallup 先生在尋找不偏樣本時花了好一番功夫,因為他知道這比起所謂的大樣本來的更加重要。

尋求更大資料量的 The Literary Digest,摸索偏差樣本的問題在哪,原來,它所寄出的郵件名單是同時從車輛登記及電話簿中編纂而成的名單,至少在 1936 年的那時,是非常不成比例的;另外,在所有郵寄回復的 240 萬個問卷結果中,Landon 的支持者更樂於將他們的結果交還給 The Literary Digest,這兩個偏差已足夠注定讓 Literary Digest 的調查結果失敗了。

由此可知,big data 的熱潮又再次威脅著 The Literary Digest,因為資料庫太過的龐雜,很難去知道在 data 裡潛伏著什麼樣的偏差,有的分析師似乎已經決定抽樣問題不足以擔心了,而事實上的確如此。 Oxford’s Internet Institute 的 Viktor Mayer-Schönberger,為《 Big Data 》的共同作者說,它喜歡定義 Big Data 資料庫是「N=All」,也就是說我們不再需要抽樣,但背後卻擁有整個人口,他們能夠數選票,所有的選票,而且當「N=All」的確不是樣本偏差的問題,因為樣本包含了所有人。

但是「N=All」對於大部分的 found data 來說是我們考量的最佳敘述嗎?可能不是。

Big Data 是建立在舊的統計理論上,而不是去忽略它
給一個關於 Twitter 的例子,就原則上而言,在 Twitter 中能夠記錄並分析每則留言並對社會情緒給個結論,這是有可能的,然而當我們看著所有的 tweets 時,其實,Twitte r 的使用者不代表全體。

這肯定存在著一個關於誰、以及遺漏了什麼的問題,特別是在雜亂的 found data 檔案庫,資料分析師及《 Number sense 》的作者 Kaiser Fung 告誡著「我們擁有所有」這件事情,「N=All」只是一個 Data 假設而不是一個事實。

為了要使用 Big data 來找尋我們要的答案,統計方法必須要向前邁進更加進步才行,「現在就像是狂野西部一般」,UCL 的教授 Patrick Wolfe 說,「聰明且領導的人將會從這些資料集中扭曲和轉向並使用各種工具來讓這一切變得有意義,這是很瘋狂的事,但是我們正在盲目的前進中」。

統計學家賣力的想發展出一套新的方法來抓住 Big Data 發展的機會,新方法是重要的然而他們所運用的概念是建立在舊的統計理論上,而不是試圖去忽略它。



回想 Big Data 的信念,如果我們只忽略錯誤的面向,可能會造成準確度難以捉摸。如果我們在穩定的環境下、世界不會改變的情況下、又或是我們自己希望去改變它的情況下來做預測,因果性已經「被擊垮它的基底」會是好的。對於「N=All」的信念在多數的狀況下被看成不再是真實的,因此抽樣偏差就不再是一回事。

關於「有了足夠的資料量,數字就會自己說話」這點來說,這似乎是對不實的模式超出了真實發現的資料集本身一個絕望的想法,也就是說,當模式是假的、是錯誤的,數字本身是沒辦法傳遞訊息的。

Big Data 的時代已經到來,但「Big insights」 還沒。現今的挑戰是要解決新的問題和得出新的答案,前提是,在前所未見的規模,也就是龐大的資料量底下,不要犯相同傳統的統計錯誤。
  • 0

Share/分享:
懶得有理_____難得有你
think unique,be special
admin
Site Admin
Site Admin
 
帖子: 3397
注册: 周六 5月 22, 2010 7:54 pm
威望: 0

回到 非蘋菓品牌軟硬資訊

在线用户

正在浏览此论坛的用户:没有注册用户 和 2 位游客

cron
Reputation System ©'