• Advertisement

Google Ngram 帶你一秒看完 15,000,000 本書

不看不知道,一看真奇妙

Google Ngram 帶你一秒看完 15,000,000 本書

帖子admin » 周三 7月 09, 2014 4:37 pm

http://tedxtaipei.com/2014/07/what_we_l ... ion_books/
https://books.google.com/ngrams
人類從誕生那一刻起就在學習各種知識,並在閱歷無數後迎接生命的盡頭,這幾十年的時間,要怎麼把人類存在二十萬年所累積的智慧裝進腦袋裡呢?快試試從Google Ngram讀歷史吧!

把印刷術數位化!


從發明印刷術到現在,共有一千五百萬本以上的書被發行,若真要吸收從古至今的智慧和知識,土法煉鋼地把這一千多萬本書全都讀過一遍是最直接的想法,但同時也是既費時又沒效率的不可能任務,究竟要怎麼省時又方便的獲得歷史知識呢?

就讀哈佛大學的Jean-Baptiste Michel 和 Erez Lieberman Aiden想到可以藉由把書籍數位化來增加閱讀效率,但如此一來就得面臨數百萬場與原著作者的官司糾紛,幾經討論後,他們決定從中挑選出五百萬本書,統計特定詞彙在1800年至2000年內所有出版書籍中所出現的次數,並藉此整理歷史數據的變化。這個由字量統計出的曲線圖不僅加快了資訊分析的效率,更產生了讓他們驚喜萬分的效果!

用關鍵字見證歷史

只要輸入各行各業的職位名稱,就可以得知何種職位最常被熱烈討論及關注。一般而言,一個人的知名度會隨著時間增加,因此,若你想在年輕時成名,就應該去當位演員,因為你的人氣會從二十歲開始快速累積;如果你能耐心等待成名的漫長過程,就去當位作家,但若你想獲得最高、最久的知名度,就去當位政治人物吧,你將在50歲後獲得高知名度,去世後名氣還是會繼續上升。令人不勝唏噓的是,從圖表來看,千萬不要當數學家,因為不論年輕或上了年紀、有偉大成就或毫無貢獻,都沒有人會有興趣討論你。


除此之外,還可以從圖表中看出歷史的痕跡。按常理來說,知名藝術家的名氣會隨著時間增加而討論度提高,但在德國的數據裡,超現實主義畫家Marc Chagall在1933年至1945年的出現率明顯驟降,之後卻又再度飆升,數據出現低谷的原因其實有跡可循,這12年的德國正經歷恐怖納粹的高壓統治,嚴峻的書籍審查制度阻隔了身為猶太人的Marc Chagall的作品,而這個制度直到二次大戰結束後才廢除,德國人民才得以接觸珍貴的超現實畫作。藉由書籍中的關鍵字,每一張圖表都無聲地向人們訴說真實存在的歷史。

書本裡的台灣

任職於Google的Jon Orwant、Matt Gray和Will Brockman見識到龐大規模的數據其實是研究人類文化的重要力量,因此利用保存在電子資料庫的一千五百萬本書及其他相關資料,建立了相似的分析工具──Ngram。

用來建構系統的資料除了書籍、手稿、報紙等書面訊息之外,也有非文字的資料,如藝術品和畫作等,這些被留下來的一字一句,都成為驗證歷史軌跡的精彩紀錄。

若你在Ngram輸入”Taiwan”,將可以看到台灣從1800年至2008年在英文書籍中出現的次數。在二次大戰結束後,台灣被討論的程度逐漸升高,自1960年代的經濟奇蹟,一直到1980年代被譽為「亞洲四小龍」,都有更多的書籍在討論著我們,但1990年代末期開始,曲線卻開始走下坡,這樣的消息一則以喜,代表台灣並未發生太嚴重的惡事,不像深陷金融困境的歐豬五國,困頓的經濟情況被許多經濟學家撰寫成書,成為他國國家發展的借鏡;但同時也一則以憂,因為台灣並未出現能震撼國際的高度經濟發展或優良社會規劃,以至於大部分英文書籍和資料都較少提及台灣。

Jean-Baptiste Michel 和 Erez Lieberman Aiden提醒大家,這樣的圖表確實能推測出許多事件的歷史背景,卻有更多細節需要深入驗證。雖然不能單用一張圖表就斷定某件事情的因果始末,卻可以從中反思歷史對於過去及未來的影響。看完關於台灣的數據分析,不如花些時間,好好思考你希望「Taiwan」這條線在下一個200年會如何變化吧!
  • 0

Share/分享:
懶得有理_____難得有你
think unique,be special
admin
Site Admin
Site Admin
 
帖子: 3397
注册: 周六 5月 22, 2010 7:54 pm
威望: 0

回到 生活小百科

在线用户

正在浏览此论坛的用户:没有注册用户 和 3 位游客

cron
Reputation System ©'