19/01/2018

大數據窺探人們內心世界

　　2017，人類生活進入被各種大數據控制的時代。回答問卷、民意調查、接受採訪、facebook帖文—我們都有可能說謊；但是你的搜尋行為可不會說謊！大數據，呈現我們每個人、每秒鐘無意識的反射！

　　人們謊報在回家途中喝了多少酒，謊稱自己多麼經常上健身房，謊稱新鞋子買多少錢，就連沒看過的書也說自己有看過。沒生病卻打電話請病假，說再聯絡卻不再聯絡。人們說事情跟你無關，但其實就跟你有關。明明不愛你，卻騙你說愛你。心情不好時卻說自己很開心，明明喜歡男人，卻說自己喜歡女人。

　　人們對朋友說謊、對老闆說謊、對子女說謊、對父母說謊、對醫生說謊、對老公說謊、對老婆說謊，也對自己說謊。

　　但在網上作過甚麼搜尋，你探訪過甚麼網站，你在購物網點擊過甚麼，甚麼訊息吸引你去看，等等，是你真正的私密，不會說謊。這些行為，提供了種種數據。

　　一本原名叫《Everybody Lies》（所有人都說謊）的書，作者大衛德維茲證明，大數據提供一種前所未有的方式，讓我們窺探人們的內心世界，因為人們透過鍵盤才會在無意中私密地坦承千奇百怪的事情。

　　賽斯‧史蒂芬斯—大衛德維茲（Seth Stephens-Davidowitz）曾擔任Google數據科學家，這本書的中文版書名是《數據、謊言與真相：Google資料分析師用大數據揭露人們的真面目》（ Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are）。本書以極具啟發性的觀點解讀大數據，並以各式各樣有趣的案例忠實呈現網路世界與當代社會的現況，讓我們得以重新認識自己與這個世界。

　　四年前，大衛德維茲還是哈佛經濟系博士班學生，正努力找尋論文題目。

　　有天早上，他發現 Google 基本上已為所有研究者備好所需的資料，也就是說，Google 是全球人類興趣資料庫的集中地，這些資料簡直就是任何對人類行為感興趣的人夢寐以求的：從我們每個人每天的網路搜尋中找到行為模式。這些資料早已存在好些時日，卻從未有任何報章雜誌對它有過深刻的報導與研究。

　　作者深入研究 Google、Twitter、Facebook、警察局紀錄、電影票收據、維基百科、色情網站、棒球球員個人成績表，和你想像不到的數碼與傳統資料來源之後，發現這些資料來源有個共通的特點：他們提供的是大數據，亦即我們每個人每秒鐘無意識的反射，而非根據民意調查而來的一小部分民眾的意見樣本。

　　網路上的新數據，也就是數十億人在 Google、社交媒體、約會網站，甚至色情網站留下的數碼足跡，最後會揭穿事實真相。這些不僅是新類型的數據，更是「誠實」的數據，在匿名機制下，彷彿四下無人時，人們才會吐露自己最真實的想法，以及真正想問的尷尬問題。這類數據就像數碼版的「誠實豆沙包」，讓人們表達出自己的無性婚姻、個人精神健康問題、不安全感、受虐，以及對黑人或穆斯林的憎惡。透過分析這座數碼金礦，我們現在可以了解人們真正在想甚麼，真正想要甚麼，以及真正做了甚麼。

　　無論是嚴肅議題或日常話題，不久之前因種種原因未能解答，例如缺乏數據，或單純不敢提問，如今有數據金礦使我們有途徑能解答。

　　根據大數據提供的「誠實豆沙包」，作者發現過去根據問卷或社會調查的許多結論其實是錯的。

　　奧巴馬當選表示美國的種族歧視緩解了？錯！

　　黑人球員進入職業運動殿堂是貧困孩子奮發向上的勵志故事？大部分不是！

　　挑選比賽馬匹最重要的參考依據是血統？不！

　　父母對待兒子和女兒的態度不一樣嗎？不一樣！

　　佛洛伊德說夢境中的事物都有性意涵，這是對的嗎？很可能不對！　

　　所有的成功故事，或多或少都跟「資訊比人多、動作比人快」有關。人類很早就發現「歸納過去可以預測未來」的道理。「統計學」從來不是新鮮事。「大數據」到底有甚麼特別之處嗎？

　　「大數據」的定義是甚麼？在資訊爆炸時代，人類一天可以產生二百五十萬萬億位元組的資訊量，到底要多「大」才夠「大」？此外，擁有海量數據並不會自動產生精闢結論。作者在本書中展示，要從數據中獲得寶貴資訊，最關鍵的一點是：你必須問對問題。而大數據有四大關鍵力量可以協助：

1.大數據能讓你將數據切割分解，讓你見微知著及獲得具體的見解。

2.新的資料來源通常包括新類型的變數，比現存變數更能幫助我們了解複雜關係，並充分利用。

3.新的數碼資訊能提供我們生活的真實樣貌，而非我們希望自己呈現給外人的形象。

4.大數據易於與實驗結合，使我們能測試因果關係，而非僅是相關性。

　　進入網絡新時代，我們的數碼足跡已把整個世界變成一個實驗室，數碼革命如何為我們每個人打開找尋隱藏真理的大門，一窺人們的內心世界，提出大數據時代真正的洞見。

　　但是，儘管大衛德維茲提出大數據的力量，但他不認為大數據可以大殺四方。它最有威力的領域，是在「傳統方法效率極差」的領域，大數據可能帶來革命性的創新。然而在已經發展成熟統計分析方法的領域，例如金融業，大數據未必能有特別傑出的表現。作者也坦言，大數據仍然需要「人類判斷與小型調查」的輔助才能發揮最好的效果。同時也在本書的後段章節提醒讀者必須「小心面對大數據」，注意過度授權政府及企業將帶來危險。

　　由於大數據的驚人力量，掌握大數據的人可以輕易知道更多資訊，但無法取得這些數據的人就被不公平地淘汰了。大數據是一項研究人類行為的神兵利器，但同時也製造了一個極大的資訊落差。利用這個資訊落差所衍生的牟利行為，我們有能力加以監督嗎？當人們日常行為的數據近乎免費地集中在少數的企業或政府手中，為企業或政府創造了超額利潤，弱勢的平凡人能分享受益嗎？大數據的力量之一來自於「誠實」，但人們並非自願誠實，而是「以為沒人知道」。大數據窺探了人們自以為獨處的時刻，那我們該如何更合理地維護人們想要擁有的隱私呢？

　　以上問題並沒有簡單的解答。但值得每一位讀者放在心上。本書並非學術書，書中提到非常多大數據統計的案例，但絕大多數都沒有標明統計的細節，例如時間區間、樣本數、抽樣母體等。這本書比較像是報紙專欄的集結，而非一本論文。不過這也正是本書的優點：簡明、幽默、易懂。只要讀者能夠看到最後一頁，勢必有所收穫。

「一分鐘閱讀」推介書籍