19/01/2018
大數據窺探人們內心世界
2017,人類生活進入被各種大數據控制的時代。回答問卷、民意調查、接受採訪、facebook帖文—我們都有可能說謊;但是你的搜尋行為可不會說謊!大數據,呈現我們每個人、每秒鐘無意識的反射!
人們謊報在回家途中喝了多少酒,謊稱自己多麼經常上健身房,謊稱新鞋子買多少錢,就連沒看過的書也說自己有看過。沒生病卻打電話請病假,說再聯絡卻不再聯絡。人們說事情跟你無關,但其實就跟你有關。明明不愛你,卻騙你說愛你。心情不好時卻說自己很開心,明明喜歡男人,卻說自己喜歡女人。
人們對朋友說謊、對老闆說謊、對子女說謊、對父母說謊、對醫生說謊、對老公說謊、對老婆說謊,也對自己說謊。
但在網上作過甚麼搜尋,你探訪過甚麼網站,你在購物網點擊過甚麼,甚麼訊息吸引你去看,等等,是你真正的私密,不會說謊。這些行為,提供了種種數據。
一本原名叫《Everybody Lies》(所有人都說謊)的書,作者大衛德維茲證明,大數據提供一種前所未有的方式,讓我們窺探人們的內心世界,因為人們透過鍵盤才會在無意中私密地坦承千奇百怪的事情。
賽斯‧史蒂芬斯—大衛德維茲(Seth Stephens-Davidowitz)曾擔任Google數據科學家,這本書的中文版書名是《數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目》( Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are)。本書以極具啟發性的觀點解讀大數據,並以各式各樣有趣的案例忠實呈現網路世界與當代社會的現況,讓我們得以重新認識自己與這個世界。
四年前,大衛德維茲還是哈佛經濟系博士班學生,正努力找尋論文題目。
有天早上,他發現 Google 基本上已為所有研究者備好所需的資料,也就是說,Google 是全球人類興趣資料庫的集中地,這些資料簡直就是任何對人類行為感興趣的人夢寐以求的:從我們每個人每天的網路搜尋中找到行為模式。這些資料早已存在好些時日,卻從未有任何報章雜誌對它有過深刻的報導與研究。
作者深入研究 Google、Twitter、Facebook、警察局紀錄、電影票收據、維基百科、色情網站、棒球球員個人成績表,和你想像不到的數碼與傳統資料來源之後,發現這些資料來源有個共通的特點:他們提供的是大數據,亦即我們每個人每秒鐘無意識的反射,而非根據民意調查而來的一小部分民眾的意見樣本。
網路上的新數據,也就是數十億人在 Google、社交媒體、約會網站,甚至色情網站留下的數碼足跡,最後會揭穿事實真相。這些不僅是新類型的數據,更是「誠實」的數據,在匿名機制下,彷彿四下無人時,人們才會吐露自己最真實的想法,以及真正想問的尷尬問題。這類數據就像數碼版的「誠實豆沙包」,讓人們表達出自己的無性婚姻、個人精神健康問題、不安全感、受虐,以及對黑人或穆斯林的憎惡。透過分析這座數碼金礦,我們現在可以了解人們真正在想甚麼,真正想要甚麼,以及真正做了甚麼。
無論是嚴肅議題或日常話題,不久之前因種種原因未能解答,例如缺乏數據,或單純不敢提問,如今有數據金礦使我們有途徑能解答。
根據大數據提供的「誠實豆沙包」,作者發現過去根據問卷或社會調查的許多結論其實是錯的。
奧巴馬當選表示美國的種族歧視緩解了?錯!
黑人球員進入職業運動殿堂是貧困孩子奮發向上的勵志故事?大部分不是!
挑選比賽馬匹最重要的參考依據是血統?不!
父母對待兒子和女兒的態度不一樣嗎?不一樣!
佛洛伊德說夢境中的事物都有性意涵,這是對的嗎?很可能不對!
所有的成功故事,或多或少都跟「資訊比人多、動作比人快」有關。人類很早就發現「歸納過去可以預測未來」的道理。「統計學」從來不是新鮮事。「大數據」到底有甚麼特別之處嗎?
「大數據」的定義是甚麼?在資訊爆炸時代,人類一天可以產生二百五十萬萬億位元組的資訊量,到底要多「大」才夠「大」?此外,擁有海量數據並不會自動產生精闢結論。作者在本書中展示,要從數據中獲得寶貴資訊,最關鍵的一點是:你必須問對問題。而大數據有四大關鍵力量可以協助:
1.大數據能讓你將數據切割分解,讓你見微知著及獲得具體的見解。
2.新的資料來源通常包括新類型的變數,比現存變數更能幫助我們了解複雜關係,並充分利用。
3.新的數碼資訊能提供我們生活的真實樣貌,而非我們希望自己呈現給外人的形象。
4.大數據易於與實驗結合,使我們能測試因果關係,而非僅是相關性。
進入網絡新時代,我們的數碼足跡已把整個世界變成一個實驗室,數碼革命如何為我們每個人打開找尋隱藏真理的大門,一窺人們的內心世界,提出大數據時代真正的洞見。
但是,儘管大衛德維茲提出大數據的力量,但他不認為大數據可以大殺四方。它最有威力的領域,是在「傳統方法效率極差」的領域,大數據可能帶來革命性的創新。然而在已經發展成熟統計分析方法的領域,例如金融業,大數據未必能有特別傑出的表現。作者也坦言,大數據仍然需要「人類判斷與小型調查」的輔助才能發揮最好的效果。同時也在本書的後段章節提醒讀者必須「小心面對大數據」,注意過度授權政府及企業將帶來危險。
由於大數據的驚人力量,掌握大數據的人可以輕易知道更多資訊,但無法取得這些數據的人就被不公平地淘汰了。大數據是一項研究人類行為的神兵利器,但同時也製造了一個極大的資訊落差。利用這個資訊落差所衍生的牟利行為,我們有能力加以監督嗎?當人們日常行為的數據近乎免費地集中在少數的企業或政府手中,為企業或政府創造了超額利潤,弱勢的平凡人能分享受益嗎?大數據的力量之一來自於「誠實」,但人們並非自願誠實,而是「以為沒人知道」。大數據窺探了人們自以為獨處的時刻,那我們該如何更合理地維護人們想要擁有的隱私呢?
以上問題並沒有簡單的解答。但值得每一位讀者放在心上。本書並非學術書,書中提到非常多大數據統計的案例,但絕大多數都沒有標明統計的細節,例如時間區間、樣本數、抽樣母體等。這本書比較像是報紙專欄的集結,而非一本論文。不過這也正是本書的優點:簡明、幽默、易懂。只要讀者能夠看到最後一頁,勢必有所收穫。
「一分鐘閱讀」推介書籍
《數據、謊言與真相》
作者:賽斯‧史蒂芬斯—大衛德維茲
由 商周出版股份有限公司 出版
樂本健【雙11感謝祭】雙重優惠、多買多賞► 了解詳情