2013年11月12日 星期二

大數據 (Big Data) 讀後心得感想


1.書名: 大數據 (Big Data)
2.作者: 麥爾荀伯格、庫基耶 Viktor Mayer-Schonberger、Kenneth Cukier
3.主要內容:
其實早在這本書還沒有上市以前所謂的『巨量資料』『海量資料』或是所謂的『雲端科技』『虛擬網路』等名詞就已廣為大眾所知; 只是大部分人也許早已在享受這類的服務, 或是這些類型的服務早已圍繞在我們的生活四周而我們不自覺而已. 大家也許最記得的是2009年突然冒出來的新流感H1N1的疫情, 造成全世界人的恐慌, 事實上這是一種結合了禽流感和豬流感病毒所從生的一種新的病毒株. 當時歐洲有些國家地區還發出警訊, 認為這次的疫情爆發可能與在1918年西班牙所爆發的流感肆虐疫情很像, 當時全世界被感染的人約五億人, 最後奪走數千萬人的性命. 而雪上加霜的是, 在面對H1N1可能爆發的疫情, 各國都還沒有能完全派上用場的疫苗, 所有各個國家的公共衛生單位唯一能努力的是, 就是減緩新流感蔓延的速度, 為了達到這項目的, 必須先知道當前新流感流行感染的範圍及程度。
在美國的疾病管制局(CDC)要求醫生一碰到新流感病例, 就必須立即的通報; 既使如此, 通報的速度還總是比病毒傳染擴散的速度慢上一到兩週左右, 就是因為一般人在感覺身體有所不適以後(可能病毒株的潛伏期就耗去幾天了), 大概多會待上一到兩天才去看醫生, 而地方醫院的通報系統作業在經過層層的回報作業才到疾病管制局, 那已經是1~2星期以後的事了。
當時就在H1N1還沒有躍上全世界的頭條新聞之前的幾週裡,  Google裡的幾位工程師, 在著名的『自然』科學期刊裡就曾發表過一篇重要的論文, 只是當時並沒有引起太多人的注目, 只有在有限的衛生單位及電腦工程圈子裡被討論的一下, 當時Google出的這篇科學論文裡提到, 根據Google的資料統計預測, 全美國地區在冬天來臨之際會有爆發流感的可能, 當時Google提出來的資料裡還有標出來可能爆發疫情的地區是那幾個州及可能的時間點。 根據Google的科學論文提到, 他們是從每天將近30多億筆搜尋的資料裡, 挑出一般美國人常用的五千萬個搜尋字眼, 再與美國疾病管制局在2003年到2008年之間的流感統計資料做比對, 再透過利用四億五千萬個不同的數學模型去測試各種不同的搜尋字眼來推算, 然後找出它們的相關性(correlation), 結果比對美國疾病管制局2007年到2008年各州地區實際發生的流感case, 發現Google所提出的預測居然與美國疾病管制局官方所發布的資料非常的符合。所以在當時Google利用『巨量資料』所預測推算出來的資料變得非常有參考的價值, 對新流感H1N1的疫情可能的發展及擴散有了非常大的助益及直接的貢獻, 而這裡面最驚人的是, Google的這套方法, 一不需要到各處去採集檢體, 二不需要去造訪各地的醫院及診所, 而是利用了『巨量資料』創新突破全新的創造出資訊的價值。

當然這本書裡還例舉了許多其他的案例及應用, 無非是要告訴讀者『巨量資料』的時代已經來臨, 它所衍生的價值無與倫比, 並且強調新一代的『巨量資料』處理和過去的所謂的從『相關資料』統計的演算方式有相當大的不同。《大數據》是很好的入門書, 尤其是已經感覺到或是想要一探究竟的人來說是一本相當齊全而且偏論述類型的好書, 當然對於學數理統計或者IT想要了解比較深層的方法論(Methodology)的人, 或許會感覺不足一點, 但是對於要進入《大數據Big Data》這行生意的人, 這裡面有一些國外的案例也許可以做為您的次級參考資料。 全書主要內容為: 第一章快速介紹現況。第二到四章談方法學的典範轉移:從研究樣本到研究母體, 從執著資料品質到擁抱不確定性, 從追求因果關係到充分利用相關性。第五到七章談的是研究過程, 著重巨量資料的基礎建設、運用方式與價值鏈。 第八到十章則分別談風險、管控與未來。其中第四章主要是講『相關性』(不再拘泥於因果關係)是全書的重點, 作者主要在論述在『巨量資料』的時代裡有三個重要的思維概念:

第一種新思維是「小量資料處理及應用 vs 巨量資料處理及應用」差很多: 過去資料不足的時代, 也就是小量資料的時代, 由於很難掌握到全體的資料, 只好抽取樣本發展種種統計技巧去推估母體的概況。 但是在巨量資料時代掌握全體的資料已不再是夢, 我們不用再劃地自限拘泥於統計觀點了。 要大膽而廣泛的蒐羅所有的資料, 這種思維是各行各業都一體適用的。而且小量資料的處理及應用你所憑藉的工具目前幾乎是隨手可得, 資料挖掘技術也比較成熟, 所以成功機率高. 但是在今天巨量資料的時代, 非結構型資料以及非相關性資料它的深度及廣度是個相當具有挑戰性的問題, 要處理這種類型的數據資料是有相當的難度, 而這種巨量資料所產生的資訊預測, 如果利用它來做決策的支撐點時, 就有點像我們古常說《先見之明》知敵之先決勝於千里之外。

第二種新思維是「擁抱不精確」: 資料出點差錯也沒關係, 因為資料數量遠比資料品質更重要。 只要你能握有巨量的資料, 即便資料有瑕疵你也能透過過濾、淬取出資料的精華, 聽清楚資料真正要對你說的話。

第三種新思維最重要了, 就是「找到相關性, 不再追求因果關係」: 也就說你我都不用知道「為何如此」, 只要知道「正是如此」就行了!這種概念等於推翻了過去幾百年來的既定做法和基本思維。尤其在面對巨量資料的擁有者(公司或政府)可能侵犯個人隱私的時候, 具備這個新思維是無比重要的。

4. 心得感想:

(1).《大數據》是甚麼?甚麼是《巨量資料》?: 在還沒有閱讀《大數據》以前, 其實大家對《雲端》《網路世界》《電腦資料處理》《人工智慧》等等或多或少多有所概念了. 對於《海量資料》《巨量資料》《大數據》煞然一聽的時候, 又覺得這到底是要做甚麼用啊?其實在我們過去的經驗裡, 大部分都被侷限於:有限的資料,或是資料的相關性, 最少我們要去做任何一種《預測》的時候, 我們一定會先去觀察它既有的有限的資料, 然後也許會去採用一些《抽樣的樣本去做一些先期的觀察及實驗》; 而且我們多會去從這些抽樣樣本或實驗裡或是有限的資料裡先去找出它們的相關聯性, 然後再根據有依據的實驗也好或是抽樣樣本之間的關聯性也好去預測一定的結果. 可是在讀了這本書以後, 我們的觀念開始改變了.第一個是《巨量資料》已不需要要求這些資料間的一定相關性了, 反而講求的是《巨量資料》也就是資料的『量』要愈大愈好. 就像文章一開始列舉的H1N1的例子就很有啟發性, 傳統的預測方法需要依靠醫務人員到各個地方衛生檢疫單位或醫院衛生所等地方去蒐集疫情的《檢體》,而且可能還要做一些臨床抽檢的實驗去比對樣本的一些相互《因果關係》等等的作業….最後還可能需要與最近一年發生過的疫情去做比對, 最後才能做出一些可能的《預測》出來. 而今天在《巨量資料》的處理下,單憑幾位Google的工程師,利用搜尋的《關鍵字詞》而不是去醫院訪問病人,利用一些數學模型及透過電腦資訊處裡(沒有做甚麼檢體實驗及抽樣比對…等等)就能準確地預測出疫情可能爆發的時間及地點. 另外,書中也以金融領域為例,美國股市每天大約會成交七十億股,其中有三分之二,是由電腦用數學模型分析大量資料後自動交易。數學模型有雙重目標︰一方面預測獲利、一方面也試著降低風險。巨量資料也會為商業、市場和社會帶來變化。例如、萬事達卡顧問公司(MasterCard Advisors),有能力匯整分析來自210個國家、15億人口的650億筆交易紀錄,他們發現之一是︰如果民眾在下午4點左右加油,接下來的一個小時內,就可能在附近雜貨店或是餐廳,花掉35美元到50美元。行銷人員如果知道這種事就能加以設計, 只要差不多那個時候的加油站收據, 就在背面印上附近雜貨店或是餐廳的折價卷。書中還列舉了許多其他的案例, 最重要的是, 我們必須拋下對因果關係的執著,轉而擁抱簡單的相關性。(A現象與B現象有相關性, 不表示A現象是因、B現象是果, 或B現象是因、A現象是果。)你我都不用知道「為何如此」,只要知道「正是如此」就行了!這種概念等於是要用新的方式來瞭解現實、做出決定,推翻了過去幾百年來的既定做法和基本思維。你如果上維基去找大數據(Big Data), 那裡有相當清楚的定義: 其實大數據(Big Data)簡稱做巨量資料, 指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具, 在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊. 大數據的4V特點: Volume、Velocity、Variety、Veracity. 有人說大數據(Big Data)整體的說是「機器學習」的一部分, 但這其實會造成誤導; 其實巨量資料並不是要「教」電腦如何像人類一樣「思考」, 而是要計算大量的資料, 以此推斷機率或提供做一些(預測)或是某種決策的參考依據。
(2). 大數據(Big Data)早已成為我們生活上不可分割的一部分: 其實我們生活周遭不管是看到的資訊; 或是一些預測或統計數字等等; 例如衛生機關提出有關H7N9或H1N1等流感的流行疫情的預測, 小至股匯市金融市場的預測也好, 颱風也好, 天氣變化也好, 大至全球的暖化及氣候變遷等都是大數據(Big Data)巨量數據所提供在我們生活中價值的證據。使用過電腦PC或平板及手機(尤其是Smartphone智慧型手機)的人, 我們都知道未來是一個雲端, 加上行動裝置, 加上感應器及很多行動APP的世界; 巨量資料也將為人類生活帶來前所未有的量化面向, 進而使生活全然改觀。有人給了大數據的時代另一個偉大的封號: 『第五波科技浪潮』(第一波是大型電腦; 第二波是個人電腦; 第三波則是網際網路, 第四波則是社群媒體)。 麥肯錫預估未來10年美國保健產業與海量資料有關的商機會高達3000億美元, 包含減少醫療糾紛、用藥避免浪費、增進健康品質。另外根據IBM調查預估, 海量資料目前的商機是71億美元,並將以年增長20%速度持續成長, 預計2015年達到180億美元。 IDC預測中國的海量資料技術服務市場將以年複合成長率51.4%的高速成長; 在2016年達到6億1650萬美元。 麥肯錫在2011年發表《大數據:創新、競爭和生產力的下一個新領域》報告,明白揭露海量資料將成為競爭的關鍵性基礎, 並成為下一波生產率提高、創新、和為消費者創造價值的支柱。由上面這些分析我們可以得到一個很快很簡單的結論, 巨量數據既然已來到我們的生活的四周, 而且我們也知道它會深深的影響著我們, 從好的一面去看, 我們說我們應該怎麼的去迎接它, 去享受運用這些巨量數據所帶給我們的價值; 從另外一面去看的話, 我們也應該去正確的認識及瞭解所謂的『個人資料正確的使用及保護』的重要性。
(3). 大數據(Big Data) 的應用要如何去實現: 其實整本書裡並沒有很深入的去探討這些所謂的大數據從一大堆不相關的數據裡面, 是如何的去從有計畫的建立數據(Data)開始, 如何的去整理及萃取這些不相關的數據, 使之變成可以動見(Insight)的資訊的過程。也沒有把大數據萃取資料怎麼樣最後變成資訊這一大塊講清楚, 尤其是關於方法論(Methodology)也沒有甚麼論述在裡面, 所以關於如何去應用及去實現大數據再不管是個人市場的應用面也好或是企業市場的應用面也好也許是未來可以再討論的空間。記得大概是在10以前吧, 當時我們公司正準備要去拿3G的執照, 老闆派我們去各大Operator去拜訪, 去看看別人3G的發展情形, 當時我在NTT DoCoMo就已經看過日本人利用3G寬頻的技術再整合衛星的Broadcasting技術做跨醫院個人急救時的醫療資料的整合了, 記得當時NTT DoCoMo提供的KPI是在救護車將急救病人送到醫院前5~10分鐘內必須完成這些個人醫診資料的Delivery同步到位到急救醫院裡的病床邊; 其實那個時候日本就已經在使用所謂的大數據資料的整合及應用了, 當然他們當時做的並沒有做像現在做巨量資料的預測, 但是他們已做到巨量資料的整合及準時傳遞等作業了. 1998年我為了寫研究所裡的ZARA的報告, 透過香港朋友的介紹曾經拜訪過ZARA在香港的IDC中心, 當時我們在研究ZARA這間西班牙公司怎麼能做到14天的KPI的Index把從西班牙工廠裡的東西能夠依照HK店面的要求準確的Delivery到店裡, 而ZARA又是如何將消費者在HK店面櫃台消費的行為需求Delivery到ZARA HQ總部研發打樣中心, 又如何在很短的時間裡打樣出來在最短的時間裡面交到HK的店面, 而能讓HK店面通知消費者來店面裡採買呢?也正因為如此的能貼近消費者的需求使得ZARA在各地的店面幾乎沒有甚麼庫存, 而且也因為ZARA能有效地縮短了整個成衣的製作及交貨流程, 能讓這樣一家遠在西班牙的傳統成衣工廠每年能有將近30~34%的利潤呢! 我當時的印象是他們在店面裡透過一台HP的終端機就可以將消費者當下的消費及他們的需求等(選購採買資訊)透過網路直接transfer傳到ZARA HQ的打樣研發中心, 後來我剛好有機會因為公司派我去西班牙的巴塞隆納參加MWC (Mobile Wireless Conference), 我順便又去參觀了ZARA的工廠及打樣中心以及他的發貨倉庫等, 才豁然了解為什麼ZARA能而別人不能的真正原因了. 其實ZARA就是利用這些大數據(Big Data)包括消費者消費的資料, 選擇的行為資料, 當地店面配合貼近消費者的一些特殊需求等等, 透過電腦及網路的傳輸能很快的讓遠在西班牙的研發打樣中心同步的開始作業, ZARA在西班牙的R/D打樣研發中心去看過以後才知道, 想要跟ZARA競爭幾乎是不可能, 例如:ZARA光是針對東方亞洲地區女性的BAR的胸線設計板樣及板型模就有1000多種, 其他成衣的板模就不用說了, 其他成衣廠能跟他競爭嗎? 我們不能只說要創新突破, 光是這種利用大數據做整合及分析應用及快速貼近消費者打樣發模的作業, 就非常值得我們大家去學習!另外,令我印象深刻的是ZARA在機場附近的成衣發貨倉庫, ZARA採用輸送帶(成衣完全像我們洗衣店掛在架子上晾衣服那樣, 利用自動分件輸送架直接快速輸送到機場貨艙裝箱掛運出口到世界各地去). 如果要我來分析我個人認為ZARA已把POS及ERP系統作業活化得很徹底了, 其他如IDC作業及Big Data的作業對資料的廣度及深度的統計計算技術已發展到了相當的程度, 別的兢爭者要趕上來恐怕不容易. 那NTT DoCoMo的Big Data的應用技術則更是不用多說了, 能在10年以前就已經能將一部Formula One一級方程式的賽車利用M2M的技術將車內及車外的各種感應器所出來的動態Data整合及運算處理出來, 提供給賽車手及賽車手旁邊的電腦, 即時做出最佳選擇的資訊, DoCoMo這種大數據Big Data的整合及應用, 應該已經用到相當的極致化了. 話說回我們台灣來, 台灣大部分多是中小企業, 其實要去玩大數據(Big Data)比較不容易, 因為大數據的玩法在國際級的競爭者(Competitor)來說, 他所設的進入障礙(entrance barrier)已經相當高了, 中小企業要進去做競爭會很辛苦, 比較可行的方案應該是透過與SI系統整合業者(System Integrator)及Carrier level的Operator網路營運商一起合作平台(Platform), 透過發展自己熟習的Business Model的過程去營造一個Service Domain的產品空間, 我個人覺得是一個比較適合台灣中小企業可以玩的空間. 其實台灣在加工及代工要轉型的這個階段, 許多企業也知道該轉型了, 可是找不到方向, 所以always wondering在徘徊撞擊中生存, 也許許多問題就是卡在『跨業整合』這一段. 前面都提過未來5~10年裡全世界大數據(Big Data)市場會有進上千億美金的市場, 問題是我們該怎麼進去, 是有秩序的由政府領頭進去(像英國OGC,韓國,瑞士,以色列,新加坡…)做法呢?還是仍然任由企業自己去闖呢?倒是未來台灣能否成為科技島的關鍵.
(4). 我們在大數據(Big Data)來臨的當下, 應該有的基本共識是甚麼? 首先, 我們應該了解: (4-1).數據並不等於資訊: 常有人把數據與資訊畫上等號是有點誤導視聽的感覺, 因為大數據(Big Data)裡泛指的並不是只有文字、數字, 其他還有圖像(Picture)及Media Stream串流影音等數據在內, 而且上述這些所謂的數據, 光是在格式上面就又有很多種, 而且這些裸數據Row Data如果沒有經過一番整理處理及分類, 最後數據還是數據, 不會成為有利用價值的資訊的. 而且就算你手頭上有成千上萬的Big Data每天在增加中, 但是資訊並不會因此而同步增加的. (4-2).資訊也不等於智慧(Insight): 常有人把資訊看做是所謂的智慧(Insight;也有人翻成洞見), 其實如果要把處理過的資訊轉化成所謂的智慧, 除了在資料萃取前就要先做好準備工作以外, 例如數據的可破譯性(因為數據本身就有所謂的已結構化數據及非結構化數據), 可破譯性這可能是個大數據時代特有的問題, 越來越多的企業每天都會生產出大量的數據, 卻還沒想好怎麼用, 因此他們就將這些數據暫時非結構化(unstructured)的存儲起來。這些非結構化的數據卻不一定可破譯。比如說你記錄了某客戶在你網站上三次翻頁的時間間隔:3秒,2秒,17秒,卻忘記標註這三個時間到底代表了什麼, 這些數據是非重覆性的數據, 但卻不可破譯, 因此不可能成為智慧。就關聯性來說無關的數據至多只是噪音而已, 不會成為智慧. (4-3).數據真的是愈多愈好嗎?不一定要求它的相關性嗎? 前面講過大數據Big Data講求的是量, 所以稱它做《巨量資料》或《海量資料》, 而且不一定要求它的相關性, 凡而是講求它的量, 書中也提到過巨量資料驚人的成長速度, 遠遠已超過我們正在處裡的資料量了. 舉一個德國《啤酒》、《尿布》、《星期五》《男人》的案例好了, 這四個類別的數據資料其實並沒有甚麼相關性, 開玩笑來激盪一下你的想像力說一個Scenario來吧! 你可能會說是不是一個家庭裡的男人總是在星期五的時候會去喝啤酒, 然後因為喝了太多的啤酒怕高速公路塞車沒地方上廁所, 所以包上一塊尿布再上高速公路呢? 聽起來好像蠻有哪麼一回事的樣子, 其實根本就不是這樣, 它是來自一家大賣場利用巨量數據去找行銷的賣點, 結果他們將上述四種海量數據(包括消費者男人是指上班族有家庭有小孩的男人, 星期五的時段run出來是在下班以後的時段, 啤酒及尿布本來也沒有關係的, 結果因為巨量資料裡有抓到消費者消費行為的巨量資料, 分析發現許多上班族男人會因為太太要求先生在星期五下班的時段, 經過大賣場裡記得帶個尿布回來, 家裡的嬰兒尿布總是在星期五的時候需要補充一下. 於是許多男人會在做補充嬰兒尿布的同時, 會順便也帶一些啤酒回去慰勞自己一下. 大賣場得出這樣的巨量資料的萃取分析結果, 於是在賣嬰兒紙尿布的附近, 總會也擺上一些各種不同口味的啤酒在旁邊, 結果根據大賣場後來的統計分析, 這樣的消費者消費行為模式, 直接帶給大賣場相當豐碩的業績. (4-4).《成本投入 vs 效益及效率》的問題: 如果站在效益即不斷提高效率的一方來考量, 巨量數據的投入對任何一個企業來說會是一個相當不輕的成本負擔, 而且要做到多高的預測精準度及多少時間以前就要能做到的精準預測, 那絕對會是一個相當成本投入的問題. 不要說光是在IDC及一些Hardware方面的投入是一定要的, 對於數據資料的採礦及挖掘(Data Mining)方面就要先建立相當的基礎, 其他Data Storage資料儲存及Data Modeling及Pattern等地模擬等等很多都牽涉到軟硬體的同步投入, 而這裡面另外一項重要的成本投入就是《人才》的長期培養及訓練.
(5). 企業及政府在這個市場上能扮演甚麼腳色呢? 當然這本書裡面已經勾嘞出許多的案例可以參考, 先說政府好了: 舉美國的例子, 在書裡作者有提到像紐約市地下水道的手孔的預測及修理, NASA利用巨量資料去預測太空梭的元器件可能產生故障前就從預測中去做修補作業, 政府對於疾病疫情等的預測及預防, 犯罪預防及假釋犯再犯的預測, 對於金融經濟及債劵保險等市場的預測…..政府利用巨量資料做成功預測及預防的案例非常非常的多. 在軍事方面其實巨量資料的應用早已深植於各個軍種裡面, 如何制敵機先而能決勝於千里之外, 不戰而驅人之兵是每一個國家在面對敵人時必先投入的部分. 中共中國人民解放軍61398部隊據稱是中共中國人民解放軍下屬的一支網路部隊,長期受到西方情報部門及網路安全公司關注,被報導為從事相關駭客活動的「中國網路戰的總部」也常被稱之為「影子部隊」。其實中共在1980年代就先成立了「電子作戰部隊」,到1991年波灣戰爭爆發以後正式將電戰及網軍合併成立了一支聯合作戰系統部隊, 近年來更是大量投入《巨量資料》做各種的接戰模型及海陸空特戰部隊在沿海各區域(包括所謂的南海海域, 釣魚台周邊海域)的接戰預測分析。我們台灣在政府方面其實要投入巨量資料的處理, 以做為一些施政政策方面的應用並不難, 其實難都是卡在《既有的法規綑綁》《跨部會的協商及執行困難》《人民要有感施政而官員及議員們無感》《庶民權利意識過度膨脹》等非與巨量資料處理有關的地方, 其實是蠻可惜的, 因為巨量資料(大數據 Big Data)處理及應用既然我們都知道是一條未來必須走的路, 而且許多的技術均已相當的成熟了, 而且是最適合像政府這樣一個火車頭的腳色領頭先去做, 台灣不是喊了好多年的《要把台灣建設成一座科技島》嗎?那大數據(巨量資料)這塊龐大的, 充滿著無限商機的市場正是我們政府應該帶頭先去做的領域, 如果有政府先去投入一些例如: IDC園區軟硬體的環境infrastructure , 引進先進高速計算機系統, 領先投入一些讓人民有感的預測貢獻資訊(例如: 高齡人口的先期身體疾病檢測系統, 提供65歲以上的老人們能早期預測到身體健康的狀況, 或是針對DNA等有機食物蔬菜水果等提供早期的預測建議, 先進科技關鍵技術與其周邊零組件的預測, 政府投資高速網路及超高速大型運算系統等大數據(Big Data)的頭端環境, 讓民間SI公司及發展APP的公司能與政府的高速電腦結合, 也就是說處理大數據頭端的一些基礎建設及高速超級電腦及運算系統由政府出來投入, 再回過頭來提供給中小企業去發展利用政府建好的母艦去發展各種的APP及應用(包含終端)等等都是會因為政府做好了這樣的Infrastructure而讓這些中小企業去得利, 更進而因為這些APP Services服務讓大眾生活上感覺到更方便.(這就是有感了). 其實台灣是個小國家, 要做到有感施政應該比大陸型國家要容易, 我覺得當前的困境也許是因為, 台灣人不管是一般老百姓也好或是政府公務員, 針對法規法令的解釋及認知, 是人人一把號各吹各的. 例如: 交通法規好了, 其實我們的交通規則已明載的很詳細了, 可是你看路上不管是行人也好, 騎機車及開車的用路人也好, 只要是一旦上了路上, 好像所有的交通規則都只是參考用的了, 不守法的所在都是, 你問他知不知道有交通規則, 他會說知道, 那為什麼交通總是一片大亂?
(6).最後講到安全及個資的問題: 在迎接大數據(Big Data)的時代裡, 我們不得不去想的兩個問題: 安全及個人資料保護的問題, 在阿湯哥演的『關鍵報告』裡面, 我們很清楚的看到大數據(Big Data)在應用上的威力, 在那部電影裡警方已經可以做到在犯罪還沒有發生之前就已經可以『預見』了, 而且是警方在『預見』的犯罪事實還沒有發生之前的幾分鐘就已經到達犯罪現場, 並拘捕這些我們應該說是『嫌疑犯』了, 而事實上那個被稱做『犯人』的人, 其實當時他還甚麼事情也還沒做呢! 如果我們未來也是這樣, 你能接受嗎? 雖然那還只是一部電影而已, 而事實上美國聯邦政府假釋委員會已建立一種所謂的『假釋人員再度犯罪的預測治安系統』那是根據假釋犯的所有過去的犯罪模式, 及他在監期間的一些行為微觀資料, 在將假釋犯過去接觸過的環境及未來他假釋以後可能去的環境裡的一些與假釋犯犯罪因子的各種參數作Senior Modeling比對, Define出他再犯的機率, 再將這些資料分析的結果作為某個囚犯是否能夠假釋的參考資料。甚至在美國有越來越多城市,採用預測治安系統,根據犯罪的頻率、團體、人種、社經地位等去分析哪些路段是否要特別加強巡邏,以防治犯罪。所以不管是治安也好, 犯罪環境監控也好, 許多國家已開始採用這種大數據模擬出來的資料做為執法單位等的一些決策參考. 但是如果我們反過來由個人人權及個人資料保護的角度來看的時候, 在大數據時代,每個人在不知不覺中「被蒐集」, 再加以資料整合與加總。或許有人不在意,但對於隱私至上的信奉者而言,等於是一種「數據監控」,就像「全民公敵」這部電影一開始, 就有一位美國國會議員被另一位議員殺了。幸好這一切都被一位鳥類研究員錄下來, 但為了將這卷錄影帶公諸於世,他遭到兇手動員一切可用人力資源追捕, 最後車禍死亡; 但這捲錄影帶卻落入一位律師手中, 使他成了另一位被追殺的對象. 由於兇手是一位行政官員,因此動員了調查局的許多資源–人力、衛星.......。調查局本來是為了保護國家、人民所設立的, 卻被挪來私人用, 人民要怎麼辦?資源有限, 國家有急難時, 是不是就少了一些資源能用? 科技日新月異,每天都有不同的電子產品被發明, 就拿手機來說平均一個月就有一種更先進的型號推出來. 電影中,光靠衛星、電腦就能在幾千公里外之知道他人的行蹤更能竊聽電話、手機,隨時掌握他人的行蹤。不過在科技這麼發達同時, 犯罪問題是否也會日趨嚴重?科技若用在好的方面, 如保衛國家、保護人民, 固然好. 但若像電影的情況, 豈不助紂為虐?這部電影最強調的一點就是「隱私權」. 隨著資訊時代的來臨, 人們越來越需要在紛亂蕪雜的環境中保留自己內心世界的安寧, 隱私權也就逐步成爲人們的一種基本需求. 今天隱私權已經成爲公民保持人格尊嚴和從事社會活動所不可缺少的條件之一; 泄漏並宣揚他人隱私, 給他人聲譽造成不良影響的, 加害人要承擔名譽侵權的法律責任.情節惡劣、後果嚴重的還有可能構成犯罪受到刑罰制裁. 我想,竊聽等侵犯隱私權的的行為,或許又助於打擊犯罪, 卻也大大干擾了人民的生活。成天活在恐懼裡, 誰受的了?其實許多人不了解這中間的風險細節, 諸如我們一般人天天上網的行為(你會留下log file), 你打電話及fb上打卡的行為, 你使用Facebook, Line, WeChat…等等許許多多的網路上的APP行為, 其實這些都是屬於大數據裡所謂的「被蒐集資料」的一小部分; 這還不包括你在自己主動意願下合法留下的諸如: email帳號、銀行帳號密碼、信用卡卡號、身分證字號、個人肖像權、到網路活動的路徑、交易行為、打電話行為、基因排序等,凡是「可以透過這些被蒐集的資料對應到特定個人」的資料呢! 其他平常我們在經過各大路口, 監視器拍到的個人面貌, 你如果一直身上帶著你的手機(有基地台location的位置軌跡)…甚至你到超商的消費行為, 太多太多所謂的「被蒐集資料」了。而這些都是可以經過上述所講的大數據資料處理方法, 追蹤辨識出你是誰?你在哪裡?你的行為模式及你可能的行為模式是甚麼?清清楚楚地顯現出來的. 所以這本書的作者在最後也提到所謂的「道德」面、「人性」面的問題, 希望使用大數據的時候應該要尊重「道德」、「人性」面. 但就我們個人來說, 當然你自己就要拿捏一把尺了。

大數據由量化而產生的質變確實為我們未來的生活帶來許許多多的便利性, 也對我們不管是政府單位也好, 整體的企業也好, 都帶來無比美好的發展空間. 但是, 不要忘記如果我們事事都早已在大數據的預測中被拖著走, 那我問你那人活著還有甚麼意思呢? 所以本文作者最後也提醒大家要謙卑、要注意道德及人性化的一面。

沒有留言:

張貼留言