「大演算」讀書心得
陳 益 誠
這本書剛拿到手的時候,初看字面的意思以為是一本,在講IT資訊工程或一些工程邏輯演算法方面的工具書呢! 經過仔細翻閱以後才知道它主要是在講「機器學習(Machine Learning)」方面的書籍。當然它與大數據的應用面是有一些重疊的部分,不過這本書主要關注的重點仍在於細究「機器學習(Machine Learning)」方面的問題。本書的作者是「佩德羅.多明戈斯(Pedro Domingos)」電腦工程博士,現任華盛頓大學電腦工程系教授,該系是全美前十大電腦工程名校。他初試啼聲聞名圈內是兩度在資料採礦大會上獲得最佳論文,並在此後成為該領域的意見領袖。他在專業領域內獲獎無數,還包含美國國家科學職業成就奬,他也是史丹佛大學及麻省理工學院客座教授。他最有名的功績是破解了一個在機器學習領域中長久以來的瓶頸,成功把機器學習、哲學與人工智慧結合起來。這個突破性的研究還曾經登上著名的《新科學人》(New Scientist)雜誌的封面故事。
其實「機器學習」早在1958年Frank Rosenblatt就職於Cornell航空實驗室(Cornell Aeronautical Laboratory)研究感知器(sensor)時,就曾提出所謂的二元線性分類器,一種最簡單形式的前饋神經網路「人工神經網路」的概念,其實就是機器學習的雛型開始。但是如果我們把更早以前所謂的機械式的記憶運作(例如: 機械式音樂鈴)也算在內的話,那機器學習的起始史可以推究到更早的人類發明使用工具的歷史了。而本書所講的「機器學習」則比較偏於「人工智慧」方面。我想過去幾個星期裡在「機器學習」方面最熱門的消息,則首推Google的AlphaGo打敗世界棋王李世乭的世紀大戰了。引發關注的是3 場比賽AlphaGo都打敗李世乭,大家都好奇的是AlphaGo它究竟厲害在哪裡?要瞭解AlphaGo是如何打敗棋王李世乭的,那我們首先應該先去瞭解一下AlphaGo的邏輯組成結構開始,事實上AlphaGo的邏輯組成結構分下列三個部分:
(1). 走棋網路(Policy Network): AlphaGo是根據整體棋局及對手下的位置,棋盤上共有361個棋點,AlphaGo會做「預測」、「採樣」等比對及比較分析,然後再給出下一步的走棋建議。
(2). 快速走子(Fast rollout): 目標和(1)一樣,但在適當犧牲走棋品質的條件下,
速度要比(1)快 1,000 倍。非常有趣的是棋盤上最好的寬度網點共有384個網點,但是AlphaGo為了能快速走子,它只用了192個網點,也就是說如果AlphaGo的 GPU 更快一點(或者更多一點網點),AlphaGo肯定會變得更強的。(這也是Google最後保留沒有說的部份)
(3). 估值網路(Value Network): 給定當前局面,估計是白勝還是黑勝。AlphaGo
的估值網路可以說是錦上添花的部分,沒有它AlphaGo也不會變得太弱,
至少還是會在相當的水準。估值網路和快速走子對盤面估計是互補的,在
棋局一開始時,大家下得比較和氣,估值網路會比較重要;但在有複雜的死活或是對殺時,透過快速走子來估計盤面就變得更重要了。考慮到估值網路是整個系統中最難訓練的部分(需要三千萬局自我對局),我猜測它是最晚做出來並且最有可能能進一步提高的部分。這一次的對弈雙方幾乎都是採用硬碰硬對殺的走法。
另外就是AlphaGo的「蒙地卡羅樹狀搜尋系統」(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統。
其實如果我們把AlphaGo跟棋王李世乭的對弈過程,仔細推究一下,就可以看出來其實AlphaGo跟棋王李世乭都在相互學習,當然AlphaGo許多的棋譜及演算模式、樣貌比對、策略選擇等,部分是事先輸入的,可是在雙方開始對弈以後,AlphaGo的學習速度開始愈來愈快速了,我們可以看出來棋王李世乭在對弈棋局中尤其是在末段的階段,開始考慮及策略用棋的速度,明顯比AlphaGo要慢下來了。要知道棋盤上有384個網點要掃描,要做比對判斷,甚至還要演化得出許多對方出子以後可能產生的變化,所以判斷的深度及反應的速度絕對是一個「重要關鍵影響因素」,當然電腦是不會「動氣」的,而且它的邏輯運作及掃瞄運作,是線型規律化的,要掃描384個網點一定是一個一個掃描過去的,但是人腦的運作更複雜,並非像機器一樣一定要一個一個規律化掃描所有384個網點以後,才做決策應對的,光是從這個角度或是維度看過去,就知道AlphaGo在「機器學習」演算法上面的運作是多麼複雜而有效率了。
(一) 甚麼是「機器學習」?「機器學習」的演算法
所以如果從「機器學習」的角度來看AlphaGo的話,Google X部門在人工智慧這一塊已經考慮到的層級,不光是從數據蒐集、快速分類比對及邏輯判斷基本「機器學習」方面已接近完勝的布局,甚至在同步運算速度及價值分析、比較及判斷方面也已有相當的著墨。閱讀本書我們還是先從甚麼是「機器學習」開始?
機器學習(Machine Learning)是計算機科學的一門。常利用着統計學的技巧,機器學習程式(Machine Learning Algorithms)能夠自動學習識別數據內的規律。憑着機器學習找到的規律,電腦程式能作出高度準確的預測。根據維基百科給「機器學習」下的定義是:
- 機器學習是一門人工智慧的科學,該領域的主要研究對象是人工智慧,特別是如何在經驗學習中改善具體算法的性能。
- 機器學習是對能通過經驗自動改進的計算機算法的研究。
- 機器學習是用數據或以往的經驗,以此優化電腦程式的性能標準。
從上述文字的定義來看,好像有些生硬,但是如果我們把「人工智慧」拉進來,大家或許會覺得也許就沒那麼遠了。而人工智慧的發展則可以追溯到第二次世界大戰的末期,當時為了解決一些軍事上和情報上的問題,科學家們開始研究發展一種有智慧的機器。後來在1956年McCarthy主持了Dartmouth會議,成為公認之人工智慧發展史的開端。在人工智慧的研究方面,有幾位有名的始祖。A. M. Turing是奠定電腦科學基礎的人,他曾提出棋奕論(gram
playing)與電腦的研究成果。M. L. Minsky則是發表框架(frame)理論的人,也就是先將大量相關資訊輸入電腦,再將這些資訊按照情形來定義為選擇性的條件或是強制性的條件,用這種方法來解決模稜兩可或是有例外的問題。J. McCarthy則體會到必須用符號語言(symbol
manipulation language)來代替以公式為處理中心的語言,因而發表了LISP (LIST
Processor)人工智慧語言。此外尚有發表通信理論的C. Shannon和發表生產系統的A. Newell。所以「人工智慧」也是許多各個不同領域的專家們,因應不同時代變遷下的電腦機器軟硬體的發展環境,逐漸累積堆疊成型的一種科技技術。在演算法方面更是百家齊鳴,其中具體的機器學習演算法有:
(1).構造條件機率(回歸分析和統計分類)
- 人工神經網路
- 決策樹
- 高斯過程回歸
- 線性判別分析
- 近階比對法
- 感知器(Sensor)
- 邏輯函數運算
- 向量函數運算
(2).通過再生模型構造及機率密度函數:
- 最大期望算法
- 機率圖模型: 包括貝葉斯網和Markov隨機網
(3).近似推斷技術:
- 馬爾可夫鏈
- 蒙特卡羅法
- 變分法
(二).「機器學習」早已融入你我的生活中
為什麼說「機器學習」早已融入你我的生活中呢?例如我們每天都在使用手機裡的APP,不管你是使用Google的搜尋引擎也好,或是在手機裡觀看一個Video Clip短片,你不但會找到你所要搜尋的網站或短片,同時也會看到一些相關的廣告,其實你手機裡的APP已經從你經常的瀏覽習慣及你使用APP的行為模式,逐漸的也愈來愈瞭解你,所以當你再找類似的目標時,它不但會很快地找給你,而且也會提供你相關的訊息(不一定是廣告,或是其他跟關鍵字相關的資訊給你)。不要說是像Youtube或是Amazon.com、Facebook、Twitter這些早已使用「機器學習」的技術水平很高的公司了。其他諸如像我們生活上經常使用的的email系統,語音識別系統、關鍵字詞的檢索、人臉辨識系統、圖文檢索、個人語音影像製作系統、簡單故事編輯及短片製作等太多太多的案例,都可以看到「機器學習」的影子。這中間許多的應用,其所牽涉的「機器學習」在本書中比較歸類成與「AI (artificial intelligence)人工智慧」畫上等號,並沒有進一步的去細分它;可是如果我們更廣泛的去讀更多的相關科學報導分析以後,在許多的科學文獻及期刊上面是將「機器學習」與「人工智慧」還是定義成是兩個完全獨立的個體來研究的。
而且在現階段大部分人的瞭解,多把「機器學習」與「機器人的學習」看成是同一類型,事實上這樣子去定義又太簡單化的一點。因為現階段的「機器學習」事實上仍有許多的侷限,也就是說「機器學習」現階段應該算是一個比較初階段的開始時期,未來還有非常遙遠的路要走。現階段我們看到的或是感知到的「機器學習」的存在,尤其是在我們生活中的一些東西,其實多是圍繞在機器的「視覺」、「語音的辨識」、「圖形的比對及識別」、「文字及詞彙的檢索」、或是從「大數據」(Big Data)裡去檢索出人類有用的資訊等等的應用,不管你是呈現在電腦上面或是在一個軟體推成的情境裡,或是在機器人上面作呈現等等,其實「機器學習」或是「機器人的學習」還僅止於「定性化」,還沒辦法發展到像人類一樣的「意識層」層面。讓我們來說一個最簡單最直接的個問題好了,我們都看到了AlphaGo打敗世界棋王李世乭的新聞,Google AlphaGo的能耐被普世大眾所肯定,但是各位您有沒有想過,AlphaGo在打敗棋王李世乭,會因為這樣去開一瓶啤酒我們大家一起去慶祝一下嗎? 「機器人」能做擠眉弄眼的暗示表情嗎? 而這些我們人類一般很簡單很自然的動作機器人懂嗎?
其實整個情境正像過去幾年人類看待「無線通訊」(wireless Communication)及「物聯網」(IoT,Internet of Things)一樣,太大而化之了一點。其實「無線也是有限」無線並不是絕對萬能的,而「物聯網」更是困難重重,因為「物」的屬性太多元了,可以從「材料科學」到「巨型機械」,而我們人類就現存的科技侷限,光是在感知器(sensor)方面的運算,及在感測技術等的極限,就受限於許多材料物理特性,急需去突破或去克服它的問題,其他更不要說我們人類在「可記憶金屬」科技技術方面才剛剛開始呢。當然作者還是慫恿我們從比較容易的一面,或應該說是從比較正面思維的一面去描述「機器學習」。因此書中針對「機器學習」在我們生活中美好的描述有:
在你的一整天生活中,從你醒來的那一刻到睡著時,機器學習無所不在。你的智慧時鐘收音機在早上7點響起,正在播放一首你從不曾聽過卻真心會喜歡的歌曲。起床後,你吃著早餐並讀著早報,這份報紙在幾個小時前才從印表機印出來,透過學習演算法仔細調整印刷過程,以避免報紙上產生汙痕。由於你安裝了Nest恆溫空調學習控制器(Nest learning thermostat),所以屋內的溫度設定得剛剛好,並且大幅節省了電費。
當你開車去上班時,車子會不斷調整燃油噴射和廢氣再循環,期以達到行車最適油耗的狀況。你還可以使用交通預測系統,去幫助你縮短在尖峰時段的上下班時間,規避開各種可能塞車的路段,減少你駕駛行車的壓力。在工作中,機器學習可以幫助你減輕資訊的氾濫和過載。你可以使用資料方塊(data cube)理論,進行巨量資料的概述,隨意從每一個角度來觀察,都可深度串聯探討最重要的部分。其他Google上面一海票APP功能,諸如: 翻譯、語音導覽、圖文檢索、各種旅遊、個人喜好或與生活上有關的資訊比對檢索….姑且不說。在休息時間,你查看自己的股票基金,這些基金大多數是機器學習協助你挑選的股票投資組合,完全透過機器學習系統執行運作。午餐時間,你走在大街上,智慧手機幫你找尋用餐地點,可以幫助你找到最適的餐廳及價格口味等的package。你的手機塞滿機器學習,它們會努力糾正你的拼寫錯誤、理解你的口語指令、減少傳輸錯誤、識別條碼,還有很多其他生活功能。你的手機甚至可以預先料想到,你下一步打算做什麼,並相對應地為你提供建議。
夜幕低垂,你下班時,機器學習會幫助你,讓你安全走到停車處,停車場的監控攝影機會提供監測的視訊影像,假如偵測到可疑的活動,就會發出警報提醒保全人員。在你的回家路上,你走進超市裡,所走過的通道都是店家透過機器學習演算法進行最佳化擺設,如哪些商品需要庫存、哪條通道的底端要陳列設置;而結帳時,你使用信用卡來支付,機器學習演算法會依據信用卡別,為你傳送特定的特惠訊息,並且匹配你的信用額度進行消費。同時,另一個機器學習演算法會不斷防範可疑的交易,如果它認為你的信用卡號碼被盜,便會立即提醒你注意。第三個機器學習演算法則會試著評估你對這張信用卡的滿意度,在你換用別張信用卡前,便會主動推薦你一個更適合你,而且最多優厚特惠方案的信用卡給你。其他在生活上面「機器學習」及其演算法所衍生出來的應用,還有許多許多你用不完的APP在等著你去體驗。
(三).「機器學習」的五大門派
畢卡索(Picasso)曾說:「電腦是沒用的,電腦只能給你答案。」電腦不被認為應該具有創造性的,電腦被認為應該只會做人們交代它們去做的事情。一套機器學習演算法不可能是橫空出世就到位的,它也是因應一個或數個應用的需求,或是一些情境(Scenario)的推演,慢慢衍生出來的。就好像廚師進到廚房裡,也許所用的食材或底料相差有限,但是經過各個不同廚師們的手藝和他當時的創意,再透過不同的料理過程及火候,最後呈現在餐桌上的美味,就有可能有非常不同的口味出來。而「機器學習」演算法也是一樣,經過漫長的演進過程,尤其是應用環境的差異所致,截至目前為止全世界將「機器學習」演算法,大抵上共分五個思維派別來區隔它: (1).符號理論學派(Symbolists)將學習視為是一種逆向演繹法,是從哲學、心理學和邏輯思路方面取得概念。(2). 類神經網路學派(Connectionists)會進行大腦的反向工程(reverse engineer),主要是受到神經科學和物理學的啟發,模擬人腦思考行為。(3). 演化論學派(Evolutionaries)會在電腦上模擬演化演變,徹底運用遺傳學(genetics)和演化生物學(evolutionary biology)理論。(4). 貝氏定理學派(Bayesians)相信學習是機率推理的一種形式,是根據統計學做為理論的依據。(5). 類比推理學派(Analogizers)則是透過從相似度判斷進行推論學習,並且受到心理學和數學的最佳化影響。(書中是把這五大門派各做一個章節來論述),可是我感覺雖然各有一些論述在書裏面,但是看完了以後個人覺得,對非工程師來說,實在沒甚麼太大的關係;另外,對真正要去研究「機器學習」演算法的工程人員來說,又會覺得太淺,甚至這樣的去分類方式也沒有完全科學或學術界論證的一些堅實的支撐,所以在這裡我也就把它一筆帶過,有興趣的去買書來翻一下就好了。
其實「機器學習」演算法的各種學派發展,像極了今天大家在找尋癌症治療的方法一樣,大家公認未來最有可能的方法是,透過「基因重組」或修復、重組排序等的過程,針對各種癌症病患的樣貌及病史,找出一個最適合及最正確的方法,如果從這個論述的基礎來看,醫療界目前也是分門別派各有專攻,但是至少到目前為止,還沒有任何一個學派可以100%的保證用他的方法,可以完全達到解決抑制癌細胞的擴散及完全根治的境界。其實本書的另外一個目標,就是想要觸發你對投入「機器學習」演算法的興趣及創新發明,當然也許你會認為這需要繁重的數學知識和嚴謹的理論工作,其實不然,反倒這所需要的是先從艱深的數學理論抽離,以便能看到學習現象的整體模式。對於外行人來說,在某些方面比起專家更有優勢,反倒專家很容易沉浸在見樹不見林的狹隘研究中。一旦我們擁有了概念性的解決方案,我們就可以用數學的細節來印證,但這並不是本書的唯一目的,而且也不是最重要的部分。
「機器學習」演算法的派別雖多,但機器的學習模式卻很固定,每一個演算法都有一個輸入和一個輸出,亦即數據資料進入電腦後,演算法會利用這些資料去做它該做的,然後輸出結果。機器學習則是扭轉這種模式,亦即數據資料與預期結果輸入後,機器學習會將一個演算法轉變成另一個後,結果輸出一個演算法。機器學習演算法也被稱為學習器(learners),是一種演算法,可以推演產生另一個演算法。有了機器學習,電腦可以自己編寫程式,所以我們不必再對電腦逐步下達指令了。這是一個強大的觀念,甚至有點嚇人。如果電腦開始自己編寫程式,那我們將如何控制它們呢?實際上,截至今天,人們可以編寫許多軟體程式是電腦無法學會的。但是更令人驚訝的,電腦可以學會許多程式是人們所不能編寫的。我們知道如何駕駛汽車和辨讀筆跡,這些技能是潛意識的,但我們無法向電腦解釋,如何去做到這些事情。然而,如果我們給予每一個學習器足夠多的範例,它將愉快地找出如何做自己,屆時我們就可以放手讓電腦自動學習運作。這就是郵局如何利用學習器讀取郵政編碼(zip)和為何路上已經出現自動駕駛車了。當然在這種機智下,也有許多人提出一些質疑,那萬一有一天人工智慧做得比人還要好的時候,而且一旦機器人可以無止境快速的學習下去,那機器人不是就可能完全操控人了嗎?單從理論上來說或許是,但是可能性很低,因為人的感性是機器無法取代的,尤其是一些隱含式的情感表達及人與人之間的那種溝通模式。就像我前面提過的Google的AlphaGo在戰勝棋王李世乭以後,並不會去啤酒屋裡去狂歡,或是去招攬同伙大家一起去KTV裡慶祝一下,更不要說機器人也會有憂鬱症的一天吧!
(四). 為什麼大家尤其是企業都要積極進入「機器學習」演算法的研究呢?
「機器學習」擁有許多不同的形式,而隱含在這些機器學習的路徑裡,每一項科技都是企業在面對未來競爭不可或缺的能耐,例如:模式識別(pattern recognition)、統計模擬(statistical
modeling)、資料探勘(data mining)、知識發現(knowledge discovery)、預測分析(predictive
analytics)、資料科學(data science)、自我調適系統(adaptive systems)、自我組織系統(self-organizing
systems)等。舉一個現實的例子,為什麼Google公司的市值比雅虎(Yahoo)高出許多?明明兩家公司都是從網路廣告帶來營收,而且兩者都是最熱門的入口網站,也都採用拍賣模式出售廣告,且都是透過機器學習來預測用戶有多少可能會去點擊廣告(點擊的機率越高,這個廣告位置就越有價值)。但Google的機器學習演算法比雅虎的還要好得多了。當然這不是他們在市值差異的唯一原因,但絕對是一個大的問題。對於廣告客戶來說,如果每一個預測的點擊並沒有發生,那等於是平白浪費了一個機會,而且對於網站而言,自然也會損失財源收入。隨著Google網路廣告年收入高達500億美元,只要潛在的有效點擊預測每提高1%,等於意謂著每年就可為公司增加5億美元的廣告收入存入銀行。難怪Google是一個機器學習的超級大粉絲,而雅虎與其他網站業者正試著努力的急起直追。
這也是為什麼近年來,許多企業都要積極進入「機器學習」演算法的研究,加大資源及人力的投入的主要原因;當然說起來很容易,但是要做起來並非那麼容易,尤其是對一些傳統產業,或是以OEM/ODM起家的中小企業。依據國外成功經驗分析,其實企業的成長階段並非是個完全的坦途,初始階段大部分的傳統產業及中小企業多是靠堅實耐操的人力及簡單的電腦系統,做公司營運及整體的操控作業,第二階段多是公司比較穩定了,量產的壓力及多元客戶的需求,逐漸形成的營運壓力使然,大部分企業在這個階段開始引入IT/ERP/MES…等系統,開始做了一些初階自動化的系統,其主要目的在於能夠支撐多元客戶的需求,能將客戶的需求迅速反應到生產線,品質及量化生產是這個階段主要的經管目標,其實這個階段企業的整體運作已經開始有一些「機器學習」應用的基礎,在慢慢地被建立中,只是大部分的企業並沒有察覺它的存在而已;隨著互聯網(Internet)網商交易的逐漸普遍化,企業開始面對更多元的客戶的需求,而且「少量多樣」的客戶需求,開始慢慢取代傳統那種「量大少樣」的訂單型態,這個時候企業開始抓狂,不知道該怎麼辦了? 是開更多的不同產線嗎? 那更高的成本投入能支撐快速產生的「少量多樣」這種常態需求嗎? 當然不行。於是許多企業主開始真正警覺到,是不是能夠讓「機器」的運作,以及「人機」合一的運作,能夠更智能化一點呢?這個階段正是我們現在所說的「機器學習」演算法需要大量介入的時期了。
當然大家在看「工業4.0」的時候,談到許多所謂的「工業自動化」或「機器人」的投入等issue。甚至許多人誤以為「工業4.0」就是在談「機器人」,其實這是一種誤導,事實上依照德國原本「工業4.0」的定義,「機器人」的建置期是歸在「工業3.0」這個階段的,「工業4.0」談的是CPS網宇實體系統(Cyber-Physical System)是一個結合電腦運算領域以及感測器和致動器裝置的整合控制系統。目前已有某些領域出現似於CPS的電子控制整合系統,例如航空、汽車、化學製程、基礎建設、能源、健康、製造、交通控制、娛樂和消費性電子產品,但目前這些系統通常都是嵌入式系統,嵌入式系統比較強調機器的計算能力,CPS則更為強調各個實體裝置和電腦運算網路的連結。 CPS是借用技術手段實現人的控制在時間、空間等方面的延伸,CPS系統的本質就是人、機、物的融合計算。其實不管是「工業X.0」「少量多樣」的客戶需求樣貌,一定是未來的一個主要及不可逆的趨勢,因此如何快速建立或整合「機器學習」演算法的機智運作及應用,絕對是所有企業現階段必須要積極介入的重要目標投入點。隨便舉一些實際需求的例子好了,以前「量大少樣」的時代,你手中的客戶你可能比較容易去掌握他的需求,不管是規格也好,需要的量價比也好,客戶可能在OEM/ODM上的需求變化也好,都好掌握,最少在供應鏈及生產元素端都是比較好掌控的,可是如今要變成「少量多樣」的時候,光是花在跟客戶溝通,規格確認,訂單確認等作業上面可能就比以前複雜多了,所以CRM/MRP甚至BI(Business Intelligence)等客戶需求服務面及決策支援面的系統需求,絕對跑不掉。而這些系統運作在初始階段,由於你的Data資訊量化還沒有那麼大的量,或許你的模擬模型還很少量,你可能還感覺不到「機器學習」演算法的運作效用,就像前面所說Google的AlphaGo與世界棋王李世乭的世紀大戰剛開始的時候一樣,你可能還看不出來AlphaGo在「機器學習」演算法的運作上,有甚麼驚人之舉。可是當棋局愈下愈複雜的時候,你就可以看出來AlphaGo在「機器學習」演算法的運作上面的效率了,那種棋局出子的力道,招招都顯得強勢逼人,三局的完勝下來,其實如果再有對手要再跟AlphaGo對奕的時候,我相信要想贏過AlphaGo可能的機會,會相當的小了。
(五).結論及「機器學習」演算法面對未來的問題探討
其實這本書並沒有提出甚麼結論,但是基於好奇,我試著從一些科學期刊及論文裡面去挖掘,看看有甚麼值得去再探討深究的東西,終於讓我在Carnegie Mellon University Pittsburg大學的論文期刊裡面,找到一些針對「機器學習」演算法未來仍需要繼續深究的問題方向,例如:
(1)
依據函數法演算「機器學習」演算法在One
on One及One to Many上面的啟始點可能相同,但是在許多「關鍵轉折點」;也就是說人腦對「關鍵轉折點」產生的函數演算會有所謂的「特別標記」的演算變換,但是「機器學習」演算法不會對於所謂的「特別標記」立即做「關鍵轉折點」的變換。
(2)
「機器學習」演算法在「單一環境」下所產出的運算「準確率」及「絕對值效率」是一樣的;但是當「單一環境」因素瞬間被改變時,「機器學習」演算法不會做立即的改變,而這個時候的「機器學習」演算法「絕對值效率」會是未來「機器學習」演算法,如何因應「環境因素變換」的重點研究方向之一。當然這裡面講的「環境因素」就包含了很多的東西,諸如:光線、水下作業、電磁場等。
(3)
「機器學習」演算法對「隱私」與「資料挖掘」從來都沒有絕對的標準,也就是說凡是針對「相對標準」的「絕對利益」也會是未來在「機器學習」演算法上面重要研究的議題之一。甚至於在「加密」方面也涉及到「相對標準」的「絕對利益」那種拿捏的判斷點,絕對是未來「機器學習」演算法需要去特別面對的問題之一。
(4)
「機器學習」可否有never-ending永遠不停止的學習,在我們人類及動物,學習方式大多是採step by step階梯式的學習方式學習,大部分的動物學習也是採取這種方式在學習的。但是「機器學習」的never-ending學習模式,並不是絕對自願而永無止境的,最少到目前為止還有所謂的階梯式的學習模式,「機器學習」的模式多採「倒果為因」的模式在學習。當然也有許多雜音針對所謂的never-ending的學習模式,部分科學家認為會有可能「失控」的風險,及「資源過度浪費」疑慮,但是反對者也是大有人在。
(5)
在人類的學習模式裡,有一些是屬於情緒性的學習模式,例如: 學習動機(友好的動機、同樣也有不友好的動機)、為了某一種獎勵而去拼命去學習,或是對於「緊急危難」臨時產生的學習模式,甚至人類會對學習選擇「遺忘」或是「暫時忘記」等等;但是「機器學習」會嗎? 它需要嗎?
(6)
是否針對「機器學習」我們應該來編製一種通用而大家統一一致的編寫程式及語法,對於一些所謂的「道德規範」來訂定一個全世界統一的標準;而那些標準必須貫穿到「機器學習」的子流程中,以做為在人類世界裡面一些最基本的保障基礎。
(7)
可否將電腦的感知器(Sensor)與「機器學習」合併在一起(因為目前是分開的),例如電腦在(視覺辨識、語音辨認、溫度差異及環境變遷)等方面的感知器(視覺、聽覺、觸覺),應該與「機器學習」合併在一起,否則會有「指馬為驢」的疑慮和不確定的危險存在。像目前Google的「無人自動汽車駕駛」、像美國DARPA公司正在發展的「無人駕駛直升機」(其操控難度比現在的無人機,在難度上高很多)、像「人機合一的生化機器人」、像「外太空無人駕駛的探測採礦車機器人」等,大部分的設計,均採電腦的感知器(Sensor)與「機器學習」演算法是合併在一起的。早期美國格魯曼公司及蘇聯時期的蘇霍伊設計局,均先後採用過「人機合一」的設計,也就是飛行員的操控電腦及飛控作業(整合在戰機飛行員的頭盔裡),都是透過感知器(Sensor)直接抓取「人腦」的思維信號,採同步與「機器學習」演算法結合在一起,所以飛行員直接反應的操控思維,會立即轉成「電腦或操控機器運作」(例如: 飛行模式的變換、飛彈火控系統的操作等),等於戰機的飛行員看到那裡就能打到那裡,飛行員想怎麼飛戰機就會怎麼飛,變換操控起來變得非常的靈活。
(8) 目前一直或缺的部分在「機器學習」領域裡面,就是形狀記憶合金(Muscle Wire)俗稱做「記憶金屬」、導電油墨(Conductive Inks)、感溫變色顏料(Thermochromics Pigments)、電子紡織品(Electro textiles)、漫射光線的壓克力板(Light Diffusing Acrylic)等複合式材料。因為這些複合材料的橫空出世,在「機器學習」領域會產生甚麼樣的撞擊,目前科學家們已經開始注意到了,但是在應用面來說,最少到目前為止,還沒有完全整合在一起,在好萊塢(Hollywood)的《變形金剛》影片裡面,一部在公路上奔馳的車子,可以在一瞬間變成一個機器人,甚至於還可以相互結合,成為一個巨大的機器怪獸出來,其實它基本的依據來源,就是我們現在在談的合成「記憶金屬」。導電油墨這可以說是目前討論最熱烈的智慧型材料了!混合了銀或碳等傳導粒子的顏料能用手工或是印刷的方式附著於紙張上,讓普通的紙片搖身一變,成為現今最具潛力的創意媒材:印刷式電子產品( printed electronics)!我們只需要普通的紙張和一台稍加修改的印表機,就能夠生產出便宜、有彈性、可以回收的電路。目前,導電油墨的還未能取代銅或其他導體,但我們已可以看見它的無窮潛力;有了導電油墨,我們能像畫圖或列印圖片一樣,創造出任何形狀的電子產品!這些複合式材料的應用,未來一定會與「機器學習」結合在一起,許多科學家就在預言,未來例如: 無人機就有可能做跨領域的學習,現在看它只在天上飛,未來就有可能也可以潛在水裡游了,其實這已不是想像,目前已有一些公司開始在介入設計了。
上面列出來的八大問題,是目前研究「機器學習」演算法科學界,普遍認為在未來的10年內,很可能馬上會遇到或問世的東西,當然這些也正等待著你我一起來努力去實現它。
沒有留言:
張貼留言