Etu產(chǎn)品發(fā)布 專訪高層深度解析Hadoop
陳昭宇先生:“云計算是一個很廣泛的議題,包含很多。因為現(xiàn)在以運營商和服務(wù)商來講,提供云的服務(wù)。比如說微博,現(xiàn)在有這么多的用戶,整個后臺系統(tǒng),包括分前端WEB服務(wù)器,這個很多網(wǎng)站可能會使用虛擬化的方式,很快的可以擴展出去,這是云計算的一環(huán)。這些WEB服務(wù)器應(yīng)用給客戶層,會留下大量的日志,你注冊了微博他會推薦你新的朋友,這些就是要用Hadoop這樣的技術(shù),把大量的信息采集過來,要放到一個夠大的存儲,夠行的有運算能力的地方,然后才可以進行離線分析,結(jié)果出來了才可以回到前端應(yīng)用。Hadoop是大的云計算議題里需要特別關(guān)注的,包括數(shù)據(jù)處理、數(shù)據(jù)挖掘和資料分析?!?/P>
蔣居裕先生:“我們已經(jīng)知道Hadoop技術(shù)起源是來自Google發(fā)表的論文,后來開源,雅虎贊助這個開源的項目。我們必須先定義Google、雅虎,F(xiàn)acebook這些都是云服務(wù)公司,而且是超級的云服務(wù)公司,Hadoop是來自超級云服務(wù)公司,他們?yōu)榱俗尶蛻趔w驗做的更好。大家不會喜歡在雅虎上面打一個關(guān)健詞做搜索,結(jié)果出來的很慢,他們就是利用Hadoop這樣的技術(shù)讓我們覺得用戶體驗不會覺得慢。
回頭,這些行為資料,我們舉例了做關(guān)聯(lián)推薦云服務(wù)的服務(wù),既然這些是來自云服務(wù)的使用行為,轉(zhuǎn)化是告訴你看這個東西以外還可以看什么,所以技術(shù)來自于“云”,要服務(wù)的也是“云”?!?/P>
剛才說了加數(shù)據(jù)可以加一臺機器,如果利用云計算可以不用在一體機里加設(shè)備了。
查禮先生:“比如我是私有云的用戶,你加不加機器我不知道,我只知道我處理數(shù)據(jù)量的性能提高了。從這個角度來說,技術(shù)上是可以包含這個特性的。”
蔣居裕先生:“因為這個技術(shù)是來自于這些云公司,這些云公司除了處理數(shù)據(jù)之外,像我們知道Google所謂做SASA服務(wù),不管是社區(qū)、郵件、地圖或者是文件,這些服務(wù)都是給一般的用戶去用。他們都是用X86商用機器,這么大的數(shù)據(jù)量可能需要100萬臺,每天都會有硬盤死掉,重點是硬盤死掉用戶數(shù)據(jù)會不會丟失?服務(wù)會不會停下來?不會,因為他們軟件技術(shù)很厲害,他們企圖用軟件技術(shù)做到分布,讓硬件出錯的時候數(shù)據(jù)不會丟失,機器不會停下來,很快的替換,很快的回來。”
查禮先生:“之前容錯是用硬件的方式保證不出錯,但是實際上比如說背板壞了,再修改,數(shù)據(jù)也全丟了。包括我也聽說過,IBM給銀行做的項目也出現(xiàn)過這樣的問題。現(xiàn)在技術(shù)發(fā)展一個是Google是用純軟件的方法保證,雖然看起來浪費了存一些副本,但實際上這種方式更好。”
陳昭宇先生:“我前幾天看到一個統(tǒng)計,2009年Hadoop運行10個集群,總共2萬臺服務(wù)器,上面共有32.9億個區(qū)塊,其中僅丟失650個區(qū)塊,這650個中僅有19個是完全無法修復的,所以從數(shù)據(jù)量計算,它的可靠度達到99.99999%,這是非常非常高的可信賴度了?!?/P>
查禮先生:“它是現(xiàn)在用的方式非常便宜,現(xiàn)在一般互聯(lián)網(wǎng)的方式是兩U計價服務(wù)器配三塊盤,整個一臺機器價錢也就是幾萬塊,它用很低的成本能達到很高的可靠性。這是它的技術(shù)創(chuàng)新的關(guān)鍵。如果說都是錢堆出來的,這就不稀奇了?!?/P>
蔣居裕先生:“所以企業(yè)要越來越熟悉這個世界上有另外一種方式在架構(gòu)IT。雖然他們現(xiàn)在不熟悉,我們會慢慢讓他們熟悉?!?/P>
關(guān)注我們
