Etu產(chǎn)品發(fā)布 專(zhuān)訪高層深度解析Hadoop
Hadoop目前為止最常用的場(chǎng)景有兩個(gè),一個(gè)是把它作為一種存儲(chǔ),相當(dāng)于一種數(shù)據(jù)庫(kù)一種存儲(chǔ)一些非結(jié)構(gòu)化的數(shù)據(jù)。第二個(gè),通過(guò)它的處理把數(shù)據(jù)換到數(shù)據(jù)庫(kù)里,進(jìn)行商業(yè)智能分析和挖掘,您覺(jué)得我的理解對(duì)嗎?這是Hadoop的主要用途嗎?
查禮先生表示:“應(yīng)該說(shuō)沒(méi)錯(cuò),但是我自己的理解,光它拿做存儲(chǔ)只用了它一半的功能。它的特點(diǎn)是存儲(chǔ)和計(jì)算組合在一起,融合在一起,如果用在一個(gè)方面都不是一個(gè)比較好的實(shí)用的典型案例。第二個(gè)問(wèn)題,這么用主要是因?yàn)橛幸恍┕δ?,Hadoop目前還提供不了。并不是說(shuō)它沒(méi)有這個(gè)能力,是沒(méi)有這方面的工具。如果作為一個(gè)公司來(lái)講要盡快能夠產(chǎn)生生產(chǎn)力的話,肯定是有這些東西,把它盡量組合在一起。這是它的價(jià)值取向。所以說(shuō),像Facebook這種做法,我講的是09年的時(shí)候的材料,那時(shí)候還沒(méi)有很多BI的工具在Hadoop上面,能夠Work,能夠運(yùn)行。主要是因?yàn)檫@個(gè)原因,并不是Hadoop本身不具備這個(gè)能力?!?/P>
在你看來(lái)Hadoop應(yīng)該怎么用?還有其他用途嗎?可以舉幾個(gè)例子嗎?
查禮先生介紹說(shuō):“我先簡(jiǎn)單講一下,最好的用途,因?yàn)樗旧淼钠鹪词莵?lái)自于Google,所以我自己認(rèn)為它最適合的就是文本的處理,就是非結(jié)構(gòu)化、半結(jié)構(gòu)化的。文本是最核心的,用別的不是不可以,比如做其他的開(kāi)發(fā),比如多媒體的處理不是不行,但是說(shuō)實(shí)在的它并不是很適合,目前看起來(lái)。
所以我們現(xiàn)在感覺(jué)到類(lèi)似像現(xiàn)在的這種系統(tǒng),逐漸的向?qū)iT(mén)化發(fā)展。就是我這個(gè)系統(tǒng)夠大可以從上到下的重新構(gòu)建一個(gè),只做這一件事的對(duì)應(yīng)的架構(gòu)比如視頻或者多媒體處理,有可能會(huì)出現(xiàn)另外一個(gè)Hadoop專(zhuān)門(mén)做這個(gè)事。
可想而知,Google剛出來(lái)的目前只做搜索那一件事,Google有上百萬(wàn)的服務(wù)器,但是它就只做搜索,就做這一件事。這么多臺(tái)機(jī)器完全有可能從硬件、到軟件、到操作系統(tǒng)都可以達(dá)到的系統(tǒng),這是一個(gè)很明顯的趨勢(shì)。所以我的觀點(diǎn)就是要干好一件事,如果那個(gè)事夠大,可以從上到下自己全部去干?!?/P>
蔣居裕先生告訴大家:“我舉一些例子,以電信行業(yè)來(lái)講。亞洲地區(qū)目前臺(tái)灣、香港、泰國(guó)、印尼、新加坡、Etu都已經(jīng)去過(guò)這些地方。用我們東西最多的就是電信運(yùn)營(yíng)商,電信運(yùn)營(yíng)商用我們的時(shí)候第一個(gè)是做IP溯源的工作,就是找出用戶的真實(shí)身份。另外一種是AP溯源,就是不同的應(yīng)用軟件,他要找出企業(yè)里各種不同德應(yīng)用背后的使用者的動(dòng)作?,F(xiàn)在有一些安全監(jiān)控軟件有辦法,在應(yīng)用軟件上做的動(dòng)作寫(xiě)日志,我們就是負(fù)責(zé)分析處理日志,以便哪個(gè)時(shí)間點(diǎn)哪個(gè)用戶做了哪些應(yīng)用。這些追溯不是主要來(lái)自于安全上的東西,現(xiàn)在因?yàn)?G移動(dòng)網(wǎng)絡(luò)、上網(wǎng)的行為很多,所以電信商很想在上面有一些價(jià)值的提升,所以他想了解他的哪個(gè)用戶在哪個(gè)時(shí)間點(diǎn)最常上哪個(gè)網(wǎng)站,而且是用手持網(wǎng)站。光把這個(gè)搞清楚就有很大的理解,他可以根據(jù)用戶的理解跟廣告商合作。
比如金融行業(yè)保險(xiǎn)、銀行,他們有很多文件掃描存起來(lái)的圖檔,比如一個(gè)保險(xiǎn)業(yè),一個(gè)客戶簽一張保單,保單要掃描存起來(lái),投保期間跟客戶往來(lái)行為,都跟保單有關(guān)的,這些資老都會(huì)掃描存起來(lái),這么多用戶日積月累,這些圖檔的數(shù)量會(huì)達(dá)到上億,有一個(gè)事件檢索的時(shí)候要能很快的找出來(lái)。這也是一個(gè)典型的案例。
比如制造業(yè),尤其是高科技制造,比如臺(tái)基電,他們現(xiàn)在也用Hadoop做這樣的事情,因?yàn)閭鹘y(tǒng)上的生產(chǎn)設(shè)備,在生產(chǎn)過(guò)程軸會(huì)把運(yùn)作的數(shù)據(jù)往外送,傳統(tǒng)商會(huì)用數(shù)據(jù)去接,當(dāng)Oracle撐不住的時(shí)候,現(xiàn)在有了Hadoop技術(shù),他們就把這些資料往Hadoop這邊存儲(chǔ),處理。他們的目的是提高利用率?!?/P>
關(guān)注我們
