僵尸遍地 互聯(lián)網(wǎng)過(guò)半訪問(wèn)量來(lái)自爬蟲(chóng)
泡泡網(wǎng)CPU頻道12月26日 網(wǎng)站安全和內(nèi)容分發(fā)公司Incapsula發(fā)布了一個(gè)數(shù)據(jù),56%的網(wǎng)頁(yè)瀏覽量都由爬蟲(chóng)機(jī)器人貢獻(xiàn)。
爬蟲(chóng)機(jī)器人因?yàn)楣δ芎湍康牟煌譃檫@幾類:
Search engine crawlers:搜索引擎爬蟲(chóng),它們能夠?qū)W(wǎng)頁(yè)建立索引,這樣人們就可以在搜索框查找到對(duì)應(yīng)網(wǎng)頁(yè)的內(nèi)容。百度和Google就使用這個(gè)爬蟲(chóng)整理全世界的信息。
RSS bots:訂閱類爬蟲(chóng),能夠從網(wǎng)站抓取內(nèi)容聚合起來(lái),鮮果、今日頭條和網(wǎng)頁(yè)新聞客戶端就使用了這類爬蟲(chóng)。
Scrapers:網(wǎng)頁(yè)爬蟲(chóng),一般是盜取內(nèi)容、郵箱地址和逆向破解定價(jià)模型,它可以作用在電子商務(wù)網(wǎng)站。
Impersonator:擬人偽裝爬蟲(chóng),它能夠偽裝成搜索引擎或者瀏覽器,以避免被網(wǎng)站發(fā)現(xiàn)。它能夠搜集營(yíng)銷情報(bào),發(fā)動(dòng)DDos攻擊,消耗帶寬甚至使網(wǎng)站癱瘓。
Hacking Tools:黑客工具,它能夠盜取信息,植入流氓軟件,破壞網(wǎng)頁(yè)內(nèi)容甚至劫持網(wǎng)站和服務(wù)器。
Spammers:垃圾郵件發(fā)送工具,它可以騷擾普通訪客,發(fā)布無(wú)關(guān)內(nèi)容或者釣魚(yú)鏈接。它還可以加載過(guò)量鏈接,讓網(wǎng)站進(jìn)入搜索引擎的黑名單而從互聯(lián)網(wǎng) “消失”。
在56 %的訪問(wèn)中,惡意爬蟲(chóng)機(jī)器人占比29%,善意占比27%。隨著RSS爬蟲(chóng)的減少,善意爬蟲(chóng)的比例更小了。
大部分網(wǎng)站的爬蟲(chóng)訪問(wèn)比例在63%到80%之間,越小的網(wǎng)站爬蟲(chóng)訪問(wèn)的比例越高。搜索引擎爬蟲(chóng)是這一現(xiàn)象的主要原因,它對(duì)小網(wǎng)站和大網(wǎng)站幾乎無(wú)差別對(duì)待,而平均每個(gè)網(wǎng)站一天要被谷歌的搜索引擎爬蟲(chóng)訪問(wèn)187次。
擬人偽裝爬蟲(chóng)增長(zhǎng)很快,它是過(guò)去3年里唯一持續(xù)增長(zhǎng)的爬蟲(chóng)。在上面提到的Google 搜索引擎爬蟲(chóng)中,平均來(lái)說(shuō)每24次訪問(wèn)就會(huì)有一個(gè)偽裝爬蟲(chóng)來(lái)訪。在這些偽裝爬蟲(chóng)中,25.16%來(lái)自美國(guó),中國(guó)占比15.61%,是第二大的來(lái)源國(guó)。
RSS爬蟲(chóng)逐漸走向衰落。老一代RSS工具,例如Google Reader、鮮果都已經(jīng)走向死亡。
Incapsula 的數(shù)據(jù)來(lái)源于20000個(gè)每天至少有10個(gè)訪問(wèn)量的網(wǎng)站,它整理了過(guò)去90天的150億次訪問(wèn)數(shù)據(jù)得出了這個(gè)結(jié)果。
我們的所見(jiàn)所得,數(shù)據(jù)安全,帶寬消耗和廣告瀏覽都和爬蟲(chóng)機(jī)器人息息相關(guān),它們重塑了我們工作和生活的方式?!?/p>
關(guān)注我們



