近年來,“網(wǎng)絡(luò)爬蟲”作為一種能快速精準地獲取數(shù)據(jù)信息的基礎(chǔ)性網(wǎng)絡(luò)技術(shù),得到了越來越多的青睞和應(yīng)用。那么它到底是一個什么東東呢?
“網(wǎng)絡(luò)爬蟲”到底是個啥?
“網(wǎng)絡(luò)爬蟲”又稱為“網(wǎng)頁蜘蛛”,它是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)(無數(shù)個網(wǎng)絡(luò)站點和網(wǎng)頁的集合)信息的程序或者腳本。
爬蟲作為搜索引擎的核心部件,大多用于整合收集萬維網(wǎng)(無數(shù)個網(wǎng)絡(luò)站點和網(wǎng)頁的集合)上承載的大量信息,這類爬蟲會遵循網(wǎng)站與爬蟲之間的“君子協(xié)議”-robots.txt文件,網(wǎng)站通過robots協(xié)議告知爬蟲可抓取的頁面。遵循“君子協(xié)議”且以合理頻率爬取網(wǎng)站內(nèi)容的爬蟲被稱為“善意爬蟲。”
是“益”蟲也是“害”蟲!
但隨著信息爆炸時代的到來,數(shù)據(jù)信息的重要性與日俱增,灰黑產(chǎn)業(yè)鏈催生出大量的不遵循“君子協(xié)議”的“惡意爬蟲”。如節(jié)假日時段,搶票爬蟲惡意爬取出行網(wǎng)站數(shù)據(jù),進行大量搶票。
公考查分時段,爬取當?shù)卣榉志W(wǎng)站使考生無法正常查分,隨后通過提升虛假查分網(wǎng)站的權(quán)值,誘使考生在本站查詢分數(shù),從而竊取考生的考試成績信息與身份信息。
并且有大量、反復、且高頻率爬取電商網(wǎng)站攫取他人商品數(shù)據(jù)進行不正當競爭等。這類“惡意爬蟲”大多具備高頻率高并發(fā)的特性,近乎于DDoS攻擊的請求頻率會影響正常用戶的訪問體驗甚至使服務(wù)器宕機。
網(wǎng)絡(luò)爬蟲合法性的討論仍然存在,情況也比較復雜。目前許多問題還處于模糊地帶。然而,可以肯定的是,只要有互聯(lián)網(wǎng),就會有網(wǎng)絡(luò)爬蟲。只有網(wǎng)絡(luò)爬蟲讓體量巨大的互聯(lián)網(wǎng)變得可以搜索,使爆炸式增長的互聯(lián)網(wǎng)變得更加容易訪問和獲取,在可預見的未來,互聯(lián)網(wǎng)爬蟲技術(shù)將繼續(xù)得到發(fā)展。
但是對于網(wǎng)站的運維人員來說,他們對爬蟲來說是又愛又恨,既希望善意爬蟲為自家站點增加曝光度,又不希望惡意爬蟲天天過來找麻煩。故在區(qū)分人為訪問和爬蟲訪問的基礎(chǔ)上,進一步辨別善惡爬蟲成為解決爬蟲困擾的關(guān)鍵。
天融信WAF懲“惡”除“奸”啦~
此時,一位名為天融信Web應(yīng)用防火墻系統(tǒng)(TopWAF)的靚仔低調(diào)路過。對于解決惡意爬蟲危害,他有何妙招呢?
首先,TopWAF內(nèi)置完備爬蟲防護規(guī)則,同時支持自定義爬蟲指紋,結(jié)合智能攻擊檢測引擎,可精準識別當前流行通用的爬蟲核心指紋。
其次,TopWAF可導入Web站點的“君子協(xié)議”-robots.txt文件,快速區(qū)分正常爬蟲與惡意爬蟲。針對符合robots.txt的爬蟲程序可任其按照網(wǎng)站的要求進行部分內(nèi)容抓取,對于不符合協(xié)議的惡意爬蟲,TopWAF進行即時阻斷,降低網(wǎng)站帶寬負擔,防止惡意爬蟲程序?qū)е抡军c系統(tǒng)癱瘓。
- 關(guān)鍵詞標簽:
- 天融信 TopWAF 網(wǎng)絡(luò)爬蟲