網站經常被網路機器人攻擊?Attack from Search Engines?

No Comments /

近年來,搜尋引擎優化(SEO)的概念甚囂塵上,網站經營者莫不樂於借力使力,調整自己的網站架構和資訊脈絡讓網站能在搜尋引擎上發光發熱。理想情況下,搜尋引擎的使用者如果夠多,對於資料的應用夠聰明,而網友的使用習慣也夠集中,那麼和搜尋引擎互利共生倒不失為一個有利的決定。但是,真實的情況的確如此嗎?

從網站流量記錄中,發現經常爬站的搜尋引擎大致上有:

  • Googlebot-Image/1.0
  • Mediapartners-Google
  • Mediapartners-Google/2.1
  • msnbot/1.1 (+http://search.msn.com/msnbot.htm)
  • Sosospider+(+http://help.soso.com/webspider.htm)
  • Baiduspider+(+http://www.baidu.com/search/spider.htm)
  • Yanga WorldSearch Bot v1.1/beta (http://www.yanga.co.uk/)
  • Gaisbot/3.0+(robot06@gais.cs.ccu.edu.tw;+http://gais.cs.ccu.edu.tw/robot.php)
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
  • Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
  • Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

這代表什麼意思?大家可以試算一下:

一個網站上有5萬頁,有10個不同的搜尋引擎來捉資料,如果擠在一天捉完,那一天就擠進50萬個需求,但不會有任何產值,還可能拖累主機。而如果在一週內捉完,就算主機沒什麼事,也浪費不少頻寬。或許,這樣的量好像還OK嘛~~那再想想,如果一台主機上有十個類似的網站呢?耗費這麼多資源在搜尋引擎上面,網站得到什麼?

或許大家會說,不給搜尋引擎來捉,網站怎麼有辦法被找到咧?這點我也認同。但全球搜尋引擎那麼多,每個都來捉,顯然不是對網站最理想的狀態。

建議要有以下的作為:

  1. 汱弱留強
    網路要有曝光管道,搜尋引擎的途徑不能錯失。但是擇優曝光即可,例如Google, Yahoo等。其他小咖的搜尋引擎,等他作出口碑後再開通未遲。
  2. 逐水草而居
    如果搜尋引擎有特別的區域性,例如大陸的知名搜尋引擎,而和網路的目標族群有重疊性,那麼就有必要開放這樣的搜尋引擎。但同樣要汱弱留強。
  3. 層層把關
    不成熟的搜尋引擎機器人根本不按 robots.txt 的協定作事,一旦選上網站,就一股腦死命狂捉。所以,要三不五時檢視網站流量記錄,將記錄中的搜尋引擎透過 robots.txt 作第一層的控管。然後應該在網站主機或程式的設定上作第二層的把關,排除不想往來的搜尋引擎,省下資源去服務更多的客戶。
  4. 擴大通路
    網站的宣傳通路越多越好,搜尋引擎不可或缺,卻也不是唯一管道。網站應就其定位、服務供應鏈去思考適合的宣傳通路;並且利用時下流行的傳播方式多方宣傳,例如 RSS Feeds、書籤網站、MSN傳播、Email分享、....。
VN:F [1.9.22_1171]
Rating: 10.0/10 (1 vote cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)
網站經常被網路機器人攻擊?Attack from Search Engines?, 10.0 out of 10 based on 1 rating

Post to Twitter Post to Plurk Post to Digg Post to Facebook

Facebook comments:

Leave a Reply

You must be logged in to post a comment.