Semalt提供了有關如何處理機器人,蜘蛛和爬蟲的提示

除了創建搜索引擎友好的網址,網站管理員可以阻止特定的漫遊器訪問其網站。阻止這些機械手的一種方法是通過robots.txt文件。但是,羅斯·巴伯(Ross Barber), Semalt 客戶成功經理說,他看到一些爬網程序忽略了此請求。最好的方法之一是使用.htaccess文件阻止它們索引您的內容。

這些機器人是什麼?

它們是搜索引擎用來從互聯網上刪除新內容以建立索引的一種軟件。

他們執行以下任務:

  • 訪問您鏈接到的網頁
  • 檢查您的HTML代碼是否有錯誤
  • 它們會保存您鏈接到的網頁,並查看哪些網頁鏈接到您的內容
  • 它們將您的內容編入索引

但是,某些漫遊器是惡意軟件,會在您的網站上搜索通常用於向您發送不需要的消息或垃圾郵件的電子郵件地址和表格。其他人甚至在代碼中尋找安全漏洞。

阻止網絡抓取工具需要做什麼?

在使用.htaccess文件之前,您需要檢查以下內容:

1。您的站點必須在Apache服務器上運行。如今,即使那些網絡託管公司的工作做得還不錯,您也可以訪問所需的文件。

2。您應該有權訪問自己的網站原始服務器日誌,以便可以找到哪些bot正在訪問您的網頁。

請注意,除非您阻止所有有害的bot,即使您認為有幫助,也無法阻止所有有害的bot。每天都有新的機器人出現,而舊的機器人則被修改。最有效的方法是保護您的代碼,並使殭屍程序很難向您發送垃圾郵件。

識別機器人

可以通過IP地址或從其在HTTP標頭中發送的“用戶代理字符串”來識別機器人。例如,Google使用“ Googlebot”。

如果您已經擁有要使用.htaccess保留的機器人名稱,則可能需要包含302個機器人的列表。

另一種方法是從服務器下載所有日誌文件,然後使用文本編輯器打開它們。它們在服務器上的位置可能會根據服務器的配置而改變。如果找不到它們,請向您的網絡主機尋求幫助。

如果您知道訪問了哪個頁面或訪問的時間,那麼使用不需要的漫遊器會更容易。您可以使用這些參數搜索日誌文件。

一旦您注意到了您需要阻止的機器人;您可以將它們包含在.htaccess文件中。請注意,阻止bot並不能阻止它。它可能會返回一個新的IP或名稱。

如何阻止它們

下載.htaccess文件的副本。如果需要,請進行備份。

方法1:被IP阻止

此代碼段使用IP地址197.0.0.1阻止了漫遊器

拒絕訂單,允許

拒絕從197.0.0.1起

第一行表示服務器將阻止所有與您指定的模式匹配的請求,並允許所有其他請求。

第二行告訴服務器發布403:禁止頁面

方法2:被用戶代理阻止

最簡單的方法是使用Apache的重寫引擎

RewriteEngine On

RewriteCond%{HTTP_USER_AGENT} BotUserAgent

RewriteRule。 -[F,L]

第一行確保已啟用重寫模塊。第二行是規則適用的條件。第4行中的“ F”告訴服務器返回403:“禁止”,而“ L”表示這是最後一條規則。

然後,您將.htaccess文件上傳到服務器,並覆蓋現有的.htaccess文件。隨著時間的流逝,您將需要更新機器人的IP。如果出現錯誤,只需上傳您所做的備份即可。