1. 【上海SEO】首頁
  2. SEO技術分享

如何編寫和優化WordPress網站的Robots.txt

要知道WordPress robots.txt文件中的“Disallow”命令與頁面頭部的元描述noindex?的作用不完全相同。您的robots.txt會阻止抓取,但不一定不進行索引,網站文件(如圖片和文檔)除外。如果搜索引擎從其他地方鏈接,它們仍然可以索引您的“不允許爬取”的頁面。

如何編寫和優化WordPress網站的Robots.txt插圖

因此,Prevent Direct Access Gold不再使用robots.txt禁止規則阻止您的網站頁面進行搜索索引。相反,我們使用??noindex元標記,這也有助于谷歌和其他搜索引擎正確地在您的網站上為您的內容分發其入站鏈接值。

Yoast建議保持robots.txt干凈??,不要阻止包括以下任何內容:

  1. User-agent: *
  2. Disallow: /wp-admin/
  3. Allow: /wp-admin/admin-ajax.php
  4. Disallow: /wp-content/plugins/
  5. Disallow: /wp-includes/

WordPress也同意說理想的robots.txt?不應該禁止任何東西。事實上,??/wp-content/plugins/?和??/wp-includes/?目錄包含您的主題和插件可能用于正確顯示您的網站的圖像,JavaScript或CSS文件。阻止這些目錄意味著插件和WordPress的所有腳本,樣式和圖像被阻止,這使得Google和其他搜索引擎的抓取工具難以分析和理解您的網站內容。同樣,你也不應該阻止你/wp-content/themes/。

簡而言之,禁止你的WordPress資源,上傳和插件目錄,許多人聲稱可以增強你的網站的安全性,防止任何目標易受攻擊的插件被利用,但實際上可能弊大于利,特別是在SEO方面?;蛘?,您應該卸載這些不安全的插件更實際些。

這就是我們默認從robots.txt中刪除這些規則的原因。但是,您可能仍希望將它們包含在WordPress的Robots.txt內。

建議包含Sitemap文件

盡管Yoast強烈建議您直接手動將XML站點地圖提交到Google Search Console和Bing網站管理員工具,但您仍可將sitemap添加到robots.txt,幫助搜索引擎快速爬取收錄你的網站頁面。

  1. Sitemap: http://www.htmlhulp.com/post-sitemap.xml
  2. Sitemap: http://www.htmlhulp.com/page-sitemap.xml
  3. Sitemap: http://www.htmlhulp.com/author-sitemap.xml
  4. Sitemap: http://www.htmlhulp.com/offers-sitemap.xml

Robots.txt的其他規則

出于安全,建議您阻止您的WordPress的readme.html,licence.txt和wp-config-sample.php文件訪問,以便未經授權的人員無法檢查并查看您正在使用的WordPress版本。

  1. User-agent: *
  2. Disallow: /readme.html
  3. Disallow: /licence.txt
  4. Disallow: /wp-config-sample.php

您還可以使用robots.txt對不同的搜索引擎爬蟲定制不同的爬取規則,如下示例。

  1. # block Googlebot from crawling the entire website
  2. User-agent: Googlebot
  3. Disallow: /
  4. # block Bingbot from crawling refer directory
  5. User-agent: Bingbot
  6. Disallow: /refer/

這是如何阻止蜘蛛抓取WordPress搜索結果,強烈建議加入此規則:

  1. User-agent: *
  2. Disallow: /?s=
  3. Disallow: /search/

HostCrawl-delay?是您可能考慮使用的其他robots.txt指令,盡管不太受歡迎。第一個指令允許您指定網站的首選域(www或非www):

  1. User-agent: *
  2. #we prefer non-www domain
  3. host: yourdomain.com

下面的規則是用來告訴搜索引擎蜘蛛在每次抓取之前等待幾秒鐘。

  1. User-agent: *
  2. #please wait for 8 seconds before the next crawl
  3. crawl-delay: 8

完整的robots.txt

綜上所述,我們建議WordPress的robots.txt內容編寫為:

  1. User-agent: *
  2. Allow: /wp-admin/admin-ajax.php
  3. Disallow: /wp-admin/
  4. Disallow: /wp-login.php
  5. Disallow: /readme.html
  6. Disallow: /licence.txt
  7. Disallow: /wp-config-sample.php
  8. Disallow: /refer/
  9. Disallow: /?s=
  10. Disallow: /search/
  11. #we prefer non-www domain(填入你的網站域名首選域名,一般帶www,請根據實際情況填寫,部分搜索引擎不支持此規則,慎重添加)
  12. host:?http://www.htmlhulp.com
  13. #please wait for 8 seconds before the next crawl(填入你希望爬蟲爬取頁面的延遲秒數)
  14. crawl-delay: 8

溫馨提示:上述完整的robots.txt僅供參考,請各位站長根據自己的實際情況編寫內容,其中User-agent: *規則即對所有搜索引擎蜘蛛通用;Allow: 規則即允許爬??;Disallow: 規則即不允許爬??;host:規則用于指定網站首選域;crawl-delay:規則用于設定爬蟲爬取時間間隔;Sitemap:規則用于設定網站的地圖地址。

發布者:小謝SEO,轉轉請注明出處:http://www.htmlhulp.com/35413.html

發表評論

登錄后才能評論

聯系我們

徐經理 18551199954

在線咨詢:點擊這里給我發消息

郵件:13965841010@qq.com

工作時間:周一至周五,9:30-18:30,節假日休息

QR code
两个人做人爱视频免费