Правильний robots.txt для wordpress

119

Зміст

  • Налаштування robots для WordPress
    • Що краще закривати від пошукових роботів?
    • Питання по налаштуванню Robots.txt
      • Правильний Robots для WordPress, як налаштувати?

Деякі новачки, які створюють сайти на WordPress, впевнені, що після установки движка можна приступати до наповнення сайту. Насправді, існує безліч тонкощів, про які необхідно задуматися ще до того, як пошукові роботи почнуть індексувати сайт.


Файл robots.txt містить у собі дані, які допомагають обмежити пошукових роботів від зайвої інформації на сайті, його присутність і налаштування є обов’язковою дією.

Файл robots.txt для WordPress встановлюється за замовчуванням, тому вам залишається зайнятися його налаштуванням.

Налаштування robots для WordPress

В robots.txt, який встановлюється за замовчуванням, вже присутні деякі дані наприклад, рядок User-agent. Дана рядок дозволяє вказати, для якого пошукового робота ви встановлюєте налаштування. Символ * означає, що загальні налаштування для всіх роботів пошукових систем.

Де знаходиться файл Robots.txt? Шукайте його на хостингу в кореневій папці (Що таке корінь сайту і де знаходиться).

При необхідності, ви можете прописати в рядку User-agent назва одного з роботів пошукових систем, і тим самим встановити індивідуальні параметри. Ось назви пошукових роботів:

У кожної з пошукових систем є ще і окремі роботи, які відповідають за певний контент. У мережі ви зможете знайти назви кожного з них, але використовуються вони досить рідко. Для прикладу наведемо кілька роботів Яндекса:

Наступні важливі частини файлу robots.txt – це директиви Disallow, Host і Satemap.

Ви можете подивитися файл Robots будь-якого сайту, використовуючи посилання наступного виду workion.ru/robots.txt.

Disallow – завдяки цьому значенню, ви можете приховувати від пошукових роботів частина інформації сайту. За замовчуванням в вашій robots.txt вже повинні бути закриті від індексації наступні директорії:

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /wp-register.php

Це не весь список закритих директорій, в якому знаходяться різні сторінки плагінів, Кеша, адміністративної панелі і інших директорій.

Що краще закривати від пошукових роботів?

Це може бути не унікальний контент або дублі сторінок. Як показує практика, при використанні CMS у багатьох з’являється проблема з дублями, які найпростіше приховати.

Host – наступна функція дозволяє вказати головний адресу сайту. Навіть якщо у вашого сайту один домен, він має 2 значення, наприклад, www.workion.ru та просто workion.ru. При купівлі посилань, ви повинні використовувати один з видів адреси вашого сайту, а у файлі robots.txt вкажіть який з них головний.

Satemap – ця строчка призначена для вказівки шляху до карти сайту. Створити карту сайту на WordPress не складно, для цього є спеціальні плагіни. Потрібна вона для того, щоб пошуковики могли швидко знаходити нові матеріали для індексації.

Питання по налаштуванню Robots.txt

Мої постійні читачі буквально засипають різними питаннями, пов’язаними з даним файлом. Щоб не писати багато разів одне і теж, я вирішив скласти добірку популярних питань і відповісти на них:

  • Як заборонити індексацію сторінки?
  • Щоб заборонити індексацію окремої сторінки, використовуйте функцію Disallow, ось приклад:

    Disallow: http://www.домен.ru/shop/22

  • Як заборонити індексацію сайту?
  • Тут також стане в нагоді Disallow, ставте посилання на корінь сайту (можна встановлювати для певних пошукових систем, використовуючи User-agent):

    Disallow: /

  • Як вказати Sitemap?
  • Щоб пошукові системи правильно знаходили карту сайту, використовуйте Sitemap:

    Sitemap: http://sait/sitemap.xml

  • Як заборонити биті посилання?
  • При роботі різних плагінів, можуть з’явитися биті посилання. Щоб не забороняти повністю компоненти, визначайте їх і по черзі додайте в код Robots:

    Disallow: /index.php?option=com_jreviews&Itemid=91

  • Як заборонити індексацію піддомену?
  • Щоб закрити піддомен, необхідно докорінно додаткового сайту створити Robots.txt і там прописати такий же код, як у другому питанні (повна заборона від індексації сайту).

    Ось кілька простих рішень складних питань. Новачки часто цим цікавляться, тому інформація повинна бути корисною.

    Правильний Robots для WordPress, як налаштувати?

    Для кожного сайту необхідно створювати індивідуальний файл robots.txt для блогу Workion.ru він виглядає так:

    User-agent: *
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag

    User-agent: Yandex
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
    Host: ваш_сайт.ги

    Sitemap: http://ваш_сайт.ru /sitemap.xml.gz
    Sitemap: http://ваш_сайт.ru /sitemap.xml

    Якщо вже створили сайт на CMS WordPress, і ви ніколи не звертали уваги на файл robots.txt, настійно рекомендуємо вам це зробити. Щоб навіть у новачків не виникало проблем при налаштуванні цього важливого файлу, давайте розберемося, для чого прописані всі ці рядки:

    User-agent: — вказує на те, що зазначені правила будуть враховуватися всіма пошуковими системами. Якщо потрібно встановити правила для певного пошукача, прописується формат User-agent: Yandex.

    Allow – зворотна функція Disallow, вона дозволяє індексацію (для WordPress можна не використовувати).

    Зірочка * — вказує на довільну установку символів.

    Інші функції вже описані в даній статті. В принципі, розбиратися в цьому не обов’язково, адже ви можете взяти готовий варіант трохи вище.

    На офіційному сайті Яндекса є докладний опис всіх важливих моментів по налаштуванню robots.txt (читайте тут).

    Після налаштування різних параметрів і установці вище зазначеного коду, з’явилися проблеми. Виявилося, що на сайті не налаштоване ЧПУ (що таке URL і ЧПУ). Якщо на вашому ресурсі не налаштовані людинозрозумілі адреси, використовуйте наступний код в Robots.txt:

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /tag
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /tag
    Host: ваш_сайт.ги
    Sitemap: http://ваш_сайт/sitemap.xml.gz
    Sitemap: http://ваш_сайт/sitemap.xml

    Кожен раз, після внесення змін в даному файлі, проводите його перевірку. Для цього в пошукових систем є спеціальні інструменти (перевірка Robots у Яндекса).

    Якщо не хочете вручну налаштовувати даний файл, який можна використовувати плагін для налаштування Robots.txt All in One SEO Pack.

    Пошукові боти не можуть самостійно визначити, які директорії вашого сайту заходити і що саме індексувати.

    Їм потрібно допомагати з цим, а налаштування Robots.txt реально допомагає це зробити. Зробіть так, щоб файл був ідеальним для вашого ресурсу, це один з важливих моментів оптимізації.

    Рубрика для вебмайстрів