Настоящий сеошник работает комплексно и следит за всеми сайтами. И я вроде как отношусь к их числу. Сегодня после апдейта выдачи от 14 ноября 2014 я зашел посмотреть на индексацию своих сайтов и увидел много лишнего мусора. Что это за мусор и как я от него избавился будет рассмотрено в этой статье.
Ориентируюсь я всегда сперва на Яндекс. Поэтому заходим в свою замечательную панель webmaster.yandex.ru и нажимаем на Мои сайты. Далее нас интересуют две колонки — «Загружено роботом» и «Страниц в поиске». Все вы наверное в курсе, что нужно стремиться к тому, чтобы количество загружаемых роботом страниц было равно количеству проиндексированных страниц.
У меня же ситуация несколько иная и думаю у вас тоже. Это следует исправить и чем быстрее вы это сделаете, тем лучше. Вот что было у меня.
Как можно заметить, разница составляет 13 страниц. На других сайтах разница может различаться. Есть как идеальные пациенты с равным количеством страниц, а есть и те, где разница отличается в 3-5 раз. Давайте же посмотрим, что за шлак у нас там загружает робот Яндекса.
Заходим в Исключенные страницы в Я.ВМ по сайту и смотрим. Во-первых в графе «HTTP-статус: Ресурс не найден (404)» должно быть пусто, нечего плодить несуществующие страниц. Если у вас много таких страниц, это негативно скажется на вашем сайте, поэтому срочно исправьте ситуацию. Пост на эту тему будет позже, пока справляйтесь своими силами.
Нас же интересует «Документ запрещен в файле robots.txt«. Если вы уже читали мою статью про правильный robots.txt и сделали себе точно также, то у вас весь этот мусор будет находиться именно в этой графе. Если же нет, тогда ваши дела обстоят совсем плохо, так как весь мусор будет находиться в индексе.
Какие ненужные страницы генерируются WordPress
Какие же файлы там могут генерироваться? Напомню, что речь идет только о работе с движками WordPress. А генерируется там следующие ненужные страницы:
1) /?p=любое число — страницы генерации постов с короткой ссылкой;
2) /wp-includes/wlwmanifest.xml — ссылка для подключения специального XML-файла. Если не пользуетесь Windows Live Writer, то тоже это вам не нужно;
3) /xmlrpc.php — это специальный API от WordPress, который позволяет совершать любые действия с контентом на вашем сайте на удаленной основе. Этот параметр включен по умолчанию на всех блогах\сайтах;
4) /xmlrpc.php?rsd — аналогично 3 пункту. Если работаете исключительно через админку, от этого тоже стоит избавиться;
5) ?replytocom=любое число — реплики в комментариях на сайте. Генерируются, к сожалению, автоматически и плодят огромное количество ненужной бяки для поисковых систем.
В зависимости от размеров вашего сайта этих страниц может генерироваться достаточно много, поэтому следует отключить их. Я нашел решение, которое сразу решает проблемы со всеми типами страниц.
Как отключить генерацию ненужных страниц в WordPress
Про первый пункт я уже писал здесь, но вы все лентяи, поэтому продублирую еще раз. Итак, для лечения нашего сайтика нам понадобиться открыть админку, зайти во вкладку Внешний вид — Редактор — Функции темы (functions.php) и вставить там следующий код.
add_filter('xmlrpc_enabled', '__return_false'); remove_action('wp_head', 'wp_shortlink_wp_head'); remove_action( 'wp_head', 'rsd_link' ); remove_action( 'wp_head', 'wlwmanifest_link' ); remove_action( 'wp_head', 'wp_generator' ); remove_action( 'wp_head', 'feed_links_extra', 3 ); remove_action( 'wp_head', 'feed_links', 2 ); remove_action( 'wp_head', 'index_rel_link' ); remove_action( 'wp_head', 'adjacent_posts_rel_link_wp_head'); |
После этого там же открыть файл Заголовок (header.php) и удалить там следующую строчку.
<link rel="pingback" href="<?php bloginfo( 'pingback_url' ); ?>" /> |
А вот избавиться от генерации ?replytocom уже не так просто. Я нашел только два решения.
1) Установить плагин WordPress SEO (SEO by Yoast) и поставить соответствующую настройку.
2) Поставить другую форму комментирования. Например, я поставил у себя на блоге комментарии от Disqus и не жалею.
Это самые популярные страницы, которые генерируются движком и никому кроме них самих не нужны. Отключая генерацию этих какашек, вы улучшаете свой сайт с точки зрения внутренней оптимизации.
Я радостью готовы дополнить эту статью, если вы поделитесь своим опытом на эту тему.
Много полезной информации
Полезная информация, применили.
Добавила код и полетела тема сайта!
Здравствуйте! Через какое примерно время весь «мусор» url страницы удалятся из индекса поисковиков Яндекса и Гугла?
Очень похожий момент с индексацией страниц картинок. Проще говоря в WP могут проиндексироваться отдельные страницы картинок с тайтлом типа : wp/upload.3282398/2399823/и так далее. Причем все сразу. Спасает блок в robots.txt и редирект на страницу, где добавлена картинка (или если такой нет — на главную).
Такого как тут пока не было..
Отличный сайт
Благодарю за статью. Сделал всё по инструкции, но по прежнему ссылки вида /?p=0* открываются как ни в чём не бывало. Несколько раз перепроверял, смотрел инфу на других ресурсах, но… Может в новых версиях wordpress что-то изменилось?
Спасибо! Очень полезно! От души!
Я так и не понял, как убрать «/?p=любое число»?
Посмотрите эту статью:https://whiteprofit.biz/wordpress/kak-ubrat-generaciyu-stranic-p-v-wordpress.htm пожалуйста
Супер!
Возникла идея создать wp-сборку с предустановленными плагинами, переводом. Почистить, обкатать. И выложить на скачивание.
Не хочешь поучаствовать?
Спасибо за ценные советы, некоторые не знал, твитнул. Скажите, у меня на одном сайте проблема в задержке перед началом загрузки страницы. На других сайтах такого нет, хотя все на одном сервере и все на вордпресс — куда копать?
Спасибо и вам за шаринг. По поводу загрузки — нужно смотреть в индивидуальном порядке.
Я подозреваю, что что то с базой данных этого сайта, так как менял тему, отключал все плагины — не помогло. Что еще может быть? Переустановить wordpress?
Да, попробуйте.
Подскажите, что делать если на новом интернет магазине (word press) много внутренних ссылок (221), от куда они взялись и как их удалить? Может есть статейка?
Статейки нет, нужно смотреть в индивидуальном порядке и исправлять.
Если не трудно, подскажите с чего начинать, где рыть. Может плагин есть, который чистит? Или подскажите тему которую надо гуглить, а то я чета не могу решить этот вопрос.
Вам поможет FL.ru, хороший программст по ВП и 500 рублей 😉 Быстро, качественно и без мозголюбства.
Абать…. И что, как по твоему после твоего мега поста восстанавливаться…? Код подключил — сайт лёх)))) Тьфу, лажа а не блог.
А как же 1) /?p=любое число либо 1) /?=любое число символы, у меня есть универсальный рецепт, + к дополнению из ответа сервера можно удалить [X-Pingback]
[Link] => ; rel=shortlink который так же показывает /?p=любое число либо
Спасибо за дополнение, в скором времени обновлю пост.