Общая ошибка http sitemap google

Cправка — Search Console

Войти

Справка Google

  • Справочный центр
  • Сообщество
  • Search Console
  • Политика конфиденциальности
  • Условия предоставления услуг
  • Отправить отзыв

Тема отзыва

Информация в текущем разделе Справочного центра

Общие впечатления о Справочном центре Google

  • Справочный центр
  • Сообщество

Search Console

В последнее время участились случаи когда Google отказывается принимать сайтмап длительное время.

В данном случае попробую расписать основные причины. Их можно разделить на 2 категории: ошибки на сайте и глюки новой гугл-консоли.

Чаще всего сопровождаются сообщениями:

Не получено – не удалось получить файл Sitemap

Первые действия

  • Убедитесь что сайтмап открывается в браузере и время открытия менее 10сек.
  • Необходимо подождать определенное время. Если краулинговый бюджет сайта израсходован, сразу индексация сайтмапа не пройдет, ожидайте от 1 до 10 дней.
  • Воспользуйтесь инструментом «Проверка URL» для анализа индексации сайтмапа и запроса на приоритетное сканирование (скрин ниже).
  • Отслеживайте по логам, обращался ли GoogleBot к сайтмапу.

Проверка сайтмапа

К сожалению гугл убрал инструмент проверки сайтмапа в новой Search Console. На данный момент такую возможность дает только Яндекс.

В Google можно проверить статус URL и ускорить индексацию единственным способом:

Ошибки на сайте

Ошибки загрузки

  • Сайтмап недоступен или генерируется с ошибками — Проверьте в браузере и используя сервис от Яндекс
  • Проблема с зеркалами сайта WWW/HTTPS — Сам сайтмап и содержимое должны принадлежать главному зеркалу
  • Сайтмап запрещен к индексации в robots.txt — Разрешите используя оператор «Allow:» в конце списка
  • Сайтмап отдается слишком долго (больше 15с)

Ошибки содержимого

  • Адресация в сайтмапе и на сайте отличается либо большое кол-во адресов с редиректами
  • В адресах используются спецсимволы — используйте только латинские буквы (a-z), цифры и тире (-)
  • Несоответствие стандарту XHTML, как правило не заменено & на &аmр;
  • Имеются пробелы в начале, либо кодировка отличная от UTF-8 (без BOM)

Глюки новой Google Search Console

Иногда возникают проблемы при следующих ситуациях

  • Кириллический домен (именно доменная зона) или новая доменная зона (.top, .moscow, …) (под вопросом) как выяснилось не работает только .рф, а например .бел и .укр работают
  • Использование знаков подчеркивания «_» в адресе сайтмапа — есть сообщения что замена на тире решила проблему
  • Заголовок «content-type: application/xml» — есть сообщение что замена на «text/xml«, «text/xml; charset=UTF-8«, «application/rss+xml; charset=UTF-8«, либо полностью убранный заголовок решили проблему
  • Используется gzip-сжатие — уберите сжатие для xml, это никак не повлияет на оценки Google Page Speed, т.к. на страницах сайта xml в 99.99% не грузится
  • Сложная структура адреса сайтмапа — я провел эксперименты и выявил влияние, результаты ниже

Прочие сайтмапы

Если ранее были отправлены иные сайтмапы, они могут задерживать обработку, отъедая краулинговый бюджет сайта. Недостаточно просто удалить сайтмап из консоли.

Цитата google:

Если вы удалите файл Sitemap, он будет удален из соответствующего отчета, но останется в Google, как и все URL, которые были в нем указаны.
Чтобы удалить файл Sitemap, выполните следующие действия:

  • Выберите Sitemap который нужно удалить, нажав на него.
  • Нажмите на значок «три точки».
  • Выберите Удалить файл Sitemap.
  • Чтобы роботы Google больше не обращались к файлу, удалите его с сайта или запретите доступ к нему с помощью файла robots.txt.
  • support.google.com/webmasters/answer/7451001

    Личный опыт

    • В 90% случаев если с самим сайтмапом всё в порядке, нужно просто подождать
    • В случаях когда ожидание не помогает, нужно делать адрес максимально простым. Для 0pencart FX Sitemap есть специальный патч в разделе поддержки

    Эксперименты

    Разные адреса и отметки принял (✅) или не принял (✖) Google

    ddd/s/rr_r
    ddd/s/rr
    ddd/s__1
    ?s=ddd
    ?route=ggg/e/uub
    fx_sitemap/index.php
    ru/index.php?route=extension/feed/google_sitemap
    ru/index.php?route=extension/feed/fx_sitemap
    ru/index.php?route=extension/feed/fxsitemap
    ru/index.php?route=extension/feed
    ru/index.php?route=feed/fx_sitemap

    Google Search Console пишет у sitemap.xml статус «Не получено».

    Времени прошло уже 3-4 недели.

    Сайтмепы создавал по-разному: и самостоятельно, и через разные сервисы.

    Яндекс.Вебмастер видит и понимает, ошибок нет.

    У меня первый раз такое

    Кто-нибудь сталкивался с подобным? Если идеи почему такое может быть?

    Скриншот: https://c2n.me/4967ymN

    d59b3dcf5198ed01adf6e05d389cbc50.png

    ну вообще сайтмап указывается в robots.txt
    еще ошибка может быть в доступе к этим файлам. Если у вас их несколько то лучше указать sitemap-index. Почитайте про это сперва.
    Гугл и яндекс, целует в попу каждого веб мастера, указывая на все ошибки, а не знать в этом причину как минимум зазорно.

    спасибо, но не всё так просто (подробности в отдельном сообщении (после редактирования слетело оформление и текст выглядит сплошной портянкой ))

    > ну вообще сайтмап указывается в robots.txt
    указывать сайтмеп в роботс.тхт не обязательно!
    (указан!)

    > еще ошибка может быть в доступе к этим файлам.
    ошибок нет
    яндекс загружает
    в браузере они тоже открываются

    > Если у вас их несколько то лучше указать sitemap-index. Почитайте про это сперва.
    несколько сделал на всякий случай разными способами (собственноручно (php) и онлайн-инструментами), во всех примерно одни и те страницы.
    а индексный сайтмеп делают, когда страниц больше 50 тысяч.

    > Гугл и яндекс, целует в попу каждого веб мастера, указывая на все ошибки, а не знать в этом причину как минимум зазорно.
    Статус «Не получено».
    Подробнее: Не удалось обработать файл Sitemap
    На этом «целование в попу» заканчивается.

    PS:
    и ещё специально для Вася Василий
    это не первый сайт, который я сделал, количество сделанных сайтов перевалило за 200 (двести), занимаюсь сайтами с 2000 года, более серьёзно с 2004-2005.

    alff

    alff

    18.09.2020 10:48

    Попробуйте сделать сайтмап с одним урлом для проверки.
    Проверьте, может закрыт доступ к файлу

    Спасибо за совет.
    Сделал, не помогло, всё тоже самое: статус «Не получен».
    В браузере сайтмеп открывается.
    Доступ никак не закрываю.
    6d3cfca78ed2b6f9d1f3d36cf3f5fbaa.png

    alff

    alff

    18.09.2020 15:09

    А Я.Вебмастер что говорит?
    Может быть проблема кириллическом домене? 

    alff

    alff

    18.09.2020 15:14

    А, прошу прощения, в теме указано, что Я.Вебмастер все видит.
    Значит, либо отдельно закрыт доступ для гугл бота, либо кириллический домен.

    Имеете ввиду доступ в robots.txt? НЕ закрыт.
    Да, кириллический домен.
    Сейчас проверил на другом, действительно не обрабатывает sitemap кириллического сайта (ради интереса даже попробовал вариант с русскими буквами в урле вместо punycode).
    Продолжаю эксперименты и думать, что делать…

    Проверил с десяток сайтов с кириллическим доменом и у всех такая проблема :(((
    Раньше такой проблемы не было.
    Непонятно, то ли это косяк Гугла (временная проблема), то ли так и задумано. (баг или фича)
    И главное, пока не придумал, что делать?..

    такой же косяк с доменом .info 

    там нет косяков там правильно прописывать надо все вот и все — просто не все понимают как и что.

    Спустя более чем год, Гугл так ничего и не сделал
    Запрос индексирования страниц в Google Search Console тоже не помогает.

    1 действие
    ***robots.txt***

    User-agent: *
    Host: https://вашсайт.ru
    Sitemap: https://вашсайт.ru/sitemap.xml

    путь к файлу sitemap.xml правильно написать

    2 действие
    яндекс веб мастер https://webmaster.yandex.ru/si…
    добавить файл и проверить

    3 действие
    гугл консоль
    https://search.google.com/sear…
    добавить файл и проверить

    4 действие
    гугл консоль
    проиндексировать в ручную новый или добавляемый контент
    если хотите что бы быстрее прошла индексация
    если на сайте была перелинковка то старый контент лучше прежде удалить по не действующим страницам.

    Всё это сделано.
    И сайтмеп создан, и в роботс.тхт указан, и в яндекс.вебмастер добавлен, и в гугл.сёрч_консоль добавлен, и страницы вручную через гугл сёрч консоль отправлялись на индексацию.
    Ничего не помогает
    PS:
    сайт запущен (и всё вышеуказанное сделано) еще 15.09.2021: в Яндексе 23 страницы, в Гугле 0.
    PPS:
    другие более старые сайты (от 10 месяцев и старше) попали в Гугл.

    и еще в вашем файле то и нет ничего вроде, лучше бы ссылку на свой сайт дали что бы посмотреть все.

    Ну кто так делает, а?..

    У меня такая же проблема на двух сайтах с кириллическими доменами. В файле robots.txt написал все ссылки в кодировке IDN и гугл обработал сайтмап, но страницы по-прежнему не индексирует. И не индексирует при отправке запроса на индексацию.

    Причем, если бот сам найдет страницу на сайте, то пишет, что обнаружил страницу, которой нет в sitemap (во вкладке Покрытие), хотя она там есть и если нажать на подробности, то там указано, что она есть в sitemap.

    Ничего не понимаю с этими фишками гугла!

    Подскажите, может где есть мануал по тому как добавлять в гугл кириллические домены?

    P.s. в Яндексе все работает и отображается.

    1. Почему ваша ссылка https://c2n.me редиректит на clip2net.com? 
    2. У сайта clip2net.com карта сайта есть.

    Если хотели тут получить переходы или ПФ накрутить, идея не из лучших, если получить бек — то так же не лучшая затея

    Это обычный сайт для создания скриншотов, могли бы проверить.

    Повторю то, что уже ответили Вам: это ссылка на скриншот, которую создаёт соответствующая программа для создания скриншотов.

    Доброго времени суток

    Добавил сайт в поисковую консоль гугла около 2 недель назад, сразу же до кучи отправил сайтмап. Все производилось в новой версии консоли. Все это время в статусе светиться «Не Получено», а при открытии подробностей сообщение:

    Не удалось обработать файл Sitemap
    Общая ошибка HTTP
    При попытке доступа к вашему файлу Sitemap произошла ошибка. Убедитесь, что этот файл Sitemap соответствует нашим правилам и находится в указанном местоположении, а затем отправьте его повторно.

    Карта сайта генерируется через Yoast, без каких-либо модификаций из вне и разбита на несколько подкарт (посты, категории, страницы). Пробовал отправлять повторно, вставлять сразу подкарты — ситуация аналогична. В старой версии консоли статус «В ожидании». При проверке через гугловский инструмент:

    Количество дочерних файлов в файле индекса Sitemap 3
    Сведения об ошибках: Ошибки отсутствуют.

    В индексе все еще не попала ни одна страница сайта (сайт по питанию, зона .com, материал англоязычный (консоль русская)). По логам, гуглобот часто запрашивает robots.txt, ads.txt. Один раз запросил карту сайта (если не изменяет память, это время совпало с тем, когда я повторно ее отправил через консоль). Примеры запросов:

    66.249.65.136 - - [22/May/2018:08:38:37 +0200] "GET /ads.txt HTTP/1.1" 404 14690 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    91.65.25.166 - - [22/May/2018:10:51:33 +0200] "GET /robots.txt HTTP/1.1" 200 162 "-" "Mozilla/5.0 (compatible; Googlebot/2.1 +http://www.googlebot.com/bot.html)"

    При переотправке и проведении проверки в инструменте:

    66.249.69.24 — — [22/May/2018:20:06:06 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:07 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.24 — — [22/May/2018:20:06:07 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:08 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:09 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:10 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:10 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:11 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»

    robots.txt:

    User-agent: Yandex
    Disallow: /wp-admin
    Disallow: /author/
    Disallow: /wp-login
    Disallow: /tag
    Disallow: /?s=
    Disallow: /?feed=

    Host: https://domain.com/

    User-agent: *
    Disallow: /wp-admin
    Disallow: /author/
    Disallow: /wp-login
    Disallow: /tag
    Disallow: /?s=
    Disallow: /?feed=

    Sitemap: https://domain.com/sitemap_index.xml

    На сервере используются редиректы с www на не-www и с не-www на https не-www.

    Были ли у кого-то еще подобные проблемы и в какую сторону можно покопать? Заранее благодарю.

    Вы создали карту сайта, загрузили ее в Google Search Console, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковикиигнорирует ваш файл Sitemap и не собирается индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и даже расскажем, как это сделать.

    Если у вас еще нет карты сайта и вы хотите узнать, зачем она нужна, ознакомьтесь с нашим вводным интенсивом по созданию файла Sitemap. Здесь мы расскажем о преимуществах использования карты сайта и действенных рекомендациях по работе с ней. Если вы пока не знаете, для чего используют теги <loc> и <lastmod>, что такое карта сайта для видео или файл индекса Sitemap, вводное руководство вам точно пригодится.

    В первой части этой статьи перечислены все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console. Если же вы ищете способ устранить конкретные проблемы, воспользуйтесь содержанием, чтобы перейти к интересующим вас ошибкам.

    Во второй части — рекомендации, которые помогут вам извлечь максимальную выгоду из карты сайта. Вы узнаете, как найти мусорные страницы в файле Sitemap, где искать страницы, которые вы могли пропустить и не добавить в карту сайта, и как заставить поисковик проиндексировать как можно больше страниц из файла Sitemap. Поэтому очень советую всем внимательно ознакомиться со второй главой этой статьи.

    После загрузки карты сайта в Google в столбце «Статус» можно увидеть, удалось ли поисковику обработать файл. Если ваш файл соответствует всем правилам, появится статус «Успешно». В этой главе мы рассмотрим другие статусы, а именно «Не получено» и «Обнаружены проблемы».

    Проблемы со сканированием вашего файла Sitemap

    Начнем с самого худшего сценария, когда поисковик не может обработать файл Sitemap. Сначала разберемся с Google — что делать, если статус вашей карты сайта «Не получено». 

    Статус карты сайта «Не получено»

    В этом случае вам придется использовать «Инструмент проверки URL», чтобы выяснить, что может быть причиной проблемы. В инструменте нажмите кнопку «Проверить страницу на сайте» и посмотрите статус получения страницы. Если написано «Успешно», значит ошибка на стороне Google.

    Статус получения страницы в GSC

    Если Google не удалось получить вашу карту сайта, убедитесь, что ничто не блокирует доступ к файлу Sitemap — будь то директивы robots.txt или плагины CMS (да, иногда виноваты они!). Также проверьте, правильно ли введен URL-адрес карты сайта — обратите внимание на протокол и префикс www.

    Ошибка «Не получено» может возникнуть как при загрузке отдельной карты сайта, так и в случае загрузки в Google Search Console файла индекса Sitemap. Проблему нужно решить так же, как и с одной картой сайта.

    Ошибки в файле индекса Sitemap

    Теперь перейдем к случаям, когда поисковики просканировали добавленный вами файл и обнаружили ошибки. И начнем мы с ошибок файла индекса Sitemap.

    Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.

    Кроме того, в вашем файле индекса Sitemap не должны быть указаны другие файлы индекса Sitemap, а только карты сайта. Если вы сделаете так, то получите сообщение «Вложенные файлы индекса Sitemap» в Google Search Console.

    И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.

    Недопустимый размер файла Sitemap и ошибки сжатия

    Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google. Узнать больше о том, как разделить карту сайта на несколько файлов, можно из нашего полного руководства по созданию файла Sitemap. 

    Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в консоли.

    Я говорила, что допустимый размер карты сайта в несжатом виде должен быть меньше 50 МБ, но часто файлы Sitemap сжимают для экономии пропускной способности канала. Обычно для этой цели используют инструмент gzip, который добавляет расширение gz к файлу. Сообщение об ошибке сжатия или разархивирования в отчете означает, что что-то пошло не так во время процесса сжатия, и вам нужно сделать это еще раз.

    Проблемы со сканированием URL-адресов в карте сайта

    По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.

    «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.

    Еще одна довольно очевидная проблема, которая не позволяет Google сканировать страницу, — это код ответа, отличный от 200 ОК. В отчете поисковиков это называется ошибкой HTTP, и точный код указывается для каждой отдельной страницы. Кроме консолей вебмастеров, проверить коды ответа URL-адресов из вашей карты сайта можно с помощью инструмента «Аудит сайта» от SE Ranking.

    Всю необходимую информацию ищите в разделе «Код ответа сервера».

    Раздел «Код ответа сервера» в SE Ranking

    Google также выделяет другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.

    Ошибка «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.

    Ошибка «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.

    Google Search Console не указывает, что именно может быть причиной проблемы. Поэтому вам нужно использовать другие инструменты, чтобы понять, какие ошибки необходимо исправить. Например, в инструменте «Аудит сайта» SE Ranking есть специальный раздел «Редиректы», где можно проверить, есть ли на вашем сайте какие-либо проблемы с перенаправлениями.

    Если инструмент обнаружит какие-либо ошибки, вы получите всю необходимую информацию по каждой из них — щелкнув на количество страниц, можно узнать, на какой странице есть проблема и как она связана с другими страницами сайта.

    Раздел «Редиректы» в SE Ranking

    Ошибка «Нельзя использовать URL» означает, что ваша карта сайта содержит URL-адреса, которые находятся на более высоком уровне или в другом домене по сравнению с файлом Sitemap. Например, если ваша карта сайта находится по адресу: vashsajt.com/category1/sitemap.xml и вы добавили в нее страницу, адрес которой: vashsajt.com/stranitsa1, поисковики не смогут получить к ней доступ.

    Что касается разных доменов, помните, что для Google версии сайта на HTTP и HTTPS, а также с www и без www считаются разными. Поэтому, если ваша карта сайта находится по адресу http://www.vashsajt.com/sitemap.xml, URL вида https://vashsajt.com/stranitsa1 будет считаться некорректным. 

    Если вы недавно перешли на HTTPS, обязательно создайте новую карту сайта с HTTPS URL-адресами. Инструмент «Аудит сайта» SE Ranking напомнит вам об этом.

    Раздел «Безопасность сайта» в SE Ranking

    Google считает, что вы указали неправильные URL

    Также стоит обратить внимание на еще одну ошибку, которую выделяет Google. Если вы добавите URL без префикса www в свою карту сайта, адрес которой содержит www, вы получите ошибку «Несоответствующий путь». То же самое касается файла Sitemap с www и URL-адресом без соответствующего префикса. Даже если ваш сайт доступен как с префиксом www, так и без него, не нужно путать эти вещи в карте сайта. Если ваш файл Sitemap находится по адресу: https://example.com/sitemap.xml, ни один из URL-ов, которые она содержит, не должен включать www. Если ваша карта сайта находится по адресу: https://www.example.com/sitemap.xml, все перечисленные в ней URL-ы должны включать www.

    Синтаксические ошибки в карте сайта

    В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок. 

    • «Недопустимое значение тега». Значение тега — это то, что вы указываете между начальным и конечным тегами — URL-адрес между тегами <loc>, или дата, которую вы определяете с помощью тега <lastmod>. Ошибка возникает, когда вы указываете недопустимое значение в карте сайта, например, устанавливаете приоритет вне диапазона от 0,0 до 1,0.
    • «Неверное значение атрибута». Значение атрибута указывается после знака равенства (=) в кавычках. В следующей строке кода перечислены различные языковые версии страницы в файле Sitemap.
    <url><loc>https://example.com</loc><xhtml:link rel=”alternate” hreflang=”gb” href=”https://example.com”/><xhtml:link rel=”alternate” hreflang=”fr” href=”https://example.com/fr”/></url>

    Здесь “alternate”, “gb” и “fr” являются значениями атрибутов, но “gb” используется неправильно. Вы не можете указать в hreflangs только код страны — он должен сочетаться с кодом языка, например, “en-gb”.

    • «Неправильно введена дата». Все довольно просто — вы использовали неправильный формат даты для тега <lastmod>. Единственный допустимый формат:
    2005-02-21 
    2005-02-21T18:00:15+00:00
    • «Недопустимый URL». Как вы могли догадаться, эта ошибка означает, что нужно искать опечатки в добавленных URL-адресах. Напомню, что все URL-ы в вашей карте сайта должны быть абсолютными.
    • Ошибки «Отсутствует атрибут XML» и «Отсутствует тег XML» тоже довольно очевидны. Отсутствие обязательных тегов и атрибутов (urlset, url, loc, xmlns) недопустимо — их нужно добавить, чтобы ваша карта сайта работала должным образом.
    • «Недопустимый XML: слишком много тегов». Эта ошибка может возникнуть, если вы используете один из тегов несколько раз. Например, вы указали два разных адреса или две даты изменения для одного URL. В этом случае вам необходимо удалить повторяющийся тег.
    <url>
    <loc>http://www.example.com/</loc>
    <lastmod>2021-01-01</lastmod>
    <lastmod>2021-02-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
    </url>
    • «Неправильно указано пространство имен». Пространство имен, указанное в вашем теге <urlset>, должно быть одним из принятых протоколов. В настоящее время используется следующий протокол:

    Обычные файлы Sitemap — xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”

    Файлы Sitemap для новостей — xmlns:news=”http://www.google.com/schemas/sitemap-news/0.9″

    Файлы Sitemap для видео — xmlns:video=”http://www.google.com/schemas/sitemap-video/1.1″

    Файлы Sitemap для изображений — xmlns:image:=”http://www.google.com/schemas/sitemap-image/1.1″

    Напомню, что специальные карты сайта для новостей, картинок и видео поддерживает только Google.

    Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8.

    Ошибка «Неподдерживаемый формат файла» в GSC

    Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.

    Чтобы избежать синтаксических ошибок, перед отправкой файла Sitemap используйте один из сервисов проверки карты сайта, подобных этому. Инструменты будут выделять проблемы, которые необходимо исправить.

    После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.

    Такие действия заставят Google повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок.

    Загруженные vs проиндексированные URL-адреса

    Ваша карта сайта и файл индекса Sitemap могут получить статус «Успешно» или «Ок», но на этом ваша работа не заканчивается.

    Давайте сначала разберем, что делать дальше в Google Search Console. Щелкните на значок диаграммы рядом с количеством выявленных URL-адресов, чтобы перейти к отчету об индексировании. Как только вы начнете анализировать его, вы скорее всего заметите, что не все отправленные страницы были проиндексированы.

    Отчет об индексировании в GSC

    Это нормально, когда страницы исключаются из индексации — Google не может оценить и проиндексировать все страницы вашего сайта, о которых он знает. Более того, почти на каждом сайте есть страницы, которые вебмастера не хотят индексировать: страницы защищенные паролем, служебные страницы и дубли. Что не нормально, так это наличие ошибок и предупреждений в вашем отчете об индексировании. Также недопустимо, чтобы количество исключенных страниц во много раз превышало количество страниц без ошибок.

    Так почему же поисковики не могут проиндексировать страницы, которые были добавлены в карту сайта? В большинстве случаев это происходит, когда вы добавляете туда страницы, которых в карте сайта быть не должно. Возможно, поисковики просто не могут проиндексировать страницу из-за директивы noindex. Кроме того, поисковики могут запутаться, действительно ли вы хотите, чтобы страница была проиндексирована — например, когда вы добавляете неканонические страницы в карту сайта. 

    Все подобные ошибки можно найти в разных вкладках «Отчета об индексировании» в Google Search Console. Но их удобнее проверять с помощью инструмента «Аудит сайта» SE Ranking — если на вашем сайте есть подобные проблемы, вы легко найдете их все в разделе «Сканирование» в «Отчете об ошибках».

    Вкладка «Сканирование» в SE Ranking

    Удалите из карты сайта неиндексируемые и неканонические страницы. А если страницы были по ошибке помечены как неиндексируемые и неканонические, решите эту проблему.

    Оптимизируйте карту сайта с подсказками от Google

    Убедившись, что с вашей картой сайта все в порядке, изучите «Отчет об индексировании», чтобы найти случаи, когда ваше мнение о странице расходится с Google.

    • На вкладке «Без ошибок, есть предупреждения» обратите внимание на страницы, которые были проиндексированы, несмотря на директиву noindex. Скорее всего, Google был прав, и вам нужно удалить тег noindex из этих страниц или из вашего X-Robots-Tag.
    • На вкладке «Страница без ошибок» посмотрите внимательно на проиндексированные, но не отправленные в файл Sitemap страницы — вы можете добавить их в карту сайта, так как Google считает их качественными. В то же время, если Google проиндексировал ваше «Пользовательское соглашение», которое вы не включили в карту сайта, можно ничего не делать. Также следите за дублями страниц, которые были проиндексированы, но отсутствовали в вашей карте сайта — такие случаи часто возникают из-за проблем с пагинацией и обработкой параметров URL-адресов.
    • Наконец, перейдите на вкладку «Исключено». Большинство страниц здесь исключены из индексации в соответствии с вашими собственными директивами, например старые страницы 404, страницы, заблокированные robots.txt, неиндексируемые и неканонические страницы. Обратите внимание на канонические страницы, которые Google решил не индексировать, — поисковая система считает, что на вашем сайте есть альтернативы получше. Тщательно изучите каждый случай и решите, действительно ли страница более ценна, чем ее дубли — исправьте свои теги canonical, если Google был прав. Если вы по-прежнему считаете, что страницу нужно проиндексировать, вам придется поработать над ее содержанием, профилем бэклинков и внутренней линковкой, чтобы убедить Google в обратном.

    На вкладке «Исключено» можно увидеть еще две интересные категории страниц: «Просканированы, но пока не проиндексированы», и «Обнаружены, не проиндексированы». Оба типа обычно определяют некачественные страницы с малым содержанием, которые Google не хочет показывать пользователям. В первом случае страница была по крайней мере просканирована, а затем признана некачественной. А во втором случае поисковик даже не потратил краулинговый бюджет на страницу. Тщательно проанализируйте все такие страницы и посмотрите, что вы можете сделать, чтобы повысить их ценность: поработайте над контентом, взаимодействием с пользователем, внутренней линковкой и т. д.

    Заключение

    Благодаря разнообразию инструментов для создания карты сайта сделать файл Sitemap очень легко. Однако, если вы просто воспользуетесь одним из случайных инструментов и проигнорируете рекомендации по созданию карты сайта, то наверняка получите отчет о файле Sitemap с большим количеством ошибок, или отправите через карту сайта множество некачественных страниц на рассмотрение поисковикам.

    Я надеюсь, что это руководство помогло вам исправить каждую ошибку в отчете о файле Sitemap. А воспользовавшись советами из второй части этого руководства, вы сможете оставить в карте сайта только качественные страницы и убрать все те, которые поисковики все равно не захотят индексировать. Если у вас остались вопросы, не стесняйтесь оставлять их в комментариях ниже.

    Даша — контент-маркетолог и редактор в SE Ranking. Пишет статьи о SEO и диджитал-маркетинге. Любит разбираться в сложных вещах и описывать их просто и доступно. В свободное от блога время Даша путешествует, изучает искусство фотографии и посещает картинные галереи.

    Всё началось с того, что в последнее время всё чаще наблюдаю ситуацию, когда Яндекс сайт индексирует отлично, а Google никак не хочет вообще! Хотя и карта сайта добавлена, и страницы разрешены в robots, и тексты (и даже фотки) уникальные. CMS разные, регионы разные, домены молодые и старые. Да и два месяца индексировать 60 страниц?? Может Google уже выходит из игры?

    Разместил сайт клиента в панели вебмастеров гугл плохо индексирует сайтгугл и думаю, как обычно, что дело сделано, тем более что все страницы из сайтмапа были успешно добавлены роботом.

    Но прошел месяц, а в поиске гугла ровно 0 (ноль) страниц!
    А яндекс уже успешно проиндексировал основные разделы.

    Раньше ситуация была наоборот: яндекс морозил сайты месяцами. Надо было писать «платону», ставить ссылки со всяких форумов, твиттеров и если повезет, то сайт проиндексируется там.

    Сейчас яндекс индексирует почти мгновенно, причем вполне разумно, качественно отделяя важные страницы от неизбежного мусора.

    А Google как-будто «испортился», тупит на ровном месте.
    Причем это не только поиска касается, а пожалуй, всех их сервисов.

    гугл не индексирует страницы совсем

    Вот смотрите Яндекс индексирует, а Google нет.

    Гугл вообще не индексирует сайт!

    google не индексирует сайт

    а в яндексе есть…

    яндекс индексирует сайт а гугл нет

    Этот сайт гугл не индексировал месяц, и стал очень неохотно индексировать только с пинка (речь ниже пойдет как это сделать), а яндекс подхватил сразу.

    гугл не индексирует сайт

    А яндекс сразу подхватил…

    яндекс сразу подхватил сайт а google не индексирует

    Содержание

    • Решение вопроса по индексации
      • Фильтры
      • Карта сайта
      • Robots.txt
      • Страницы исключены из индекса
    • Не удалось обработать файл Sitemap
    • Выводы и итоги

    Решение вопроса по индексации

    Общий алгоритм примерно такой, на что можно грешить:

    Фильтры

    Проверяем нет ли фильтров на сайте.
    Смотрим меры принятые вручную.

    яндекс индексирует а гугл нет меры вручную

    Карта сайта

    Проверяем карту сайта.
    Проиндексирована ли она в Google? Нет ли в ней ошибок.
    Смотрим, чтобы индексация стояла каждый час или каждый день, а то во многих картах по умолчанию месяц стоит.

    яндекс индексирует а гугл нет

    Robots.txt

    Проверяем любую страницу не запрещена ли она в robots.txt
    Для этого открываем «Покрытие», затем выбираем страницы со статусом, например, ошибка или исключено и кликаем на сведения внизу, чтобы узнать подробности.

    яндекс индексирует а гугл нет покрытие в роботсе
    И затем когда откроется список страниц, кликаем на сами страницы и смотрим доступна ли она к индексации или нет.

    гугл не индексирует страницы

    Должно получиться примерно так (статус «доступен»)

    проверка в гугл на обход роботом

    Страницы исключены из индекса

    По непонятным причинам страницы могут быть исключены из индекса.

    Как я уже показывал выше, открываем «Покрытие» и обращаем внимание на последний пункт «Исключено».

    гугл исключил страницы из индекса

    Опять же нужно кликать на каждую страницу и проверять URL

    проверка url в гугл индексирование

    Вы увидите, что страница не проиндексирована, но не по причине ошибки, а просто так :devil:

    Кликайте на «запросить индексирование» и Google вручную обойдет страницу и добавит в индекс. Да, это утомительно, кликать каждую страницу, но другого варианта не нашёл, а такое добавление реально работает, выше приводил скрин, гугл вообще не хотел индексировать сайт, а когда попинал его вручную через этот инструмент кое-как забрал туда эти страницы.

    гугл не индексирует сайт

    Кстати, если нажать на «подробнее», то станет ясно, что гугл не проиндексировал страницы, потому что робот не стал это делать, якобы из-за чрезмерной загрузки ресурса.

    Какого именно ресурса, они не уточняют, но подозреваю что у самого гугла или просто не хватило мощностей нормально проиндексировать сайт и он откладывает их на потом, либо поехала крыша у алгоритма, который определяет качество страниц и он не индексирует нормальные страницы с уникальным текстом и фотками.

    гугл плохо индексирует страницы

    Я встречал по этой ошибки темы, в которых люди месяцами не могли ничего сделать!

    Я заметил что в основном эта проблема стала подниматься в последние пару лет, где-то с 2020 года.

    Из большего никто ничего не знает, но такое чувство, что сам гугл медленно погружается в болото :whew:

    Вот недавно ещё человек хочет заказать СЕО и пишет в заказе:

    гугл плохо индексирует сайт

    И таких примеров — десятки!

    Добавлено 08 сентября 2022

    Решил дополнить статью очень частой ошибкой, когда гугл ругается на карту сайта, мол «Не удалось обработать файл Sitemap».

    Не удалось обработать файл Sitemap в гугл консоли

    Это просто беда для многих людей, они мучаются днями и неделями, пытаясь пробить эту глухую стену :wall:

    Пишут на форумах, в блогах, в ютуб, в техподдержку гугла — и почти всё без толку.

    Я попробую внести некоторую ясность в этот вопрос, не претендую на вселенскую истину, и не гарантирую что у вас что-то решится, но по крайней мере соберу в одном месте опыт по этой проблеме, может кому-то и пригодится.

    Итак, почему Google не хочет обрабатывать карту сайта, мой личный ТОП рейтинг причин:

    • Домен не нулевой, а имеет какую-то (может, нехорошую) историю.
      Тут можно сказать только, что когда вы выбираете себе доменное имя — сделайте это правильно.
      Проверить историю можно попробовать тут — https://archive.org/web/ но не по всем сайтам есть инфа.
    • Доменная зона стрёмная, вроде .name, .top, .club и т.п.
      Опять же — выбирайте домен правильно!
    • Бывает, что sitemap сделан изначально некорректно, проверьте его в валидаторе — https://www.xml-sitemaps.com/validate-xml-sitemap.html
      Попробуйте другой sitemap по возможности.
    • Проверьте ответ карты сайта — она вообще загружается?
      Это можно сделать просто добавив ссылку на карту сайта в инструмент «Проверка URL» и посмотреть подробности.
      Статус должен быть 200 ОК, внутри виден просканированный код.
    • Посмотрите на адрес карты сайта, может там есть какие-то спецсимволы?
      В идеале чтобы он назывался просто sitemap.xml или sitemap-1.xml, sitemap-2.xml, не надо туда пихать подчеркивания, заглавные буквы и т.п.
    • Sitemap запрещён к индексации в robots.txt
      Чаще всего грешит Опенкарт, так как в нем чпу не поддерживается изначально и карты сайта имеют вид вроде index.php?route=extension/feed/fast_google_sitemap
      Решается как в видео — https://youtu.be/18rqVXvBwD4
    • В том же robots.txt или в htaccess запрещен доступ для роботов, в том числе Google.
      Проверьте эти файлы на наличие запретов, ищите строчки в которых есть что-то вроде «googlebot» и «HTTP_USER_AGENT».
      Удалите их на несколько дней (или навсегда) и проверьте индексацию через это время, сразу ведь доступ может не восстановиться, так как гугл кэширует многие моменты.

    И это еще один камень в огород гугла :no:

    Выводы и итоги

    Буквально лет 5-10 назад не представлял себе жизни без Google: поиск, почта, картинки, видео, бизнес, реклама, аналитика — там всё крутилось и было на недосягаемом для конкурентов уровне.

    А сейчас ловлю себя на мысли, что пользуюсь всё чаще и чаще сервисами Яндекса:

    • моя корпоративная почта у них висит и работает лучше гугловской.
    • реклама в яндекс раньше проигрывала гугл, но с появлением мастера кампании стала гораздо выгоднее, размещаю в том числе свою рекламу, и вот только на днях разместил очередного клиента, он за 20 бел руб. (около 10$) получил 100 тыс показов, 1300 переходов с отказами меньше 16% (!) и около 30 хороших конверсий — подробнее услуги по настройке рекламы
      Да, гугл тоже хорош и приводит много клиентов, особенно поиск, но во-первых, санкции, во-вторых, там 300$ можно ухнуть за пару дней без особого результата, если неаккуратно настроить кампанию.
    • яндекс диск дешевле и удобнее, да и в условиях санкций лучше иметь свои файлы в своей стране.
    • яндекс формы — очень достойно, возможностей куча, настраиваются легко, работают не хуже гугловских.
    • яндекс браузер тот же хромиум, но я пользуюсь мозиллой, потому что гугл оборзел и стал блокировать дополнения, которые позволяют качать видео с ютуба.
    • поиск по картинкам гораздо удобнее и лучше в яндексе, я даже удивился, потому что раньше рулил только гугл, а сейчас для поиска по изображениям почти всегда использую яндекс.
    • яндекс-бизнес удобнее, информативнее, больше возможностей внутри.
    • яндекс метрика в разы проще, нагляднее, толковее и удобнее, чем перенавороченный комбайн google analytics, где до сих пор, чтобы добавить цель на отслеживание нужно знание regexp на базовом уровне или погружаться в бездну google tag manager.
    • яндекс карты гораздо точнее, проще и толковее, на гугловских до сих пор многих номеров домов нет :facepalm:
    • техподдержка на яндексе (что поиск, что реклама, что другие сервисы) — это песня, чуть ли не в режиме онлайн можно спросить и получить вменяемый ответ. На гугле ответов на пару вопросов жду уже полгода! Раз в месяц присылают отписку, мол «ваш вопрос морозится нашими специалистами, но когда-нибудь мы вам ответим». В той же рекламе яндекса есть возможность задать вопрос в чат и реально помогут решить баг прямо при тебе онлайн. Google даже и близко до этого уровня техподдержки не дорос, точнее застрял в развитии…

    Так что в моём «арсенале» пока уверенно держится только Гуглопоиск.
    Да и то чисто за счет привычного дизайна, а не какой-то супер-пупер толковой выдачи.

    Впрочем Яндекс уже тоже выкатил новый дизайн поиска — почти такой как на Google, так что думаю, тут скоро произойдет незаметная смена в предпочтениях.
    Особенно если его начнут ставить по умолчанию на все местные девайсы и браузеры.

    Ну и Ютуб, конечно, ещё рулит.
    Впрочем, тоже всё меньше и меньше.

    Я обратил внимание, что уже реже захожу туда, чаще включаю банальный Телеграм, VK, OK, а своё видео с Youtube планирую перевести на Яндекс.Дзен от греха и санкций подальше.

    Так что думаю, что проблема с индексациями страниц сайта в Google может носить более глобальный характер и свидетельствовать о том, что не всё так гладко и ровно у этого гиганта, как оно может показаться.

    Причем такого мнения не я один придерживаюсь, вот аналогичные проблемы у разных людей:

    Впрочем, при должном усердии, уверен, что можно решить и эту проблему.

    Успехов в бизнесе!

    Доброго времени суток

    Добавил сайт в поисковую консоль гугла около 2 недель назад, сразу же до кучи отправил сайтмап. Все производилось в новой версии консоли. Все это время в статусе светиться «Не Получено», а при открытии подробностей сообщение:

    Не удалось обработать файл Sitemap
    Общая ошибка HTTP
    При попытке доступа к вашему файлу Sitemap произошла ошибка. Убедитесь, что этот файл Sitemap соответствует нашим правилам и находится в указанном местоположении, а затем отправьте его повторно.

    Карта сайта генерируется через Yoast, без каких-либо модификаций из вне и разбита на несколько подкарт (посты, категории, страницы). Пробовал отправлять повторно, вставлять сразу подкарты — ситуация аналогична. В старой версии консоли статус «В ожидании». При проверке через гугловский инструмент:

    Количество дочерних файлов в файле индекса Sitemap 3
    Сведения об ошибках: Ошибки отсутствуют.

    В индексе все еще не попала ни одна страница сайта (сайт по питанию, зона .com, материал англоязычный (консоль русская)). По логам, гуглобот часто запрашивает robots.txt, ads.txt. Один раз запросил карту сайта (если не изменяет память, это время совпало с тем, когда я повторно ее отправил через консоль). Примеры запросов:

    66.249.65.136 - - [22/May/2018:08:38:37 +0200] "GET /ads.txt HTTP/1.1" 404 14690 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    91.65.25.166 - - [22/May/2018:10:51:33 +0200] "GET /robots.txt HTTP/1.1" 200 162 "-" "Mozilla/5.0 (compatible; Googlebot/2.1 +http://www.googlebot.com/bot.html)"

    При переотправке и проведении проверки в инструменте:

    66.249.69.24 — — [22/May/2018:20:06:06 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:07 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.24 — — [22/May/2018:20:06:07 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:08 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:09 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:10 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:10 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:11 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»

    robots.txt:

    User-agent: Yandex
    Disallow: /wp-admin
    Disallow: /author/
    Disallow: /wp-login
    Disallow: /tag
    Disallow: /?s=
    Disallow: /?feed=

    Host: https://domain.com/

    User-agent: *
    Disallow: /wp-admin
    Disallow: /author/
    Disallow: /wp-login
    Disallow: /tag
    Disallow: /?s=
    Disallow: /?feed=

    Sitemap: https://domain.com/sitemap_index.xml

    На сервере используются редиректы с www на не-www и с не-www на https не-www.

    Были ли у кого-то еще подобные проблемы и в какую сторону можно покопать? Заранее благодарю.

    Вы создали карту сайта, загрузили ее в Google Search Console, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковикиигнорирует ваш файл Sitemap и не собирается индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и даже расскажем, как это сделать.

    Если у вас еще нет карты сайта и вы хотите узнать, зачем она нужна, ознакомьтесь с нашим вводным интенсивом по созданию файла Sitemap. Здесь мы расскажем о преимуществах использования карты сайта и действенных рекомендациях по работе с ней. Если вы пока не знаете, для чего используют теги <loc> и <lastmod>, что такое карта сайта для видео или файл индекса Sitemap, вводное руководство вам точно пригодится.

    В первой части этой статьи перечислены все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console. Если же вы ищете способ устранить конкретные проблемы, воспользуйтесь содержанием, чтобы перейти к интересующим вас ошибкам.

    Во второй части — рекомендации, которые помогут вам извлечь максимальную выгоду из карты сайта. Вы узнаете, как найти мусорные страницы в файле Sitemap, где искать страницы, которые вы могли пропустить и не добавить в карту сайта, и как заставить поисковик проиндексировать как можно больше страниц из файла Sitemap. Поэтому очень советую всем внимательно ознакомиться со второй главой этой статьи.

    Исправление ошибок в отчете Sitemap

    После загрузки карты сайта в Google в столбце «Статус» можно увидеть, удалось ли поисковику обработать файл. Если ваш файл соответствует всем правилам, появится статус «Успешно». В этой главе мы рассмотрим другие статусы, а именно «Не получено» и «Обнаружены проблемы».

    Проблемы со сканированием вашего файла Sitemap

    Начнем с самого худшего сценария, когда поисковик не может обработать файл Sitemap. Сначала разберемся с Google — что делать, если статус вашей карты сайта «Не получено». 

    Статус карты сайта «Не получено»

    В этом случае вам придется использовать «Инструмент проверки URL», чтобы выяснить, что может быть причиной проблемы. В инструменте нажмите кнопку «Проверить страницу на сайте» и посмотрите статус получения страницы. Если написано «Успешно», значит ошибка на стороне Google.

    Статус получения страницы в GSC

    Если Google не удалось получить вашу карту сайта, убедитесь, что ничто не блокирует доступ к файлу Sitemap — будь то директивы robots.txt или плагины CMS (да, иногда виноваты они!). Также проверьте, правильно ли введен URL-адрес карты сайта — обратите внимание на протокол и префикс www.

    Ошибка «Не получено» может возникнуть как при загрузке отдельной карты сайта, так и в случае загрузки в Google Search Console файла индекса Sitemap. Проблему нужно решить так же, как и с одной картой сайта.

    Ошибки в файле индекса Sitemap

    Теперь перейдем к случаям, когда поисковики просканировали добавленный вами файл и обнаружили ошибки. И начнем мы с ошибок файла индекса Sitemap.

    Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.

    Кроме того, в вашем файле индекса Sitemap не должны быть указаны другие файлы индекса Sitemap, а только карты сайта. Если вы сделаете так, то получите сообщение «Вложенные файлы индекса Sitemap» в Google Search Console.

    И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.

    Недопустимый размер файла Sitemap и ошибки сжатия

    Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google. Узнать больше о том, как разделить карту сайта на несколько файлов, можно из нашего полного руководства по созданию файла Sitemap. 

    Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в консоли.

    Я говорила, что допустимый размер карты сайта в несжатом виде должен быть меньше 50 МБ, но часто файлы Sitemap сжимают для экономии пропускной способности канала. Обычно для этой цели используют инструмент gzip, который добавляет расширение gz к файлу. Сообщение об ошибке сжатия или разархивирования в отчете означает, что что-то пошло не так во время процесса сжатия, и вам нужно сделать это еще раз.

    Проблемы со сканированием URL-адресов в карте сайта

    По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.

    «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.

    Еще одна довольно очевидная проблема, которая не позволяет Google сканировать страницу, — это код ответа, отличный от 200 ОК. В отчете поисковиков это называется ошибкой HTTP, и точный код указывается для каждой отдельной страницы. Кроме консолей вебмастеров, проверить коды ответа URL-адресов из вашей карты сайта можно с помощью инструмента «Аудит сайта» от SE Ranking.

    Всю необходимую информацию ищите в разделе «Код ответа сервера».

    Раздел «Код ответа сервера» в SE Ranking

    Google также выделяет другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.

    Ошибка «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.

    Ошибка «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.

    Google Search Console не указывает, что именно может быть причиной проблемы. Поэтому вам нужно использовать другие инструменты, чтобы понять, какие ошибки необходимо исправить. Например, в инструменте «Аудит сайта» SE Ranking есть специальный раздел «Редиректы», где можно проверить, есть ли на вашем сайте какие-либо проблемы с перенаправлениями.

    Если инструмент обнаружит какие-либо ошибки, вы получите всю необходимую информацию по каждой из них — щелкнув на количество страниц, можно узнать, на какой странице есть проблема и как она связана с другими страницами сайта.

    Раздел «Редиректы» в SE Ranking

    Ошибка «Нельзя использовать URL» означает, что ваша карта сайта содержит URL-адреса, которые находятся на более высоком уровне или в другом домене по сравнению с файлом Sitemap. Например, если ваша карта сайта находится по адресу: vashsajt.com/category1/sitemap.xml и вы добавили в нее страницу, адрес которой: vashsajt.com/stranitsa1, поисковики не смогут получить к ней доступ.

    Что касается разных доменов, помните, что для Google версии сайта на HTTP и HTTPS, а также с www и без www считаются разными. Поэтому, если ваша карта сайта находится по адресу http://www.vashsajt.com/sitemap.xml, URL вида https://vashsajt.com/stranitsa1 будет считаться некорректным. 

    Если вы недавно перешли на HTTPS, обязательно создайте новую карту сайта с HTTPS URL-адресами. Инструмент «Аудит сайта» SE Ranking напомнит вам об этом.

    Раздел «Безопасность сайта» в SE Ranking

    Google считает, что вы указали неправильные URL

    Также стоит обратить внимание на еще одну ошибку, которую выделяет Google. Если вы добавите URL без префикса www в свою карту сайта, адрес которой содержит www, вы получите ошибку «Несоответствующий путь». То же самое касается файла Sitemap с www и URL-адресом без соответствующего префикса. Даже если ваш сайт доступен как с префиксом www, так и без него, не нужно путать эти вещи в карте сайта. Если ваш файл Sitemap находится по адресу: https://example.com/sitemap.xml, ни один из URL-ов, которые она содержит, не должен включать www. Если ваша карта сайта находится по адресу: https://www.example.com/sitemap.xml, все перечисленные в ней URL-ы должны включать www.

    Синтаксические ошибки в карте сайта

    В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок. 

    • «Недопустимое значение тега». Значение тега — это то, что вы указываете между начальным и конечным тегами — URL-адрес между тегами <loc>, или дата, которую вы определяете с помощью тега <lastmod>. Ошибка возникает, когда вы указываете недопустимое значение в карте сайта, например, устанавливаете приоритет вне диапазона от 0,0 до 1,0.
    • «Неверное значение атрибута». Значение атрибута указывается после знака равенства (=) в кавычках. В следующей строке кода перечислены различные языковые версии страницы в файле Sitemap.
    <url><loc>https://example.com</loc><xhtml:link rel=”alternate” hreflang=”gb” href=”https://example.com”/><xhtml:link rel=”alternate” hreflang=”fr” href=”https://example.com/fr”/></url>

    Здесь “alternate”, “gb” и “fr” являются значениями атрибутов, но “gb” используется неправильно. Вы не можете указать в hreflangs только код страны — он должен сочетаться с кодом языка, например, “en-gb”.

    • «Неправильно введена дата». Все довольно просто — вы использовали неправильный формат даты для тега <lastmod>. Единственный допустимый формат:
    2005-02-21 
    2005-02-21T18:00:15+00:00
    • «Недопустимый URL». Как вы могли догадаться, эта ошибка означает, что нужно искать опечатки в добавленных URL-адресах. Напомню, что все URL-ы в вашей карте сайта должны быть абсолютными.
    • Ошибки «Отсутствует атрибут XML» и «Отсутствует тег XML» тоже довольно очевидны. Отсутствие обязательных тегов и атрибутов (urlset, url, loc, xmlns) недопустимо — их нужно добавить, чтобы ваша карта сайта работала должным образом.
    • «Недопустимый XML: слишком много тегов». Эта ошибка может возникнуть, если вы используете один из тегов несколько раз. Например, вы указали два разных адреса или две даты изменения для одного URL. В этом случае вам необходимо удалить повторяющийся тег.
    <url>
    <loc>http://www.example.com/</loc>
    <lastmod>2021-01-01</lastmod>
    <lastmod>2021-02-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
    </url>
    • «Неправильно указано пространство имен». Пространство имен, указанное в вашем теге <urlset>, должно быть одним из принятых протоколов. В настоящее время используется следующий протокол:

    Обычные файлы Sitemap — xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”

    Файлы Sitemap для новостей — xmlns:news=”http://www.google.com/schemas/sitemap-news/0.9″

    Файлы Sitemap для видео — xmlns:video=”http://www.google.com/schemas/sitemap-video/1.1″

    Файлы Sitemap для изображений — xmlns:image:=”http://www.google.com/schemas/sitemap-image/1.1″

    Напомню, что специальные карты сайта для новостей, картинок и видео поддерживает только Google.

    Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8.

    Ошибка «Неподдерживаемый формат файла» в GSC

    Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.

    Чтобы избежать синтаксических ошибок, перед отправкой файла Sitemap используйте один из сервисов проверки карты сайта, подобных этому. Инструменты будут выделять проблемы, которые необходимо исправить.

    После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.

    Такие действия заставят Google повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок.

    Загруженные vs проиндексированные URL-адреса

    Ваша карта сайта и файл индекса Sitemap могут получить статус «Успешно» или «Ок», но на этом ваша работа не заканчивается.

    Давайте сначала разберем, что делать дальше в Google Search Console. Щелкните на значок диаграммы рядом с количеством выявленных URL-адресов, чтобы перейти к отчету об индексировании. Как только вы начнете анализировать его, вы скорее всего заметите, что не все отправленные страницы были проиндексированы.

    Отчет об индексировании в GSC

    Это нормально, когда страницы исключаются из индексации — Google не может оценить и проиндексировать все страницы вашего сайта, о которых он знает. Более того, почти на каждом сайте есть страницы, которые вебмастера не хотят индексировать: страницы защищенные паролем, служебные страницы и дубли. Что не нормально, так это наличие ошибок и предупреждений в вашем отчете об индексировании. Также недопустимо, чтобы количество исключенных страниц во много раз превышало количество страниц без ошибок.

    Так почему же поисковики не могут проиндексировать страницы, которые были добавлены в карту сайта? В большинстве случаев это происходит, когда вы добавляете туда страницы, которых в карте сайта быть не должно. Возможно, поисковики просто не могут проиндексировать страницу из-за директивы noindex. Кроме того, поисковики могут запутаться, действительно ли вы хотите, чтобы страница была проиндексирована — например, когда вы добавляете неканонические страницы в карту сайта. 

    Все подобные ошибки можно найти в разных вкладках «Отчета об индексировании» в Google Search Console. Но их удобнее проверять с помощью инструмента «Аудит сайта» SE Ranking — если на вашем сайте есть подобные проблемы, вы легко найдете их все в разделе «Сканирование» в «Отчете об ошибках».

    Вкладка «Сканирование» в SE Ranking

    Удалите из карты сайта неиндексируемые и неканонические страницы. А если страницы были по ошибке помечены как неиндексируемые и неканонические, решите эту проблему.

    Оптимизируйте карту сайта с подсказками от Google

    Убедившись, что с вашей картой сайта все в порядке, изучите «Отчет об индексировании», чтобы найти случаи, когда ваше мнение о странице расходится с Google.

    • На вкладке «Без ошибок, есть предупреждения» обратите внимание на страницы, которые были проиндексированы, несмотря на директиву noindex. Скорее всего, Google был прав, и вам нужно удалить тег noindex из этих страниц или из вашего X-Robots-Tag.
    • На вкладке «Страница без ошибок» посмотрите внимательно на проиндексированные, но не отправленные в файл Sitemap страницы — вы можете добавить их в карту сайта, так как Google считает их качественными. В то же время, если Google проиндексировал ваше «Пользовательское соглашение», которое вы не включили в карту сайта, можно ничего не делать. Также следите за дублями страниц, которые были проиндексированы, но отсутствовали в вашей карте сайта — такие случаи часто возникают из-за проблем с пагинацией и обработкой параметров URL-адресов.
    • Наконец, перейдите на вкладку «Исключено». Большинство страниц здесь исключены из индексации в соответствии с вашими собственными директивами, например старые страницы 404, страницы, заблокированные robots.txt, неиндексируемые и неканонические страницы. Обратите внимание на канонические страницы, которые Google решил не индексировать, — поисковая система считает, что на вашем сайте есть альтернативы получше. Тщательно изучите каждый случай и решите, действительно ли страница более ценна, чем ее дубли — исправьте свои теги canonical, если Google был прав. Если вы по-прежнему считаете, что страницу нужно проиндексировать, вам придется поработать над ее содержанием, профилем бэклинков и внутренней линковкой, чтобы убедить Google в обратном.

    На вкладке «Исключено» можно увидеть еще две интересные категории страниц: «Просканированы, но пока не проиндексированы», и «Обнаружены, не проиндексированы». Оба типа обычно определяют некачественные страницы с малым содержанием, которые Google не хочет показывать пользователям. В первом случае страница была по крайней мере просканирована, а затем признана некачественной. А во втором случае поисковик даже не потратил краулинговый бюджет на страницу. Тщательно проанализируйте все такие страницы и посмотрите, что вы можете сделать, чтобы повысить их ценность: поработайте над контентом, взаимодействием с пользователем, внутренней линковкой и т. д.

    Заключение

    Благодаря разнообразию инструментов для создания карты сайта сделать файл Sitemap очень легко. Однако, если вы просто воспользуетесь одним из случайных инструментов и проигнорируете рекомендации по созданию карты сайта, то наверняка получите отчет о файле Sitemap с большим количеством ошибок, или отправите через карту сайта множество некачественных страниц на рассмотрение поисковикам.

    Я надеюсь, что это руководство помогло вам исправить каждую ошибку в отчете о файле Sitemap. А воспользовавшись советами из второй части этого руководства, вы сможете оставить в карте сайта только качественные страницы и убрать все те, которые поисковики все равно не захотят индексировать. Если у вас остались вопросы, не стесняйтесь оставлять их в комментариях ниже.

    Даша — контент-маркетолог и редактор в SE Ranking. Пишет статьи о SEO и диджитал-маркетинге. Любит разбираться в сложных вещах и описывать их просто и доступно. В свободное от блога время Даша путешествует, изучает искусство фотографии и посещает картинные галереи.

    Доброго времени суток

    Добавил сайт в поисковую консоль гугла около 2 недель назад, сразу же до кучи отправил сайтмап. Все производилось в новой версии консоли. Все это время в статусе светиться «Не Получено», а при открытии подробностей сообщение:

    Не удалось обработать файл Sitemap
    Общая ошибка HTTP
    При попытке доступа к вашему файлу Sitemap произошла ошибка. Убедитесь, что этот файл Sitemap соответствует нашим правилам и находится в указанном местоположении, а затем отправьте его повторно.

    Карта сайта генерируется через Yoast, без каких-либо модификаций из вне и разбита на несколько подкарт (посты, категории, страницы). Пробовал отправлять повторно, вставлять сразу подкарты — ситуация аналогична. В старой версии консоли статус «В ожидании». При проверке через гугловский инструмент:

    Количество дочерних файлов в файле индекса Sitemap 3
    Сведения об ошибках: Ошибки отсутствуют.

    В индексе все еще не попала ни одна страница сайта (сайт по питанию, зона .com, материал англоязычный (консоль русская)). По логам, гуглобот часто запрашивает robots.txt, ads.txt. Один раз запросил карту сайта (если не изменяет память, это время совпало с тем, когда я повторно ее отправил через консоль). Примеры запросов:

    66.249.65.136 - - [22/May/2018:08:38:37 +0200] "GET /ads.txt HTTP/1.1" 404 14690 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    91.65.25.166 - - [22/May/2018:10:51:33 +0200] "GET /robots.txt HTTP/1.1" 200 162 "-" "Mozilla/5.0 (compatible; Googlebot/2.1 +http://www.googlebot.com/bot.html)"

    При переотправке и проведении проверки в инструменте:

    66.249.69.24 — — [22/May/2018:20:06:06 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:07 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.24 — — [22/May/2018:20:06:07 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:08 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.20 — — [22/May/2018:20:06:09 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:10 +0200] «GET /sitemap.xml HTTP/1.1» 301 5 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:10 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
    66.249.69.22 — — [22/May/2018:20:06:11 +0200] «GET /sitemap_index.xml HTTP/1.1» 200 327 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»

    robots.txt:

    User-agent: Yandex
    Disallow: /wp-admin
    Disallow: /author/
    Disallow: /wp-login
    Disallow: /tag
    Disallow: /?s=
    Disallow: /?feed=

    Host: https://domain.com/

    User-agent: *
    Disallow: /wp-admin
    Disallow: /author/
    Disallow: /wp-login
    Disallow: /tag
    Disallow: /?s=
    Disallow: /?feed=

    Sitemap: https://domain.com/sitemap_index.xml

    На сервере используются редиректы с www на не-www и с не-www на https не-www.

    Были ли у кого-то еще подобные проблемы и в какую сторону можно покопать? Заранее благодарю.

    В последнее время все чаще встречается ошибка при обработке файла Sitemap в Google. В интерфейсе Google Search Console отображается статус “Не получено” и комментарий — «Не удалось обработать файл Sitemap»

    Варианты решения

    • В таком случае кто-то рекомендует подождать, иногда помогает, и через 2-3 недели статус меняется на “Успешно”. Но есть и обратные кейсы, когда прошел год, а сайтмап так и висит в ошибках.

    • Так же, иногда помогает принудительная отправка на Sitemap на переобход, по ссылке: https://www.google.com/ping?sitemap=https://ваш-сайт.ru/sitemap.xml

    • Если сайт не большой, то можно отправить страницы на переобход вручную через Google Search Console. Лимит на отправку 10-15 страниц в сутки
    • Так же можно использовать функционал Google Indexing Api для отправки страниц на индексацию. Стандартные лимиты на 1 проект 200 отправок URL в сутки.

    • Если вам нужно больше отправок в день и вы далеки от программирования и тонкостей настройки Api, можно воспользоваться сервисом Fast Indexing. Это сервис ускоренной индексации в Google с лимитами от 2 000 URL в сутки.

      Есть промокод на тестирование сервиса “indexing” дает скидку в 500 руб при первой оплате.

    Реальный пример

    Для примера мы взяли сайт, интернет-магазин запчастей, на движке AdvantShop. На сайте около 5000 страниц товаров, из них в индексе Google было всего 35 страниц, в Sitemap ошибка “Не получено”.

    28 мая страницы сайта были отправлены на индексацию через сервис Fast Indexing, и уже через 2 дня, в индекс зашло 2869 страниц, на 22 июня в индексе уже 4140 страниц.

    Вывод

    В текущих условиях, эффективнее сразу отправлять страницы напрямую в индекс, для того, чтоб сайт сразу начал получать трафик из Google. И уже после этого, по возможности, искать причину и устранять ошибки Sitemap.

    Понравилась статья? Поделить с друзьями:
  • Общая ошибка gdi
  • Общая ошибка epson stylus 1410
  • Общая ошибка epson l100
  • Общая ошибка 988 терминал сбербанк
  • Общая ошибка 971 операция отклонена