XML-карта сайта.

XML карта сайта — это текстовый файл в формате XML, в котором содержится информация для поисковых сканеров о важных страницах. В этом файле сканер проверяет необходимость переиндексации страниц, находит информацию о новых страницах, рекомендуемую частоту проверки, а так же приоритет страницы относительно других страниц на сайте.

Данная инструкция описывает стандарты и требования к XML-картам сайта, что может быть полезно для написания скриптов или программ, обрабатывающих карту сайта, но для внесения изменений или создания нового файла карты сайта лучше воспользоваться инструментом редактор карты сайта. Это гораздо удобнее, чем работать с ней в текстовом редакторе и к тому же не требует ни каких специальных знаний, т. к. есть подсказки, а встроенная проверка не допустит некорректных значений. Хотя, возможно, будет полезно прочитать следующие два раздела инструкции.

Местоположение карты сайта.

По стандарту, URL карты сайта влияет на набор URL, которые можно включить в эту карту сайта, если карта сайта находится в каталоге https://example.com/files/, то все адреса в ней должны начинаться с https://example.com/files/, ввиду чего рекомендуется располагать карту сайта в корне, например: https://example.com/sitemap.xml. Стоит отметить, что все крупные поисковые системы игнорируют этот стандарт и нормально обрабатывают все URL в файле вне зависимости от местонахождения файла.

Чтобы указать поисковым сканерам URL, по которому доступна карта сайта, нужно прописать директиву «Sitemap» с URL карты сайта в файле robots.txt;Sitemap: http://www.example.com/sitemap.xml

Если на сайте несколько карт сайта, то карта сайта должна быть указана в индексе карт сайта. Кроме того, многие поисковые сервисы имеют интерфейс, в котором можно указать её URL.

Общие требования к карте сайта.

  • карта сайта должна иметь кодировку UTF-8;
  • файл должен быть в формате XML и иметь расширение .xml;
  • в карте сайта должно быть не более 50 тыс. записей;
  • размер карты сайта в несжатом виде не должен превышать 50 МБ, но Яндекс требует не более 10 МБ;
  • все записи в файле, должны относиться к домену, на котором доступна карта сайта.

Создание карты сайта.

Для наглядности и лучшего понимания, ниже приведён пример карты сайта с двумя записями, пока ненужно вникать в то, что там написано, этот пример мы будем разбирать построчно.

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <!--Это комментарий--> <url> <loc>https://example.com/file1.html</loc> <lastmod>2019-08-17</lastmod> <changefreq>monthly</changefreq> <priority>0.6</priority> </url> <url> <loc>https://example.com/file2.html</loc> </url> </urlset>
<?xml version="1.0" encoding="UTF-8"?>
Первая строка объявляет тип файла XML, версия 1.0, файл в кодировке UTF-8. Т. к. для карты сайта используется только версия 1.0 и кодировка UTF-8, первая строка только так и должна выглядеть.
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
Вторая строка объявляет пространство имён, она тоже должна выглядеть только так. Вся информация о страницах добавляется после этой строки.
</urlset>
Последняя строка объявляет об окончании файла. Информация о страницах добавляется до данного тега, после него не должно быть ни какого контента.
<url>
Объявляет о начале записи.
</url>
Объявляет об окончании записи.

И так, тегами <url> и </url> обозначаются записи, в примере выше, у нас две записи и соответственно, два элемента «url». В каждой записи может содержаться информация только об одной странице. В одном файле должно быть не более 50000 записей. Вся информация в записи содержится в тегах, ниже приведена общая информация о них, более подробную информацию и требования можно найти в следующих разделах данной инструкции:

  • <loc> — обязательный, в нём должен быть указан URL страницы;
  • <lastmod> — не обязательный, в нём указывается дата создания страницы или последнего обновления контента;
  • <changefreq> — не обязательный, в нём указывается предполагаемая частота обновления контента;
  • <priority> — не обязательный, в нём указывается уровень приоритета страницы, относительно других на данном сайте;

Хотя элементы <lastmod>, <changefreq> и <priority> не являются обязательными, указание этой информации может влиять на выдачу и индексацию в поисковой системе.

Элемент <loc>, URL страницы.

<loc> — обязательный элемент, между открывающим и закрывающим тегами должен быть указан URL страницы, которую нужно индексировать, ниже приведён пример:<loc>https://wda.site/редактор-карты-сайта</loc>

Требования к URL в карте сайта:

  • Длина URL должна быть не более 2048 символов;
  • В URL должен быть указан протокол (http:// или https://);
  • Во всех записях должны быть указаны те же протокол и домен, на котором находится карта сайта (т. е, если карта сайта находится по адресу https://example.com/, то во всех записях должны быть указаны протокол https и домен example.com), но возможно указать поддомены, например, https://sub.example.com/;
  • Если в URL по которому доступна карта сайта указан номер порта, то в URL каждой записи, необходимо указывать тот же номер порта, например, если Ваша карта сайта доступна через https://www.exmple.com:100/sitemap.xml, то все URL, в файле, должны начинаться с https://example.com:100;
  • Домен должен содержать только латинские буквы от a до z, цифры от 0 до 9 и дефис «-», если сайт использует IDN (национальное доменное именя), то необходимо преобразовать его в ACE строку с помощью инструмента паникод-конвертер.
  • Пути в URL не должны содержать символы отличные от ASCII, если в Вашем пути есть подобные символы, их необходимо заменить на их шестнадцатеричные значения в кодировке, которую использует сервер, например, ваш сервер использует кодировку UTF-8, а путь содержит русские буквы «с» и «т», в кодировке UTF-8, буква «с» имеет шестнадцатеричное значение «%D1%81», а «т» — «%D1%82», тогда URL https://example.com/ст.html, будет иметь вид https://example.com/%D1%81%D1%82.html
  • В URL необходимо маскировать спец. символы (заменять на сущности), список спец. символов приведён в таблице ниже.
СимволМаска
&&amp;
<&lt;
>&gt;
"&quot;
'&apos;

<lastmod>.

Элемент <lastmod> — не обязательный элемент, используется для указания даты последнего изменения контента страницы (или её создания, если не было изменений), в файле выглядит примерно так:<lastmod>гггг-мм-ддTчч:мм:сс+03:00</lastmod>

Стоит отметить, что в данном теге нужно отмечать изменения в контенте страницы. Здесь можно указать как только дату, так и дату со временем последнего изменения. Дата должна быть в формате гггг-мм-дд, если контент на странице обновляется достаточно часто, то помимо даты, можно указать ещё и время. Чтобы указать время, необходимо после даты указать разделитель, латинскую букву «T» (обязательно в верхнем регистре), затем указать время в формате чч:мм:сс, после времени нужно указать какое время указано, если время UTC (так называемое мировое время), то сразу после времени нужно вписать латинскую букву «Z» (обязательно в верхнем регистре), если время указано в GMT (со смещением часового пояса), то сразу после времени нужно указать смещение часового пояса в формате +/-чч:мм, например Московский часовой пояс смещён относительно мирового времени на +3 часа, что мы и видим в примере выше.

<changefreq>.

Элемент <changefreq> — не обязательный элемент, используется для указания предполагаемой частоты обновления контента на странице, в файле выглядит примерно так:<changefreq>Значение</changefreq>

Значение, указанное в этом теге, носит рекомендательный характер, поисковый сканер может посещать страницу как реже, так и чаще чем указывает значение, более того, бот может периодически сканировать страницы помеченные значением «never» (никогда).

Список допустимых значений в теге <changefreq>:

  • «always» — всегда, используется для страниц, которые изменяются при каждом доступе;
  • «hourly» — каждый час;
  • «daily» — ежедневно;
  • «weekly» — еженедельно;
  • «monthly» — ежемесячно;
  • «yearly» — ежегодно;
  • «never» — никогда, должно применяться для архивных URL.

<priority>.

Элемент <priority> — не обязательный элемент, используется для указания приоритета страницы относительно других на данном сайте, чтобы указать приоритет, нужно вписать:<priority>0,4</priority>

Приоритет, назначенный странице, указывает поисковому сканеру, какие страницы по Вашему мнению, более или менее важны. Диапазон значений от 0,0 до 1,0, по умолчанию, оно равно 0,5. Стоит отметить, что указанный приоритет не влияет на сравнение страниц Вашего сайта, со страницами других сайтов и ни как не влияет на позиции выдачи в поисковых системах, сравнение происходит только между страницами Вашего сайта. Не нужно назначать всем страницам самый высокий приоритет, т. к. приоритет является относительной величиной.

Добавление комментариев.

Так же в карту сайта можно вставлять комментарии, они не влияют на индексацию и обычно, используются как заметка. Комментарий должен начинаться с «<!--» и заканчиваться «-->», комментарий не должен содержать два и более дефиса подряд. В комментарии нет ни какой необходимости маскировать символы, ниже приведён пример комментария:<!--Это комментарий-->

Комментарии
Оглавление:
Полезные ссылки: