Что такое неканоническая ссылка
Руководство по работе с канониклами
В этой статье собраны свежие данные на лето 2021 года о канонических страницах. Разобраны все возможные случаи использования атрибута rel=“canonical”. Рассмотрены основные ошибки при работе, а также даны ответы на популярные вопросы.
Определения каноничности
Каноническая страница — это страница, которую поисковая система считает главной в группе схожих по содержимому.
Неканоническая страница — это страница на которой размещен атрибут rel=»canonical» с адресом другой страницы.
Как выглядит атрибут каноникал
Атрибут rel=“canonical” может быть прописан двумя способами:
Какой из этих методов выбрать лучше всего, разберем в главе «Как указать канонический адрес страницы».
Процесс канонизации
Канонизация — это процесс выбора главной страницы среди дублей (одинаковых страниц доступных по разным адресам) и/или среди страниц с похожим контентом.
В подкасте Search Off the Record от 4 ноября 2020 сотрудник Google Мартин Сплитт рассказал, как поисковик обрабатывает канонизацию:
Сначала нужно обнаружить дубликаты, сгруппировать их вместе и отметить, что эти страницы дублируют друг друга. Затем для всех них нужно найти страницу лидера.
На вопрос: «Обнаруживает ли такой метод только точные дубли или частичные тоже?» специалист ответил:
У нас есть несколько алгоритмов, которые пытаются обнаружить и не учитывать шаблонную часть страниц. Так, например, мы исключаем навигацию из расчета контрольной суммы, убираем нижний колонтитул. Тогда у нас остается то, что мы называем центральным элементом, то есть центральное содержимое страницы, что-то вроде самой сути страницы.
После вычисления и сравнения контрольных сумм, те, которые похожи между собой (сильно или частично) мы объединяем в дублирующий кластер.
Далее по словам Мартина, необходимо выбрать один документ из кластера, который и будет показываться в результатах поиска:
Но вычислить какая из них будет ведущей в кластере не так просто. Есть случаи, когда даже людям будет сложно определить, какая именно страница должна отображаться в результатах поиска. Мы используем более 20 сигналов, чтобы решить, какую страницу выбрать как каноническую из дублирующего кластера.
После сравнения всех сигналов для всех пар страниц, мы приближаемся к фактическому определению канонической.
Почему канониклы важны для SEO
1) Поисковики не любят дублирующийся контент, потому что он засоряют выдачу. Так же алгоритмам бывает непросто выбрать правильно главную страницу. Атрибут rel=»canonical» подсказывает какой URL стоит индексировать.
Google и Яндекс заявляют, что они не всегда признают указанный канонический адрес. Из-за того, что теги каноничности считаются подсказками, а не директивами (указаниями). Учитываются различные сигналы (были рассмотрены выше). Грамотное использование тегов каноничности помогает снизить риск того, что робот сочтет канонической не ту страницу.
Неканоническая страница что это
Доброго всем времени суток! С вами Анатолий Кузнецов и сегодня поговорим о таком понятии, как неканоническая страница, что это такое и как она влияет на позиции сайта в органической выдаче Яндекс. Итак, поехали!
Что такое неканоническая страница сайта
Объясним от обратного!
Каноническая ссылка — это бэклинк на сайте оформленный со специальным атрибутом rel=»canonical», который информирует поискового робота о важности данной страницы и исключает за счет неё дублирование других похожих страниц. Прописывается каноническая ссылка в головном разделе сайта и она должна быть единственной для каждого URL страницы.
Не сложно догадаться, что неканоническая ссылка на сайте это обратная сторона канонической.
Как прописывается каноническая ссылка на сайте
В HTML коде каноническая ссылка прописывается так:
Как ненканоническая и каноническая ссылка влияет на продвижение сайта
На крупных WEB сайтах (и не только) существует большое количество дублирующих страниц. Похожие URL дублируют друг друга, создавая внутри сайта огромное количество одинаковых страниц, тем самым путая пользователей и усложняя работу поисковых роботов. Чаще всего, такие дубли массово встречаются в интернет магазинах, и если владелец сайта с помощью атрибута rel=»canonical» не указал Яндекс боту какие страницы и товары на сайте являются основными, то Yandex и Google сделают это сами, исключив из индексации дубляж. Вот пример такого исключения в Яндексе:
Очень частая ситуация, когда из-за дублирования карточек товаров и страниц интернет-магазина, Яндекс исключает их из выдачи, а владелец сайта не может понять, почему интернет-магазин не продаёт. А по факту, просто не указана основная страница атрибутом rel=»canonical».
Пример дублирования URL страницы
Атрибут rel=canonical был впервые был анонсирован компанией Google в феврале 2009 года. Яндекс его также начал использовать, но позже. Данный атрибут указывает Google и Yandex ботам предпочтение в индексации, той или иной страницы, в том случае, если на сайте таких одинаковых страниц несколько.
Допустим есть две страницы с такими URL:
В этом случае первая страница является основной на сайте, а вторая дублирующей. Если для роботов не прописать основную страницу атрибутом rel=»canonical», то роботы могут её исключить из индексации, а вы этого даже не будете знать. Соответственно такая страница не будет показываться в поисковой выдаче и приводить на сайт целевых клиентов. Отсюда и возникает важность обозначения канонических страниц на сайтах и интернет-магазинах.
У каждого сайта и интернет магазина дублирующих страниц очень много и с ними нужно бороться. Представьте интернет-магазин с 20 000 товаров у которого страница дублируется несколько раз. В глазах поисковых роботов этот магазин будет иметь 60 000 страниц (условно). Представляете, как этот дубляж подпортит репутацию сайту и ухудшит SEO продвижение? Надеюсь понятно объяснил!
Откуда берутся неканонические страницы на сайте
Неканонические страницы генерируются автоматически, системами управления сайта (CMS), такими как Вордпресс, Модэкс, Тильда, Джумла, Опенкад итд. Полное исключение дублирования достигается на рукописных сайтах с чистым HTML.
Вот, что говорят по этому поводу Google и Яндекс:
Если Вы не хотите, чтобы поисковые системы самовольно определяли важность страниц, товаров и услуг на ваших сайтах, обязательно указывайте rel=canonical.
Каноническая страница rel=canonical как прописывать
После появления атрибута rel=canonical прошло уже очень много времени и практически все системы управления сайтами позволяют прописывать внутри себя канонические ссылки и исключать неканонические.
К примеру в CMS WordPress, у меня это делается автоматически за счет плагина Yoast SEO. Но если к примеру нужно поменять пагинацию, то делается это в дополнительных настройках плагина в этой графе:
В коде элемента по умолчанию данная страница выглядет так:
Ну надеюсь теперь Вы поняли, что такое канонические и неканонические ссылки, как их прописывать и как они влияют на продвижение сайта в Яндекс и Google.
Заключение
Хотите быстро продвинуть свой сайт в ТОП10 Яндекс и долго там оставаться? Продвигайтесь исключительно белыми, безопасными и современными LSI методами! Не умеете? Могу научить! Тем, кто хочет разобраться во всех премудростях LSI продвижения, предлагаю посетить мои уроки по SEO обучению, которые я провожу индивидуально, в режиме онлайн по скайпу.
Для тех, у кого нет времени проходить обучение и самостоятельно заниматься продвижением своих сайтов и интернет-магазинов, предлагаю и в этом вопросе помощь. Я могу взять ваш веб сайт на продвижение и за месяц вывести его в ТОП10 Яндекс. Для того, чтобы убедиться в моей экспертности, предлагаю ознакомиться с моими последними кейсами и только после этого заказать у меня SEO продвижение.
Оставь отзыв и получи плюс к карме своего сайта:
4 способа каноникализации URL
С помощью каноникализации можно показать поисковой системе, какой URL необходимо индексировать, если на сайте существуют страницы с повторяющимся или похожим контентом, а также страницы, которые служат для одной цели.
Канонические ссылки: что это такое
В 2016 году разработчики Google добавили тег rel = «canonical», чтобы с его помощью веб-мастера могли «подсказывать» поисковикам, какая страница является предпочтительней на сайте.
Каноническим URL является адрес, который поисковики Google ставят приоритетным между несколькими вариантами страниц на сайте. К примеру, если одна страница имеет несколько URL-адресов, таких как example.com?dress=1234 и example.com/dresses/1234, то одна из версий будет канонической. Обратите внимание, что страницы не всегда являются полностью одинаковы. Они могут иметь различия в настройках фильтров или сортировке (установка фильтров по цвету или цене не делают страницу уникальной). При этом, домен главной страницы может отличаться от домена дублирующей страницы, – говорится в Справке Google Search Console.
Канонический адрес сайта site.com/a с дубликатом site.com/b.
Такие адреса могут появиться из-за проблем в архитектуре сайта. Кроме того, дублирующие страницы создаются для отслеживания или тестирования.
Есть еще одна версия: site.com/х?ref=facebook. Эта ссылка имеет специальный параметр, который не влияет на изменение контента. Ее содержимое такое же, как у страницы, но в наши задачи не входит, чтобы поисковик Google индексировал эту версию. Если он это сделает, то можно увидеть URL-адреса, которые не являются исходными и имеют непонятный рейтинг параметров URL-адресов Google. Поэтому поисковику нужно показать, какие адреса подлежат индексации, а какие нет.
Страницу site.com/a можно ссылать саму на себя. Если кто-то добавит к вашему адресу неизвестный параметр, Google отличит указанную вами версию от неоригинала.
Таким образом, чтобы поисковик проиндексировал нужную вам страницу, используйте атрибут rel= “canonical”.
Какие способы каноникализации URL существуют
1. Переадресация 301 (редирект).
Указывает на перемещение страницы из одного места в другое. Например: a.site.com перенаправляется на abc.com/a.
Редирект 301 как бы сообщает Google, что искомая страница была навсегда перемещена, ее здесь больше не будет. В результате браузер перенаправляет пользователей на новое место расположения страницы.
2. Атрибут rel= “canonical”.
Один из наиболее рекомендуемых тегов для каноникализации адреса.
3. Хештеги (#) местоположения.
Для того, чтобы страница /b имела такое же содержимое, что и страница /а с незначительными отличиями, блок контента из подраздела темы помещают в верхнюю часть страницы. Контент остается тем же с одинаковым поисковым намерением. В данном случае можно использовать хеш (#) в URL. Такие адреса также называют фрагментированными. Они применяются для того, чтобы юзабилити попадал в нужный раздел страницы. В результате Google считает, что это один и тот же адрес. Так можно каноникализировать одинаковый URL.
4. Пассивные параметры в Google Search Console.
На сайты, которые имеют большое количество страниц с адресами, содержащими параметры, не всегда возможно добавить атрибут rel=canonical. В этом случае для того, чтобы сделать параметры адреса пассивными, применяют инструмент Search Console.
Пассивный параметр: sessionid – не изменяет контент, позволяет вести статистику по просмотрам и переходам. К пассивным параметрам относится идентификатор сеансов.
К примеру, есть адрес с параметром sessionid=… Его можно сделать пассивным для отдельных URL и для всех адресов. Google будет обрабатывать их также, как и обычные.
Если URL сайта содержат много таких параметров, советуем воспользоваться инструментом в Google Search Console « Параметры URL» и свести к минимуму сканирование одинаковых страниц.
Что не нужно делать
1. Закрывать дубликаты от индексации тегом Noindex.
Если закрыть дубликат от индексирования, то Google продолжит сканировать страницы и увидит их сходство. Поисковик не сможет объединить сигналы ранжирования одинаковых страниц. Google достаточно умен для автоматического определения главной страницы.
DYK blocking a page with both a robots.txt disallow & a noindex in the page doesn’t make much sense cos Googlebot can’t «see» the noindex? pic.twitter.com/N4639rCCWt
2. Редиректы 302, 307 и любые другие, кроме 301.
Несмотря на то, что Google не различает переадресацию 301-м и 302-м редиректами, лучше использовать 301-й. Он является наиболее надежным и эффективным для каноникализации и лучше гарантирует необходимый результат.
3. Блокировка дублирующих страниц от сканирования с помощью robots.txt.
При использовании robots.txt для каноникализации дублирующих страниц, бот Google при сканировании не сможет понять, что у них схожее содержание, и не объединит их сигналы. Поэтому данный способ не подходит для каноникализации.
4. Настройка кода ответа сервера 404 для неканонической версии.
Каноникализация URL: когда применять
1. Полностью одинаковый или похожий контент.
Каноникализация необходима, если сайт имеет две или более страницы с одинаковым или схожим контентом.
URL с GET параметрами site.com/index.php?cat=10&product=25
По сути, это та же страница, что и site.com/index.php?product=25&cat=10
Решение: необходимо настроить ЧПУ и 301 редирект со старых URL с get-параметром на новые ЧПУ.
Это касается и дублирования описания товара на страницах каталогов. На страницах категорий часто выводят краткое описание товара, которое дублирует описание на странице категории. Поэтому необходимо размещать уникальное описание, которое не будет дублироваться на странице товара.
2. При повторной публикации или обновлении старого контента.
Если вам нужно сохранить старую версию сайта, но сигналы ранжирования должны приходить к новой версии, можно повторно разместить старый контент и настроить переадресацию или опубликовать новую версию и назначить страницу канонической. В этом случае старый контент, размещенный на новом адресе, будет считаться старым.
3. Если контент обслуживает одинаковое поисковое намерение.
Если содержание страницы имеет одинаковое поисковое намерение, то, несмотря на небольшие различия в ключевых запросах, эти страницы подлежат каноникализации.
Например, у вас список из таких ключевых слов:
У них одинаковое поисковое намерение, поэтому желательно их каноникализировать.
4. Если товар (или событие) уже неактуален или недоступен.
Когда товар или событие на странице уже неактуальны, есть смысл перенаправить пользователя на новую страницу с предложением. Для этого применяют 301 редирект вместо атрибута rel=canonical и делают новую версию страницы каноникализированной.
Вывод
Большое количество контента и дубликаты страниц значительно ухудшают юзабилити сайта и влияют на ранжирование. Чтобы избежать этого, стоит использовать канонические ссылки и редиректы.
Метатег canonical позволяет приоритизировать один URL-адрес среди всех, которые содержат одинаковый или похожий контент. Мы не рекомендуем закрывать дубли страниц от индексации. Google и сам может определить главную страницу.
Также можно воспользоваться редиректом, если страница перемещена по новому адресу. Редирект позволит перенаправить пользователя на актуальный адрес, минуя старую страницу.
Ориентируйтесь по ситуации и используйте подсказки из этой статьи, чтобы избавиться от возможных проблем с индексацией страниц вашего сайта.
Война с дубликатами. Как нужно и как не нужно канонизировать URL
Бот доверится подсказкам, которые вы ему предоставите (если только вы не будете манипулировать алгоритмами поисковика). Если же вы не укажете, какой URL является каноническим (оригинальным / более важным для вас), бот сделает выбор за вас. А еще бот может расценить дублирующие страницы как одинаково важные. Тогда поисковик потратит краулинговый бюджет на повторяющийся контент, а прибыльные страницы могу в индекс так и не попасть.
Как избежать такого расклада? Ответ может показаться сложным, но в этой статье я объясню все просто. Итак, чтобы бот забрал в индекс выгодные страницы, их нужно канонизировать.
Читайте ниже, что это значит, как это нужно и не нужно делать.
Вы уверены, что у вас на сайте нет дубликатов?
Канонический URL – это страница, которую Google воспринимает как наиболее важную из нескольких дублирующихся URL-ов на сайте. Возможно вы думаете: «Я не копирую URL-ы у себя на сайте, поэтому мне не о чем беспокоиться». На самом деле дубликаты могут быть созданы автоматически. Например, поисковые роботы могут зайти на вашу страницу разными способами:
Как лучше попасть к вам на сайт? Выберите лучший способ и не забудьте рассказать поисковым системам о своем выборе.
Рассмотрим еще один пример, когда множество дубликатов создается на коммерческом сайте автоматически. Сортировка товаров с помощью URL параметров по размеру, цвету, бренду и т. д. генерирует тысячи дубликатов. Например:
Когда бот находит на сайте практически идентичный контент на разных URL-ах, авторитет сайта/позиция в органическом поиске снижается. Ведь поисковики ценят уникальный контент и ранжируют его выше, а дубликаты только тратят их ресурсы. Поэтому важно оптимальным способом разметить, какой контент на вашем сайте оригинальный, а какой нет. В статье я расскажу о четырех способах канонизации страниц. Мы поговорим о плюсах, минусах и особенностях использования каждого из них.
1. Тег Rel=canonical
Предположим, вы хотите сделать страницу https://yourwesite.com/page.php/ канонической. Для этого добавьте элемент link с атрибутом rel=»canonical» и ссылку на каноническую страницу в заголовок head всех дубликатов:
Элемент link с атрибутом rel=»canonical» должны содержать абсолютный URL (полный), а не относительный (сокращенный) адрес.
2. Rel=canonical HTTP header
Тег Rel=canonical канонизирует HTML-страницы. Для других же форматов, как, например, PDF, Google рекомендует прописывать атрибут rel=canonical в HTTP-заголовке. PDF на сайте необходимо канонизировать потому, что боты просматривают и индексируют такие файлы так же, как и HTML страницы.
Этим способом можно воспользоваться только если у вас есть доступ к настройкам сервера. Не буду детально описывать процесс создания rel=canonical HTTP, так как необходимо углубиться в технические детали, и статья растянется страниц на 10. Оставляю ссылку на хорошую статью от MOZ со всеми нюансами внедрения rel=»canonical» HTTP Headers. Так же, как и в rel=canonical link, URL-ы в HTTP-заголовке должны быть абсолютными.
3. 301 редирект
301 статус код – это перенаправление пользователей и ботов на другой URL.
Когда лучше применить 301 статус код:
4. Sitemap/Карта сайта
Sitemap, или по-русски карта сайта — это XML-файл с информацией о местонахождении URL-ов, дате их последнего обновления, частоте обновления и др. Вебмастер Google Джон Мюллер подтвердил, что страницы в картах сайта бот воспринимает как приоритетные для индексации и ранжирования.
«. мы используем URL-ы в sitemap как способ понять, какой URL следует считать каноническим для определенного контента».
Все страницы в этом файле бот считает каноническими.
Не добавляйте в Sitemap неканонические страницы.
Как делать НЕ нужно
1. НЕ канонизируйте несколько дубликатов разными способами. Предположим, у вас есть страницы А и В с одинаковым контентом. В body страницы А вы добавляете тег rel=canonical, а страницу В указываете в sitemap (напоминаю, что все страницы в sitemap бот считает каноническими). Теперь бот запутался и потратил время и ресурсы, пытаясь понять, какой же контент считать оригинальным. Не надо так.
2. НЕ используйте rel=canonical link tag/ HTTP header на страницах категорий товаров и фильтров. На коммерческих сайтах товары можно отсортировать по цвету, размеру, бренду и т.д. Если на каждой странице поставить тег canonical, то бот будет ходить по каждому параметру URL-а и тратить краулинговый бюджет там. Страницы сортировки лучше закрыть в robots.txt или в meta “noindex”, в зависимости от размера сайта и его специфики.
3. Не используйте robots.txt для канонизации. Директивы в robots.txt показывают, какие страницы/папки нужно краулить боту, а какие нет. Однако вебмастер Google не рекомендует таким образом канонизировать страницы, ведь бот не может даже зайти на страницу и понять, что это дубликат/оригинал.
Блокировка через robots.txt работает так, что мы даже не можем сказать, что это дубликаты. Лучше дать поисковой системе понять, что дубликаты есть, но ранжировать нужно страницу с rel=canonical элементом…
4. НЕ линкуйте дубликаты URL-ов внутри вашего сайта. Если вы канонизируете страницу, вы считаете ее более важной. Согласитесь, это странно, если вы ссылаетесь на неканонические/менее важные версии страниц.
5. НЕ вписывайте дубликаты в URL removal tool в Google Search Console. Этот метод временно блокирует доступ ботов не только к дублям, но и к оригинальным версиям.
6. НЕ канонизируйте HTTP, если на сайте есть версия страницы с HTTPS-протоколом. Наличие SSL-сертификата (который поддерживает HTTP) является одним из факторов ранжирования Google, поэтому переход на протокол HTTPS повышает позиции страницы в поиске.
Коротко о главном
Итак, канонизация – это способ показать Google, какие страницы предпочтительно показывать в поисковой выдаче.
Используйте эти четыре рекомендованных Google способа канонизации:
Чтобы оптимизировать краулинговый бюджет и отправить прибыльные страницы в индекс, следуйте этим советам: