Что такое навигационный ответ
Что такое знаки Яндекса
Какие они бывают? Зачем нужны? Как их получить? Разбираемся.
Знаки Яндекса — специальные метки, небольшие значки рядом с адресами сайтов. Поисковик ввёл их, чтобы помочь пользователям лучше ориентироваться в поисковой выдаче.
Знаки Яндекса — дополнительный фильтр поисковой выдачи. Например, с их помощью обычный пользователь легко отличит настоящий сайт/аккаунт от неофициального или мошеннического. На примере выше видно: метки удостоилась реальная страница артиста, а фан-группа её не получила.
Самозанятый автор. Создаёт статьи в блог и коммерческий контент. Пишет о маркетинге, финансах, бизнесе и YouTube.
Какие бывают знаки Яндекса
Всего предусмотрено пять меток.
Синюю галочку выдают в трёх случаях: если это навигационный ответ, подтверждённый профиль или официальный сайт.
Навигационный ответ — это когда пользователь ищет конкретный сайт и метка указывает на него. Допустим, человек вводит в поисковую строку запрос «вк» — тогда знак будет рядом с соцсетью «ВКонтакте». Этот знак непостоянный, появляется, только если человек ищет что-то конкретное. То есть он вряд ли зависит от действий владельца сайта или специалиста по продвижению.
Таким же образом работает метка подтверждённого профиля. Она появляется, когда кто-то ищет через Яндекс конкретный аккаунт в соцсети и этот аккаунт подтверждён его владельцем.
А официальный сайт — это метка, которая выдаётся:
В отличие от двух предыдущих знаков, он постоянный. То есть появляется всегда для конкретного сайта — вне зависимости от того, какой запрос задал пользователь и какая страница попала в выдачу.
Метка защищённого соединения появляется рядом с теми страницами, которые используют протокол HTTPS. Этот знак Яндекс может выдать и всему сайту, если он получает много трафика, а большинство страниц работает по защищённому соединению.
Метка популярного сайта указывает на высокую посещаемость и постоянную аудиторию. Обычно её получают крупные СМИ и информационные ресурсы, коммерческие сайты известных брендов.
Метка выбора пользователей — для сайтов с высокой степенью вовлечённости и лояльности пользователей по данным Яндекса. То есть её могут получить ресурсы, куда люди часто возвращаются, где проводят много времени и активно переходят по страницам.
Метка турбо-страниц появляется, если сайт использует соответствующую технологию. Это лёгкие версии обычных страниц, которые быстро открываются даже при «плохом» интернете. Без тяжеловесных изображений и видео загрузка занимает пару секунд.
Как получить знак Яндекса для сайта
Синюю галочку, обозначающую официальный сайт, нельзя получить любому бизнесу — она только для визовых центров, авиакомпаний, финансовых организаций (полный список — в предыдущем разделе). А метки навигационного ответа и подтверждённого профиля появляются не всегда, на них тоже нельзя повлиять (разве что подтвердить профиль в соцсети, чтобы галочка появлялась, когда тот попадает в выдачу).
Знак турбо-страниц можно получить, если перевести большинство страниц на соответствующую технологию. Сделать это можно через Яндекс.Вебмастер с помощью YML-файла (если интернет-магазин) или RSS-ленты (если сайт со статьями).
Подробнее о том, как настраивать турбо-страницы Яндекса и AMP Google, — на курсе «Профессия SEO-специалист» от Skillbox. — Ред.
Яндекс не даёт чётких инструкций по получению знаков (кроме меток официальных сайтов), но позволяет отслеживать прогресс их «начисления». Сделать это можно в том же Яндекс.Вебмастере. Достаточно зайти в раздел «Информация о сайте» или найти свой ресурс в поисковой выдаче, потом нажать на домен и открыть соответствующий отчёт.
Коротко о главном
Чтобы получить метки турбо-страниц или защищённого соединения, достаточно подключить соответствующие технологии. На появление синей галочки никак не повлиять — разве что косвенно поможет подтверждение аккаунтов в соцсетях. А по остальным знакам Яндекс не раскрывает факторы и алгоритмы, поэтому точных параметров никто не знает. Так что можно просто развивать ресурс — работать над посещаемостью, удобством пользователей, качеством контента — и отслеживать изменения в Яндекс.Вебмастере. Если зелёного цвета на неполученных знаках с каждым разом становится больше — пожалуй, всё идёт хорошо.
Но не стоит расценивать знаки Яндекса как панацею — это просто дополнительная «фишка», которая косвенно может влиять на трафик и связанные с ним показатели. Можно заниматься комплексным SEO, постоянно совершенствовать сайт и не думать о знаках — и они появятся сами.
Посещаемость, количество посетителей сайта за определённый период.
Протокол HTTPS обеспечивает шифрование данных и делает их недоступными для просмотра посторонними. Для его работы нужен SSL-сертификат — специальная цифровая подпись сайта.
Компания, которая размещает ваш сайт на своем сервере и делает его доступным в интернете.
Сертификат, который позволяет перейти на защищённое соединение.
Удобство использования сайта.
Прайс-лист для Яндекс.Маркета, написанный на специальном языке. В отличие от Excel, такой файл размещается на сайте и обновляется автоматически.
Файл, в котором размещены анонсы новостей или статей со ссылкой на их полные версии на сайте.
Индекс качества сайта по данным сервисов «Яндекса».
Посещаемость, количество посетителей сайта за определённый период.
Содержание:
Что обозначают иконки сайта в поиске Яндекса и как их получить
Стремительное развитие веб-технологий способствует значительному увеличению количества различных веб-ресурсов. Пользователям становится все тяжелее выбирать из множества сайтов именно тот, который окажется для них наиболее полезным. В связи с этим компания Яндекс разработала специальную систему, которая помогает определить основные характеристики веб-ресурса, его популярность и полезность для аудитории. Данные показатели отображаются как знаки в результатах поисковой выдачи.
Характерные качества знаков Яндекса для отбора сайтов
Яндекс иконки помогают пользователям узнать дополнительную вспомогательную информацию о веб-ресурсах, тем самым ориентируя их среди многочисленных сайтов. Иконки на поисковой выдаче присваиваются в результате анализа поведенческих качеств посетителей, достоверности и удовлетворенности находящихся в сети ресурсов.
Каждый знак в выдаче Яндекса имеет свои характерные качества, которые присваиваются сайту. К примеру, метка «Популярный сайт» означает, что обладающий ей веб-ресурс наделен высокими показателями посещаемости и значительным числом пользователей, которые регулярно заходят на страницы, а значок «выбор пользователей» присваивается ресурсам с большой вовлеченностью аудитории.
Компания Яндекс разработала алгоритм для определения следующих показателей:
Как получить яндекс знаки наверняка не известно, так как данный алгоритм не разглашается.
Разновидности знаков для пользователей, которые видны рядом с сайтом в поисковой выдаче
В настоящее время существуют следующие иконки Яндекса для характеристики веб-ресурсов: популярный сайт, выбор пользователей, метка-навигационный ответ, подтвержденный профиль, компании из перечня ЦБ РФ, сервис Яндекса, официальный дилер по данным Авто.ру, официальный веб-ресурс Яндекс.Справочника.
Выглядят иконки следующим образом:
Рассмотрим каждую из них по отдельности:
Посмотреть все метки сайта можно на специальной странице Яндекс.Вебмастера.
Ссылку на страницу можно найти в поисковых выдачах Яндекса: для этого необходимо кликнуть на значок треугольника в сниппете и нажать на строку «Информация о сайте».
Там отображены все доступные веб-ресурсу значки. В случае присвоения метки будет располагаться надпись: «Знак получен». У оставшихся меток отображается шкала, показывающая степень соответствия сайта данному знаку. Информация постоянно обновляется.
Как получить знак в Яндексе
Точная информация о том, как получить значок «Выбор пользователей» или икону «Популярный сайт» отсутствует. Алгоритм присвоения метки не разглашается и в любое время может измениться.
Основные условия присвоения и отображения иконок:
Безусловно, данные показатели будут оказывать влияния на выбор ресурса аудиторией, но вследствие того, что иконки не особо заметные, в первое время разница навряд ли будет видна. На данный момент, давно созданная метка-галочка, обозначающая подтвержденный профиль, понятна многим, остальные же знаки еще не настолько ясны и привычны аудитории, но со временем это должно измениться. Поэтому присвоенные знаков «Популярный сайт» и «Выбор пользователей» являются значительным преимуществом для веб-ресурсов.
Типы поисковых запросов
Рассмотрим с примерами, какие типы поисковых запросов бывают, какими характеристиками обладают, как определить тип запроса и зачем это нужно.
Поисковые системы объединяют в одном месте тех, кто задаёт вопросы (пользователи) и тех, кто на них отвечает (сайты). Для получения информации пользователь формирует поисковый запрос к поисковой системе, а поисковая система ищет какой сайт может ответить на этот запрос.
С точки зрения SEO-оптимизации сайта, мы должны понимать:
И на первый и на второй пункт нам поможет ответить классификация (типизация) поисковых запросов.
Основная цель типизации запросов – понять намерения пользователя и предоставить ответ наиболее соответствующий его ожиданию.
Основные типы поисковых запросов
В настоящее время выделяют четыре типа основных поисковых запросов.
Отдельно рассмотрим характеристики запросов.
Информационные запросы
Информационный запрос – это поисковый запрос пользователя желающего найти удовлетворяющую его информацию на заданную тему.
Такой пользователь в поисках нужной информации просматривает два или более сайтов, если не нашёл ответ на первом посещённом сайте. На сегодняшний день поисковые системы часто дают ответ на информационные запросы сразу на странице выдачи, и если данный ответ пользователя удовлетворяет, то перехода на сайт может и не быть вовсе.
Примеры информационных запросов
Сама поисковая фраза не обязательно будет в форме вопроса, но как правило, вопросительные слова используются именно в запросах данного типа. Помимо вопросительных слов часто используются слова отзывы, советы, инструкции, форум.
Пример:
Транзакционные и коммерческие запросы
Транзакционный запрос не всегда коммерческий, но коммерческий всегда транзакционный.
Транзакционный запрос – это поисковый запрос пользователя желающего совершить какое либо действие (транзакцию).
Коммерческий запрос – это поисковый запрос пользователя имеющего потребность в покупке товара или заказе услуги.
В поисках товара, услуги или контента пользователи отдают предпочтение лучшему по их мнению предложению сравнивая их на разных сайтах. Сравнивают обычно одну или совокупность характеристик, например:
Примеры транзакционных запросов
Скачать, смотреть онлайн, слушать, купить, заказать, цена – вот наиболее часто встречаемые слова в транзакционных запросах. Примерами могут служить запросы:
Навигационные запросы
Навигационный запрос – это поисковый запрос вводимый пользователем желающим найти конкретный сайт.
Примеры навигационных запросов
Навигационные запросы содержат название домена, сайта, фирмы или бренда. Ошибки в написании присущи запросам данного типа.
Примеры:
Общие запросы
Общий запрос (нечёткий, смешанный) – это поисковый запрос цель пользователя по которому чётко невозможно установить. Выдача по таким запросам может содержать информацию по всем остальным типам запросов.
Примеры общих запросов
Часто общий запрос состоит всего из одного слова и как следствие намерения пользователя не ясны.
Характеристики поисковых запросов
Каждый тип поискового запроса обладает следующими характеристиками:
Мультимедийные запросы
Мультимедийный запрос – это поисковый запрос целью пользователя которого является получение мультимедийного контента (фото, видео, аудио или их совокупность).
В SEO сообществе данные запросы выделяют, как отдельный тип, но это не совсем верно. Мультимедийный контент может быть, как информационным так и транзакционным.
Примеры мультимедийных запросов
Геозависимые запросы
Геозависимые запросы (региональные) – это поисковые запросы выдача по которым различна для различных регионов.
В большей своей массе геозависимые запросы представлены коммерческими запросами.
Геозависимые запросы определяются статистически – это запросы без указания географических названий, но с такими словами, к которым часто географическое название добавляют. То есть запрос «перевозка грузов» — геозависимый, потому что сочетание «перевозка грузов» часто спрашивают вместе с названиями городов.
Как устроен поиск с учётом региона, подробно рассказал Яндекс в своей статье «Поиск с учётом региона».
Примеры геозависимых запросов
Примеры геонезависимых запросов
Сезонность запроса
Сезонные запросы – это поисковые запросы по которым число обращений имеет ярко выраженный сезонный характер по дате, месяцу или времени года. Противоположные сезонным, являются всесезонные (несезонные) запросы.
Зная сезонность запроса, мы можем выстраивать работу с товарами и услугами на сайте. Расширять ассортимент, устраивать сезонную распродажу и усиливать рекламную компанию. С точки зрения SEO, собирать и актуализировать перечень ключевых (семантическое ядро) запросов и информацию по ним.
Пример сезонных запросов
Частотность запроса
Частотность запроса – это количественная величина отображающая предварительный прогноз числа показов в месяц по заданной фразе в определённой поисковой системе.
Существует условное разделение запросов по частотности на:
В каждой нише будет свой набор НЧ, ВЧ, СЧ запросов со своими количественными значениями.
Важно понимать следующее
Конкурентность запроса
Конкурентность запроса – это относительная характеристика, на основании которой определяется объём, время и бюджет работ для вывода документа по конкретному запросу в ТОП-3 (5, 10, 20) поисковой выдачи.
При расчёте конкуренции SEO-специалист ориентируется на косвенные показатели и совокупность факторов. Чем больше значений учтено, тем более точные данные будут получены.
Витальный запрос и витальный ответ
Витальный запрос – это запрос по которому имеется витальный ответ.
Витальный ответ – это наличие одного или более официальных ответов на поисковый запрос.
При установке витальности документу, ассесоры следуют следующей логике:
Является ли запрос навигационным, если да, то искомая страница будет витальной.
Если запрос не является навигационным. Есть ли официальный сайт или официальная страница искомого объекта (предприятие, товар, услуга, предмет авторского права, сервис, человек, закон, официальный документ или инструкция), если есть, то официальная страница или сайт будут витальными. Во всех остальных случая витальность страницы крайне мало вероятна.
На поисковый запрос витальный сайт занимает первое место или несколько первых мест в поисковой выдаче.
Пример запросов с витальным ответом
Определение типа запроса на основании поисковой системы
Мы рассмотрели основные типы и характеристики поисковых запросов и теперь попробуем определить тип запроса на практике.
Возьмём поисковый запрос «кондиционеры», регион для поиска Москва, можно предположить, что запрос общий, но что бы ответить точно необходимо обратиться к поисковой выдаче, например Яндекса.
Посмотрите на ТОП-10 или ТОП-20 по данному запросу, какими сайтами представлена выдача?
Могу предположить, что как минимум 9 из 10, если не все 10 сайтов оказались интернет-магазинами. Данный факт нам говорит о том, что подавляющая часть пользователей Яндекса по запросу «кондиционеры» хочет купить кондиционер. Следовательно, запрос коммерческий.
Почему, предположив что запрос общий, мы ошиблись? Ответ прост.
Поисковые системы строят выдачу на основе огромной статистки по пользователям.
Яндекс на основе накопленных данных знает, что доминирующая часть пользователей по запросу «кондиционеры» переходила ранее в интернет-магазины и в меньшей степени на сайты других типов, именно поэтому на сегодняшний день выдача коммерческая. Спустя какое-то продолжительное время интересы пользователей теоретически могут изменится и накопив данные об этом, поисковая выдача так же изменится, изменится и тип нашего запроса.
Типы поисковых запросов — выводы
Подписывайтесь и будете первыми, кто узнает о выходе нового урока:
Яндекс дает сайтам знаки отличия
Теперь около сниппетов в выдаче появились знаки, которые дают пользователям дополнительную информацию о сайтах. Обновление связано с новой метрикой ИКС.
Знаки получают сайты, которые больше всего соответствуют запросам пользователей. Их несколько, и для каждого сайт должен соответствовать ряду параметров.
Посмотреть все знаки сайта можно на специальной странице Яндекс.Вебмастера или по ссылке из сниппета: нажмите кнопку с зеленой стрелкой и выберите пункт «Инфомация о сайте».
Знаки Яндекса в выдаче
На странице вы увидите все знаки, которые доступны для сайта. Если сайт уже получил знак, у знака будет соответствующая отметка. Для остальных знаков отображается шкала, которая показывает, насколько сайт отвечает критериям знака. Информация регулярно обновляется.
Знаки Яндекса в Яндекс.Вебмастере
Какие бывают знаки Яндекса:
Официальный сайт по данным Яндекс.Справочника
Сайт получает этот знак, если является официальным сайтом органа государственной власти по данным Яндекс.Справочника.
Официальный дилер по данным Авто.ру
Сайт получает этот знак, если организация имеет статус официального дилера на сервисе Авто.ру.
Организация из реестра ЦБ РФ
Сервис Яндекса
Сайт получает этот знак, если представляет один из сервисов Яндекса.
Популярный сайт
Сайт получает этот знак, если имеет высокую посещаемость и постоянную аудиторию.
Выбор пользователей
Знак получают сайты с высокой степенью вовлеченности и лояльности пользователей по данным Яндекса.
Навигационный ответ
Метка отображается в тех случаях, когда есть высокая степень уверенности в том, что именно этот сайт нужен пользователю по данному запросу. Например, для сайта Википедии по запросу [википедия] или сайта vk.com по запросу [вконтакте]. Такие запросы называются навигационными.
Подтвержденный профиль
Метка может отображаться, если страница соответствует подтвержденному профилю персоны или организации в социальных сетях по данным этих сетей.
Обработка и классификация запросов. Часть вторая: навигационные запросы
Чего мы больше всего хотим, когда открываем интернет-поисковик? Мы хотим как можно быстрее его покинуть, как это ни парадоксально. Формулируем наше желание, жмём кнопку и скорее отправляемся туда, где оно должно исполниться (мы надеемся).
Есть всего два основных способа выражения желаний: либо описать, что нужно получить (или сделать), либо указать, куда нужно «телепортироваться». В первом случае система пытается понять запрос, правильно выбрав лучшие из ответов cети, взвешивая сотни их свойств на деревьях принятия решений. Во втором правильный ответ, как правило, всего один, и мы ожидаем, что поисковик его знает.
Запросы второго типа, отвечающие на вопросы куда или где — навигационные запросы. Предлагаю вашему вниманию небольшой рассказ о том, как мы с ними работаем.
Вообще говоря, граница между что и где достаточно нечёткая. Рассмотрим два поисковых запроса: «форум велосипедистов» и «велофорум ру». В настоящее время наиболее релевантный ответ на оба этих запроса — один и тот же сайт velo-forum.ru. Разница в том, что в первом случае ответ не является единственным и существует конкуренция между ним и его аналогами, во втором же сайт обязан не только присутствовать в списке результатов, но и возглавлять его, причём вне зависимости от того, насколько он плох или хорош по сравнению с другими велофорумами. Второй запрос навигационный, а первый — нет.
Существуют также запросы смешанного типа, например «вики ономатопея». Мы пока отложим их в сторону, но ещё вернёмся к ним.
Итак, мы должны заранее знать ответы на навигационные запросы. Технически эта задача формулируется так: сопоставить каждому навигационному запросу соответствующий ему адрес в интернете (далее таргет): сайт, раздел сайта, страницу сайта. А перед этим определить, является ли запрос навигационным.
Прежде всего, различные исследования свидетельствуют, что навигация субъективно воспринимается как наиболее простой вид поиска (что неудивительно: ведь знать о чём-то проще, чем это что-то понимать). В силу этого пользователи особенно придирчивы в оценке качества навигационных ответов поисковика, и именно они оказывают на пользователей самое сильное влияние при принятии решения о вменяемости поисковика в целом.
При этом навигационных запросов очень много. Настолько много, что просто оставлять их без присмотра крайне легкомысленно. Ведь самое важное в обработке любых данных — учёт и контроль. То есть статистика и мониторинг. В данном случае — статистика свойств запросов и мониторинг качества ответов.
Если отсортировать все поисковые запросы по убыванию их количества, а затем взглянуть на полученный список «в перспективе», то увидим примерно следующее:
Видно, что весь топ захватили именно навигационные запросы, слабо разбавленные самыми важными информационными потребностями человечества (они отмечены красным). Поэтому, более не откладывая,
Мы начали с того, что просто пошли вдоль списка, выкидывая красные вкрапления, и вручную приписали каждому из оставшихся запросов его таргет. Оказалось, что одни только «вконтакте» с «одноклассниками» покрывают 5% всего потока запросов, охват же списка из 120 верхних навигационных запросов составил почти 15%. Неплохо при столь мизерных интеллектуальных затратах.
Далее, однако, «плотность» навигации быстро снижается, и поэтому нам пришлось искать способы автоматической фильтрации нужных нам запросов. То есть, грубо говоря, выяснять, чем «вконтакте» отличается от «порно».
Пользователи не склонны кликать по нерелевантным ответам. Соответственно, для навигационных запросов имеет смысл ожидать, что все они выбирают единственный правильный ответ. Рабочая гипотеза заключалась в том, что верно и обратное — если большинство пользователей, подавших запрос, кликают один и тот же результат, то запрос этот является навигационным, а результат — его таргетом.
Проверка показала, что гипотеза в целом верна — лишь редкие ненавигационные запросы, имеющие очень релевантный ответ (типа «nokia темы» или «скачать icq») порождают схожий поведенческий паттерн. Однако почти у всех ложных срабатываний их псевдотаргеты оказались страницами внутри сайтов, поэтому мы просто выкинули (временно) такие запросы из рассмотрения.
Мы перебрали несколько способов измерения единодушия пользователей (включая классический кликранк), и остановились на следующей простой и удобной метрике.
Пусть Ci — количество кликов в результат Ri, а ∑Ci — общее количество кликов по запросу.
Тогда N = log Ci / log ∑Ci — степень навигационности запроса.
Ручная оценка показала, что запросы со значением метрики выше 0.95 — навигационные с высокой точностью. Причём точность эта одинаково высока как для частотных запросов, так и для редких. Таким методом базу навигационных запросов-ответов удалось вырастить до примерно 80000 единиц хранения.
Однако классификация на основе пользовательского поведения имеет серьёзные минусы:
она работает, только если запрос нам известен, то есть присутствует в логах, а правильный результат найден и кликнут. В результате маленькие сайты и редкие запросы, по сути, играют в лотерею: кого-то никто ещё не искал, других искали, но найти не смогли, и лишь у случайных избранных всё сложилось удачно.
Сначала мы решили помочь тем невезучим, кого хотя бы искали (но не нашли).
Мы вручную отобрали несколько тысяч разнообразных навигационных запросов и стали изучать их свойства. Составили списки слов и словосочетаний, наиболее характерных для них, и списки слов, для них, наоборот, нехарактерных. Сравнивали запросы с заголовками страниц, на которые они ведут, и с текстами ссылок на эти страницы. Разбирали блоки навигационной обвязки этих страниц. Транслитерировали домены и внутридоменные пути…
Вторая возникшая проблема — отчетливо видимая фрагментарность базы, то есть непредсказуемое отсутствие в ней запросов, семантически эквивалентных присутствующим. Например, «хедхантер работа» в базу попал, а «работа хедхантер» показался модели недостойным.
В наших обстоятельствах непредсказуемость — это нехорошо: запросы с одинаковым смыслом должны обрабатываться одинаково. Однако включение в базу всех вариантов всех запросов раздуло бы её до космических размеров. И, как нередко случается, решение второй проблемы нашлось в процессе изучения первой — способов очистки базы от вышеупомянутого шума и избыточности. Для этого нам пришлось более пристально всмотреться в «устройство» навигационных запросов.
Оказалось, что навигационные запросы, как и предложения в естественных языках, не монолитны, их тоже можно разобрать по составу: разные слова играют разные роли. Всего таких ролей было выявлено пять (ввиду отсутствия общепринятой терминологии пришлось сочинить свою). Ниже представлен сложный запрос, в котором присутствуют все «члены навигационного предложения»:
Это реальный навигационный запрос, у него, как и положено, единственный правильный ответ.
Опишем, в чём заключаются навигационные роли:
Ядро – фрагмент, однозначно определяющий сайт, на который ведёт запрос. Это самая важная часть запроса. Обычно у сайта не более десяти различных ядер. Например, для сайта lib.ru это «либ ру», «либру», «libru» и «библиотека мошкова».
Фон – фрагменты, допустимые для сайта. Само по себе их наличие в запросе не свидетельствует о его навигационной природе, но вместе с тем они не изменяют таргет при наличии подходящего ядра. Для youtube.com это такие слова, как «видео», «ролики», для headhunter.ru — «вакансии», «работа» и т.д.
Путь – слова, смещающие таргет с корневой страницы внутрь сайта. Например, слово «карты», будучи приложенным к любому ядру Яндекса, перенацеливает запрос на maps.yandex.ru
Регион – разновидность пути, обозначающая географию запроса. Особенность его в том, что для геозависимой навигации явное указание региона в тексте запроса равносильно реальному изменению местоположения пользователя. Например, запрос «икеа», полученный от пользователя из Казани, должен вести туда же, куда запрос «икеа казань», посланный из любого другого региона.
Шум – слова, ничего не значащие с точки зрения навигации. Это служебные части речи и такие слова, как «www», «http», «сайт» и т.д.
Для каждого сайта все эти фрагменты запросов, часто повторяясь, в разном порядке и сочетаниях присутствуют в базе. Стремясь исключить дублирование, мы стали искать способы автоматического разбиения «составных» запросов на элементарные части с тем, чтобы оставить в ней лишь уникальные фрагменты, а логику их взаимодействия реализовать программно.
Решение оказалось на удивление простым – именно избыточность данных нашей базы сыграла нам на руку.
Если отсортировать запросы, имеющие один и тот же таргет, и затем вырезать более короткие из более длинных, то всё множество запросов разделяется на два типа фрагментов: те, что присутствуют в виде самостоятельных запросов, и те, что присутствуют лишь как часть запроса. Например, если исходный список состоит из запросов «ютуб» и «ютуб видео», то в первый список попадёт слово «ютуб», а во второй «видео». Это будут ядро и фон соответственно.
Если взять запросы, ведущие внутрь сайта (например, «райффайзен банкоматы»), и похожим образом «вычесть» из них запросы, ведущие на его корневую страницу («райффайзен»), получим путь.
Попутно считая количества различных фрагментов в исходном списке, мы оставили в базе лишь самые частые — таким образом, для крупных сайтов с множеством ведущих на них запросов удалось выкинуть весь мусор, не потеряв ничего для маленьких.
От хаоса к порядку
В результате мы снова усложнили классификацию: во-первых, вместо одного списка появилось пять, во-вторых, пришлось реализовать нетривиальную логику их сопоставления в запросе.
Сложность процедуры разбиения запросов квадратичная, но оптимизировать её пока не пришлось: простой перловый скрипт справляется с разложением базы менее чем за час.
Отдельно обрабатываются пути, явно прописанные URL, регионы в запросе и реальный регион пользователя. В результате выносится вердикт: является ли запрос навигационным, и куда желает отправиться пользователь.
Ниже приведено схематическое изображение процесса выяснения навигационности запроса «тут зайцев нет»:
А вот загадочный запрос «убить сразу трёх зайцев» — не наш клиент: часть запроса определена как навигация, но также присутствуют какие-то незнакомые (или навигационно несовместимые) слова.
В некоторых (на самом деле очень многих) из таких запросов ненавигационная часть может быть представлена как самостоятельный запрос: «саундтрек сердца трёх зайцев нет», «пелевин на либрусеке», «ютуб вивальди хэвиметал», «шакира в контакте». Это запросы смешанного типа, уже упоминавшиеся в самом начале.
Строго говоря, они не являются навигационными, но, коль скоро мы мимоходом поймали и их, грех не упомянуть.
В отличие от внутрисайтовой навигации, имеющей таргетом статические разделы и страницы сайтов («тфайл книги», «билайн тарифы»), такие запросы требуют ответа, полученного из динамического контента указанного сайта: личных страниц в соцсетях, статей на новостных ресурсах и в энциклопедиях, топиков на форумах и т.д.
В таких запросах мы выявляем навигационную часть, а всё остальное считаем тем, что пользователь желает там найти.
В итоге мы получили ответ на главные вопросы: как много навигационных запросов мы получаем и насколько хорошо на них отвечаем. Краткая сводка изображена на следующих диаграммах:
Итак, от четверти до трети всего потока запросов (зависит от того, учитывать ли локальные поиски) — навигационные. Среди самих навигационных запросов треть ведут на внутренние страницы сайтов, почти каждый десятый зависит от региона пользователя, и целую четверть занимают две самые популярные российские соцсети. Повод задуматься.
Помимо этого, результаты классификации используются при ранжировании результатов «большого» поиска в качестве фактора, на данный момент довольно мощного.
И, наконец, визуальные последствия: для результатов навигационного поиска мы формируем расширенный сниппет, иногда выдаём несколько результатов с искомого сайта, показываем фавиконки, сайтлинки и другие спецэффекты:
В заключение вспомним о по-прежнему не охваченном нами секторе: о тех, кого наши пользователи ещё не искали. Это небольшие региональные организации, узкоспециализированные сайты, локальные сообщества в социальных сетях, личные страницы и, конечно же, только что появившиеся сайты и их разделы. Пусть они маленькие, зато их много, и мы хотим быть готовыми к тому, что однажды кто-то захочет их найти.
Запросов пока нет, и классифицировать, соответственно, нечего. Однако, изучив текст страницы, можно сконструировать запросы, которые должны привести пользователя именно на эту страницу. Для этого необходимо найти такие фрагменты текста страницы, которые однозначно идентифицируют её, и выбрать те из них, которые могут использоваться в качестве навигационного запроса.
Возможно, эта туманная задача таит в себе бездны с драконами. Скорее всего, она потребует других подходов к решению и столкновений с другими подводными камнями. Но тем она и интересна.
Я же на этом закругляюсь, спасибо за внимание и, надеюсь, вам было интересно! В следующей части — рассказ о спеллчекере.
Михаил Долинин,
руководитель группы обработки поисковых запросов