Поисковое продвижение

Самым желанным посетителем является тот человек, с которым получилось вступить в нормальный диалог, ставший взаимовыгодным для обеих сторон. Это становится возможным лишь в том случае, если он является не обычным прохожим, а человеком, который действительно заинтересован в каком-либо вашем продукте.

Первым этапом решения какого-либо рода задач выступает нахождение необходимых вариантов для их непосредственно выполнения. Поэтому большая часть визитов в интернет первоначально происходит с посещения поисковой системы. Одной из самых известных во всем мире в этом сегменте является поисковая система Google, но если же говорить о Рунете, то здесь большее внимание завоевал Яндекс. По собственным данным этой системы, ее посещают около 35 миллионов человек, из которых почти 25 миллионов пользуются поиском.

Какова роль поисковых систем

Свой интерес пользователи проявляют в поисковиках при помощи набора своего запроса в поиске. Какие именно они увидят интернет-ресурсы на свои запросы, полностью определяется поисковиками и, по каким критериям это происходит, не афишируется.

Именно благодаря этому возникает такая необходимость, как поисковое продвижение. Веб-сайт должен полностью соответствовать всем ожиданиям посетителей, а также отвечать всем необходимым требованиям поисковиков. Главной целью профессионалов в продвижении поисковыми системы является приведение веб-ресурса в гармонии с пожеланиями пользователей.

Как работают поисковики

Практически любой поисковик мы можем представить себе в виде нескольких совокупных вместе программ. К ним относятся: различные поисковые роботы, обработчик запросов посетителей и индексация документов. Для прямого общения с людьми системы зачастую использует интерфейс, предоставляющий необходимые результаты запроса. Главной целью поискового робота является сбор адресов страниц, при помощи которых будет происходить индексация и выкачивание этих страниц. Начальный список адресов, содержащий одни из самых популярных сайтов, загружается в ручную – разработчиками.

Также следует учитывать то, что страницы, на которые нет ни одной ссылки, никогда не просматривается поисковым роботом в автоматическом порядке. В этом случае нам необходимо добавить ее в ручную в список, содержащий начальные адреса веб-ресурсов. Для этого необходимо воспользоваться сервисами регистрации новых страниц сайта, которые предоставляются разработчиками того или иного поисковика.

задачи роботов поисковиков

Давайте ниже рассмотрим приведенные примеры существующих имен в поисковой системе Яндекс с не большим описанием некоторых задач:

имена в базе Яндекса

Какие особенности имеют веб-документы, собираемые роботами

Особенности веб документов

Весь новый текстовый материал, который только появляется в системе и был выкачан поисковыми роботами, сразу же отправляется индексатору. Для составления индекса необходимо отобрать все слова из переданного текста и разместить их соответственно алфавиту не упуская при этом нумерацию страниц и всей нужной информацией о них. Основными действиями индексатора являются:

  • Конверсия в чистый текст. Это значит, что происходит удаление не нужной графики, видео и многих других элементов.

  • Подборка слов. На данном этапе следует определиться со значением слова для поисковой системы. Отдельной группой выделены все стоп-слова, такие как союзы, цифры, предлоги и сокращения. Раньше для того чтобы сэкономить ресурсы такие слова не проходили процесс индексации, но на данный момент стоп-слова присутствуют в индексе.

  • Лингвистическая обработка. Алгоритм, позволяющий получить начальные грамматические формы, называется машинной морфологией. Получение начальной формы имеет достаточно много различных минусов, которые связаны с устройством языка.

  • Внесение в индекс. Сотрудничество пользователей и поисковых машин зачастую происходит при помощи веб-интерфейса. Посетитель системы может с легкостью водить необходимый ему запрос в поисковой строке и корректировать настройки поиска. В отсеет на эти действия поисковик выполняет работу над обработкой запроса, находит похожие результаты и ранжирует их специальным образом. К предварительной работе в основном относят правку опечаток, определение типа запросов, а также поиск различных синонимов.

  • Релевантность. Данное определение подразумевает под собой соответствие содержания документа информационной нужде посетителя. Необходимо помнить, что для поисковых машин довольно-таки затруднительно правильно определить действительное соответствие документа потребностям пользователя.

Типы целевых запросов

Как правильно подобрать релевантные документы

Подбор подходящих документов происходит при помощи построенного обратного индекса. Поисковик под название Яндекс также использует фильтрацию по кворуму. Главной идей кворума является отсечение всех документов, которые изначально небыли релевантными , где кворум выступает в роли некоторого порога, при достижение его определенного уровня документ допускается к ранжированию.

Одним из существующих способов провести математический расчет вес слова можно по формуле. Тогда кворум описывается следующим образом:

кворум

где Softness – это изменяемый параметр, а QL – длина запроса в словах, можно сформулировать функцию, выполняющая фильтрацию в виде:

Функция фильтрации

где Q – это запрос, D – документ, а w(q) – веса слов, выражаемые как

формула

где DFq являются частотой слова в поисковой системе.

Следующим этапом работы поисковой системы являются ранжирование или как еще говорят по другому, упорядочение результатов поиска по их схожести. В этом момент поисковой системой выполняется строение функции релевантности, где сопоставляются между собой две пары «документ-запрос» и «степень релевантности документа относительно к запросу». Точные методы построение такой функции являются коммерческой тайной поисковика, но существует три пути, благодаря которым можно узнать достоверные знания об основных принципах работы любого ранжирующего алгоритма.

Как работают классические модели поиска

В булевой модели поиска обычно происходит обработка запросов, построенных при помощи логических операторов, к примеру таких как И, ИЛИ, НЕ. После обработки индекс поисковика выглядит в виде матрицы инцидентности, где все строки полностью соответствуют словам, а столбцы документам. Поиск релевантных документов можно с легкостью провести при помощи выполнения логических операций, со столбцами матрицы.

матрица инциндентности

Главной проблемой булевой модели является отсутствие ранжирования. В векторной модели релевантность выступает в роли аналога расстояния между документом и запросом. Зачастую векторы размерены на равные количества различных слов в поисковой коллекции, и каждый из компонентов четко соответствует частоте повторения слов в документе или запросе.

Давайте рассмотрим, как модель поиска может оперировать двумя самыми важными параметрами в информационном поиске:

два важных параметра поиска

где N – это количество документов коллекции, N1 – количество документов, которые содержат слово t.

Если же мы будем использовать весовые произведения, по словам в самом документе или запросе, то сможем получить простую функцию релевантности в векторной модели:

функция релевантности

Что такое принцип вероятностного ранжирования

принцип вероятности ранжирования

Формально задача, выполняющая вероятностное ранжирование формулируется, как задача оптимизации, в процессе которой документы отображается в результатах поиска только в том случае, если его добавление никак не поспособствует снижению общей стоимости возвращаемых результатов. Для того чтобы построить функции релевантности обычно используют несколько допущений, которые являются довольно важными. Первые два из них не будут считаться верными в общем случае.

допущения

Одной из самых известных формул ранжирования является Okapi BM25, которая впервые была использована в 1980-1990 году в поисковике Okapi. Данная формула применяет характеристики tf,idf, а также относительные длины документа. Оценку релевантности отдельного документа считают суммой весов термов запроса в документе.

сумма весов запросов

где веса вычисляются следующим образом:

вычисление весов

Немного позже классическая формула Okapi BM25 была усовершенствована и названа как Okapi BM25F, которая учитывает месторасположение слов запроса в самом документе. Документы разбивают на различные области, к примеру, заголовок документа, основной текс и для каждой области задается свой вес.

Веса слов в документе запрашиваемые пользователем равняются

веса слов запрашиваемые пользователем

где взвешенные длины - взвешенные длины.

На чем основаны языковые модели

Основой языковых моделей является теория связи Шеннона. В данной модели происходит оценка вероятности введенного пользователем запроса с целью получения рассматриваемого документа. Это имеет некий смысл, потому как пользователь при формировании своего запроса опирается на то, что он хотел бы увидеть. Простейшая униграммная модель проводит оценку документа на то, соответствует ли он запросу как:

оценка соответствия

Поэтому если документ не содержит в себе хотя бы одно слова из запроса P(Q D) = 0. Для того чтобы это не произошло необходимо применять «резервную модель, основной задачей которой является сглаживание функции.

сглаживание функции

где С –некая языковая модель, а – нормирующий коэффициент, который подбирается так, чтобы сумма вероятностей равнялась 1. Использую следующую функцию сглаживания

функция сглаживания

где формула

Главным преимуществом языковой модели является более гибкое использование свойств естественно языка.

Какие дополнительные метрики наиболее популярны

дополнительные метрики

К последнему пункту относятся технологии PageRank от Google, тИЦ и вИЦ от Яндекс. Принцип авторитетности ссылок может выражаться следующим образом: если страница А ссылается на страницу В, то А считает , что В является важной страницей. Если же на страницу указывает множество различных важных ссылок, то ее ссылки на какие-либо другие страницы также будут становиться одними из важных. При этом текст самой ссылки не учитывается.

Данная технология имеет один недостаток. Им является то, что не все ссылки выступают в качестве рекомендательных. Они могут быть установлены как навигационный элемент между разными страницами сайта или услугой. Также при помощи ссылок люди могут вести активное воздействие на поисковики, понижая тем самым эффективность показателей авторитетных ссылок.