Как работают поисковые машины. Часть 1

Поисковая система – это программа с веб-интерфейсом, предоставляющая возможность пользователям удобно отыскивать информацию, размещенную в Интернете. Опишем принцип работы. Не будем рассматривать детально, дадим упрощенный ответ, чтобы понимать этапы действия (без упоминания технических параметров, ненужных обычному пользователю).

Индексация

Что предоставлять посетителю Сети ответы на запросы в виде ссылок, содержащих необходимое, поисковики должны обладать информацией о контенте страниц. Чтобы получить такие данные, необходимо посетить все разделы любого сайта и сохранить информацию. Как это сделать?

Интернет – это сеть, формирующаяся из страниц, которые в свою очередь имеют ссылки друг на друга. Поисковику нужно владеть информацией о нескольких адресах больших рейтингов и каталогов сайтов, чтобы получить данные о страницах для будущего закачивания.

Задание поисковиков систем – провести подобие предметного указателя, где будут заложены все адреса существующих страниц Интернета. Если ваш сайт никому не известен, нет на него переходов и ссылок, то у поисковой системы возникнут сложности в его нахождении и индексации.

После составления списка страниц, поисковая система проводит работу над скачиванием данных и информации с этих ресурсов. Этот процесс получил название индексация. Специально разработанные программки получают новую информацию или перезаписывают старые, заменяя новыми данными, убирают мусор и переносят информацию в базу данных. Проверка Паутины не останавливается ни на минуту.

Программы, что непрерывно проводят действие сканирования сайтов, собирают новые показатели в временное хранилище; когда таких данных накапливается необходимое количество, тогда происходит процесс апдейт. По своему принципу – это обновление информации из основной базы, где происходит хранение всех результатов поисковой системы. Таким образом, она видоизменяется благодаря данным, собранным сканерами.

Алгоритм

Все поисковые системы содержат в индексе миллиарды документов. Когда юзер делает запрос, поисковая машина из собственной базы данных отбирает необходимые страницы, вмещающие информацию на этих запросы. Проще говоря, изымаются списки адресов, на ресурсах которых есть заданные ключевые слова пользователем.

Результатом выборки программы становится большой перечень страниц, что могут удовлетворить запросы пользователя. Исходный вопрос: какие страницы отобразить первыми, какие – вторыми? Страницы сортируются ранжированием, распределяющим их по полноте предоставляемой информации на данные запросы. Чем более подходящий контент, тем сайты будут иметь выше положение в местах поиска.

Сейчас часто поисковые системы используют машинное обучение для ранжирования ресурсов в результатах выдачи. Можно просмотреть процесс действия этого алгоритма на таком абстрактном примере.

Вообразим, что есть необходимость научить робота выполнять определение спелых и плохих яблок. Роботу свойственно определять по нескольким параметрам свойства фрукта.

свойства яблока

Роботу предоставляется для проведения анализа два фрукта (яблока): нормальное и плохое. Он проводит сравнение. Дальше проводим обучение машины: объясняя, что относиться к положительным характеристикам, каким должен быть фрукт, нужные параметры. Даем описание плохого продукта, показываем его характеристики.

Мы получаем алгоритм, на основе которого проводиться анализ яблока, робот с большой вероятностью правильно рассортирует их. Теперь можно дать много этих фруктов, робот будет автоматически делить на два вида – нормальные и плохие.

Такой механизм работы заложен в поисковиках. Создан отдел специально обученных сотрудников, что занимаются обучением алгоритма сортировки. В ручном режиме они просматривают страницы сайтов по запросам, сортируют их на хорошие и плохие – релевантные и нерелевантные. По такой разметке и анализе более 800 характеристик выполняется обучение механизма поиска. Робот проходит стадию обучения, где он учится различать релевантные сайты от противоположных. Дальше он самостоятельно определяет степень релевантности всех страниц Интернета по запросам пользователей.

Цифра, определяющая релевантность, - дробное число. Отобранным по запросу страницам в список присваивается цифра релевантности. Затем проводиться сортировка списка по значимости релевантности – и так получается перечень страниц, где на первых местах более релевантные сайты.

Кроме главного алгоритма, есть много дополнительных, имеющих возможность повлиять на поисковые результаты. К примеру, в итогах выборки могут присутствовать картинки, видеоролики и прочее. Некоторые фильтры могут удалять страницы из поисковой выдачи. Такие фильтры используются для недобросовестных ресурсов, замеченных поисковиками в действиях, влияющих на алгоритм поиска.