Поисковый алгоритм – математическая модель, которую поисковые системы используют для анализа интересов пользователей, поиска и анализа информации в интернете и в итоге предоставления пользователям информации, наиболее отвечающей их интересам.
В информационном поиске основной смысловой единицей пользовательского интереса (интента) является запрос, который пользователь вводит в поисковую систему. Информация, отвечающая интересу пользователя, называется релевантной. Применительно к поисковому запросу говорят, что информация релевантна запросу пользователя.
Но не только это определяет направленность работы поисковых алгоритмов. Чтобы точнее подстроиться под конкретного пользователя поисковая система учитывает и другие его параметры: регион (н-р, город), пол, возраст и проч. – всё это поисковые алгоритмы научились определять уже достаточно точно.
Таким образом, действие алгоритмов поисковых систем направлено на предоставление конкретному пользователю информации наиболее релевантной его запросу, а также прочим параметрам (регион и др. – см. выше).Поисковая система представляет пользователю не один, а множество ответов на его запрос и выстраивает эти ответы в список – поисковую выдачу. Выше в списке находятся ответы, которые по «мнению» поисковой системы являются самыми релевантными. Такое выстраивание по релевантности (от большей к меньшей) называется поисковым ранжированием.
Вся информация в интернете расположена на страницах сайтов (веб-страницах). Соответственно, в своей выдаче поисковая система представляет пользователю список ссылок на веб-страницы, на которых пользователь получит ответ на свой запрос. Эти ссылки сопровождаются кратким описанием вебстраницы (сниппетом) и ранжируются, как уже сказано, по принципу релевантности. Это ранжирование и есть основная задача поисковых систем – их алгоритмов.
Сегодня поисковые алгоритмы – это уже не просто математические модели, это искусственный интеллект. В алгоритмы закладывается очень большой набор параметров (факторов ранжирования) для анализа интернет-информации, а также довольно сложная математическая модель, которая анализирует вебсайты по этим параметрам. По сути поисковый алгоритм – это не одна, а множество математических моделей (отдельных алгоритмов), работающих совместно и очень гибко – в зависимости от конкретной ситуации, т.е. конкретных параметров со стороны пользователи и со стороны анализируемой информации (сайтов).
Особенностью любого искусственного интеллекта, в т.ч. поисковых алгоритмов, является то, что изначально он не способен самостоятельно решать задачи – например, по подбору и ранжированию релевантной для пользователей информации. Искусственный интеллект, как и человека, необходимо обучить – заложить в него базу знаний и критерии, на основе которых он будет уже действовать самостоятельно, в т.ч. самообучаться (накапливать новые знания). Процесс обучения искусственного интеллекта называется машинным обучением. При настройке работы поисковых алгоритмов в качестве их учителей выступают асессоры – люди, вручную оценивающие сайты и на выходе формирующие и закладывающие соответствующие критерии в работу поисковых алгоритмов.
Механизм работы алгоритмов поисковых систем знают только их разработчики – и то не на все 100%, поскольку после обучения искусственный интеллект начинает принимать самостоятельные решения. То есть, если на определённую позицию своей выдачи поисковая система вывела какой-то сайт (веб-страницу), разработчики не смогут полностью понять, почему система это сделала – вывела именно этот сайт, а не какой-то другой похожий.
Эта проблема является общей в работе любого искусственного интеллекта и называется проблемой чёрного ящика (black-box problem). Её суть в том, что, в отличие от человека, искусственный интеллект не даёт обратной связи, не объясняет свои действия; и найти конкретные причины, по которым машина приняла определённое решение, бывает очень сложно, а часто – невозможно.
Как сказано, основным общим критерием ранжирования информации в поисковой выдаче является её релевантность запросам пользователей. Большинство информации описывается текстами. Соответственно, поисковый алгоритм ищет веб-страницы, тексты которых и дают ответ на запрос пользователя. Основными сигналами при этом служат ключи – слова и фразы в тексте, наиболее подходящие по смыслу под запрос пользователя. Но сегодня искусственный интеллект поисковых систем стал во многом способен распознавать смысл не только отдельных слов и фраз, а целых текстовых блоков. Это явление (технология) называется неявным семантическим индексированием – LSI (latent semantic indexing), когда система распознает общий контекст текстов.
Но одних текстов недостаточно для оценки качества сайта. Алгоритмы поисковых систем также учитывают дизайн, наличие изображений и видео, форматирование контента (разбивку на абзацы, логические блоки и т.д.), читабельность шрифта (н-р, размер), наличие сопутствующих пользовательских сервисов на сайте и т.д. Кроме этого система учитывает скорость загрузки сайта, его адаптированность под различные устройства (компьютеры и мобильные) и прочие технические параметры. Система также учитывает внешние ссылки, ведущие на веб-страницу и сайт в целом, что логически (но не всегда) характеризует авторитетность ресурса. Учитывается возраст страницы и сайта. Всё это – тоже факторы ранжирования, которых существует несколько сотен в поисковой системе.
Особое внимание поисковые алгоритмы уделяют реакции пользователей на информацию (контент) страницы и сайта. Это так называемые поведенческие факторы ранжирования (ПФ). Система отслеживает, читают ли пользователи тексты, смотрят ли видео, скачивают ли какие-то материалы, делают ли иные действия (регистрация, покупка, звонок в компанию и т.д.) – существует много ПФ. Если ПФ хорошие, т.е. реакция пользователей на контент страницы/сайта активная, алгоритм повышает данный ресурс в своей выдаче. Если ПФ не очень хорошие – понижает. ПФ являются самыми главными факторами ранжировании, поскольку именно они характеризуют, нравится ли реально вебсайт пользователям или нет.
В целом здесь приведено очень общее внешнее описание принципов действия поисковых алгоритмов. Как сказано, у каждой поисковой системы их не один, а несколько, и работают они в комплексе. Время от времени сотрудники поисковых систем совершенствуют свои алгоритмы – «выкатывают» их новые версии. Может происходить и текущая настройка («подкрутка») работы уже действующих алгоритмов.
Поисковые алгоритмы существуют не только в общеизвестных поисковых системах Яндекс, Google и Baidu (китайский поисковик). Все социальные площадки (соцсети) также используют внутри себя поиск, алгоритмы которого также по комплексу параметров анализируют аудиторию и контент внутри социальной площадки и предоставляют её пользователям релевантные результаты – наиболее интересный контент. Подобные же технологии реализуются и в других системах, где так или иначе присутствует информационный поиск. Практически во всех этих технологиях поисковые алгоритмы сегодня уже являются искусственным интеллектом, который становится всё более совершенным.
Компания SeoTemple несколько лет и успешно работает в области поисковой оптимизации (SEO) и в целом в области интернет-маркетинга, который также охватывает соцсети и прочие площадки. Мы накопили значительный опыт и знания, в т.ч. о работе поисковых алгоритмов. Поэтому наши специалисты заточат Ваш сайт и Ваш бизнес так, что он будет нравится поисковым система и приносить Вам прибыль.