Page Rank в эпоху Web 2.0 — Часть 1 -7


image

Выборы проводятся для того, чтобы узнать, чей предвыборный прогноз оказался точнее. (с) Роберт Орбен
Чтобы оценить вклад компании Google в развитие поисковых систем, нужно переместится примерно на 20 лет назад. В те смутные времена, количество информации в интернете было в сотни раз меньше чем сейчас, но сам поиск нужной информации был куда сложнее. Пользователь мог проводить долгое время на сайте поисковика, пробуя формулировать по разному запрос к поисковой системе и все еще не получать нужного результата. Существовали даже агенства, которые предлагали свои услуги по поиску в интернет за деньги. На заре поисковых систем важность страницы определялась множеством субъективных факторов, вроде html разметки, количества терминов, заголовков и жирностью шрифта на странице. Не редко специально созданная страница или копия оригинальной страницы, наполненная нужными заголовками и терминами оказывалась в выдаче топ. При этом с точки зрения человека она не имела совершенно никакого смысла, но имела очень высокий рейтинг в поисковой системе.

В 1997 году двумя студентами Стэндфордского университета был предложен знаменитый алгоритм Page Rank. По сути это тот редкий случай, когда инженеры выпрыгнули из многолетнего болота и нашли простое элегантное решение, которое за один простой шаг закрыло стопку проблем и предрешило исход битвы межу CEO специалистами и поисковиками на много лет вперед. Суть Page Rank – это «демократия» в мире Веб. Каждая страница на сайте, которая содержит ссылку на другой сайт, «голосует» за него. Таким образом в топ подымаются наиболее часто цитируемые, авторитетные сайты первоисточники. Page Rank помогает поднять в топ наиболее популярные сайты, которые как пузырьки воздуха в воде, всплывают на основе «мнения» большого количества менее популярных сайтов. Такая схема хорошо работала в экосистеме начала 2000-х, где доминировали небольшие интернет сайты, наполнение которых занимались веб мастера и контент менеджеры. С приходом Веб 2.0 основным источником информации в интернете стали сами пользователи интернета что видоизменило интернет. Во-первых, огромный поток информации от пользователей привел к тому, что появились гигантские сайты с миллионами, а иногда десятками и сотнями миллионов страниц. Во-вторых, сайты начали содержать большое количество неструктурированной и не адаптированной информации для поисковиков, большое количество локальных мемов и синтаксических ошибок. Однажды созданная тема, скажем на форуме или в блоге под одним заголовком, может легко перейти в другую область для обсуждения. При поиске на таких сайтах, основная проблема уже не в определить авторитетность сайта, а правильно проранжировать страницы внутри самого сайта, ведь теперь под поисковый запрос могут попасть сотни и тысячи страниц. Конечно же, в таких случаях Page Rank не работает и многие поисковые системы использует приемы из «до гугловской» эпохи, вроде анализа заголовков, тегов и тд.

В следующей части я расскажу, можно ли обойти эту проблему с помощью машинного обучения, как заставить машину ранжировать страницы внутри самого сайта учитывая его уникальную терминологию на примере поиска по этому сайту.




К сожалению, не доступен сервер mySQL