Новые технологии в поиске, или Cтарые песни о главном
В своих более ранних публикациях я неоднократно указывал в качестве основного недостатка существующих моделей поиска отсутсвие гибкости в оценке запросов, сайтов и, как следствие, неудовлетворительное качество поиска.
Говорить еще раз о причинах такого положения, наверное, не имеет смысла, гораздо интереснее было бы заглянуть в будущее поисковых технологий и попытаться формализовать новую поисковую модель, которая, по моему мнению, рано или поздно будет реализована.
Глубоко убежден, что в основе такой модели должны лежать семантические сети.
Для непосвященных поясняю, что семантической сетью является такая сеть, в узлах которой находятся термины (понятия, образы), а связями в которой являются отношения между терминами.
Почему именно они? Только семантическая сеть позволяет оперировать такими понятиями как "смысл запроса" или "смысл документа" без каких-либо оговорок. В настоящий момент этот "смысл" определяется на основе статистических моделей, которые, к сожалению, и являются источником той самой "негибкости", замеряя лишь среднюю температуру по больнице или в лучшем случае по палате, но не способные спуститься на уровень отдельного больного, т.к. статистика изначально способна оперировать лишь множествами данных, а не их отдельными значениями. И в настоящее время идет лишь процесс совершенствования методики анализа статвыборок с целью увеличения разрешающей способности, но, повторюсь, принципиально подход не меняется.
Приведем простой пример. Возьмем любой запрос, содержащий 2 слова, однозначно идентифицирующие предмет поиска, например, "металлический ключ". Введем этот запрос в Яндексе. В результате в выдаче мы видим всего 2 документа, содержащих информацию о предмете поиска. Остальные предлагают нам шкафы для ключей, книги и антикварные вещицы, что однозначно можно расценивать как низкокачественный результат. Т.е. поисковая система не может определить смысл документа - о ключе он или о шкафе, соответственно выводит все, содержащее нужные ключевые слова.
Теперь попробуем ввести другой запрос - "гаечный глюч". И о чудо, все 10 сайтов в выдаче релевантны запросу. Что, впрочем, и логично - данная выдача сформирована оптимизаторами, т.к. запрос уже относится к области коммерческих. И вот тут становится интересно, а если бы не было оптимизаторов, что бы мы получили по этому запросу? Полагаю, что результат был бы не намного лучше, чем у прошлого запроса.
А теперь представим, что семантические сети задействованы в поиске, что это дает? Дает это прежде всего однозначную идентификацию "смысла" запроса и идентификацию "смысла" документа. Поисковик уже понимает, о ключе или о шкафе идет речь в документе. Также он понимает, что раз пользователь ищет металлический ключ, то его интересуют в том числе медные, стальные, железные, латунные и прочие ключи, которые по своей природе являются металлическими, а значит, не ограничивается тупым подсчетом веса слова "металлический" в документе. Для поиска уже используется более широкая документная база. Сейчас она расширяется путем использования словарей синонимов, что в приципе можно считать зачатками использования семантических технологий, но именно зачатками.
Другим немаловажным моментом является формирование сниппетов. Не секрет, что они оказывают огромное и порой решающее значение при выборе сайта пользователем, а значит, влияют в немалой степени на итоговые оценки качества поиска, т.е. пользователь прежде всего оценивает не сам сайт в выдаче, а его сниппет. О качестве же сниппетов говорить лишний раз не стоит - все и так прекрасно с этим знакомы. Чего, например, стоит такой сниппет в выдаче по запросу "пластиковые окна":
Главная страница О компании Продукция и услуги Статьи Расчет и заказ окон Дилерам и строителям Партнеры Гарантия Фотогалерея Контакты. о пластиковых окнах пластиковые окна монтаж окон калькулятор заявка на кредит
Подозреваю, что CTR у такого сайта сильно отличается от соседей по выдаче, причем не в лучшую сторону. А ведь компания предлагает ровно тоже самое, что и остальные. Примечательно, что пользовательское поведение является обратной связью, использующейся для оценки качества поиска и для его корректировок. Таким образом, методики оценки качества поиска, основывающиеся на пользовательском поведении, в некоторой степени оценивают качество формирования сниппетов, а не самой выдачи.
Что же дают нам семантические технологии в этой области? Прежде всего, сниппет из набора не всегда адекватных цитат, выдернутых из контекста превратится в сжатый мини-реферат документа в контексте запроса, сохраняя всю его смысловую нагрузку, а значит, позволяя пользователю оценить смысл документа, а возможно и сразу получить необходимую информацию. Последняя возможность еще интересна тем, что будет совершенно автоматической и не требующей дополнительных интеллектуальных затрат по созданию армии всевозможных колдунщиков, которыми поисковики сейчас набивают поиск, пытаясь исправить недостатки существующих моделей под девизом: "Не можем найти, так сделаем вручную". Вообще это все сильно напоминает кустарное производство средних веков. Собственно, все современные технологии в поиске можно смело переносить на реалии Средневековья. Санкции к сайтам - Инквизиция; улицы Европы, утопающие в нечистотах из-за отсутствия канализации - дорвеи; поисковики, пишущие "туманные" лицензии на поиск - монархия и т.д., продолжать список соответствий можно бесконечно. Апогеем всего этого, как я считаю, стал Матрикснет, результат работы которого стал настолько непредсказуем, что знать его не могут даже сами разработчики.
Интересно, кто-нибудь из читателей согласился бы, к примеру, ездить на автомобиле, реакцию которого на управляющие воздействия не могут предсказать даже его создатели? Т.е. в норме если вы нажимаете на тормоз, машина должна тормозить. Но в ряде случаев реакция может быть иная, например машина начнет ускоряться. В этом случае напишите нам через форму обратной связи и мы в течение месяца разберемся с этой проблемой, а вы пока научитесь тормозить нажимая на педаль газа, поворачивая одновременно руль вправо. Полагаю, что создание такого автомобиля в принципе было бы абсурдно и невозможно.
Однако в поиске почему-то это считается нормальным, и миллионы пользователей должны пользоваться им. Впрочем, это, наверное, в духе российских реалий. Наши автопроизводители тоже любят выпускать бета-версии автомобилей на дороги и тестировать их на потребителях.
Возвращаясь к семантическим технологиям и их плюсам невозможно обойти проблематику мусора в индексе: миллионы дорвеев, автоматически синонимизированного и вручную рерайченого говноконтента уже давно выплескиваются через край чаши Рунета, регулярно затапливая выдачу и формируя застойные гниющие болота в переулках низкочастотных запросов. Поисковики плещутся в этом, пытаясь между рерайчеными и синонимизированными копиями статьи из Большой Советской Энциклопедии определить оригинал. Их настойчивости в этом, несомненно, нелегком труде можно было бы аплодировать стоя в театре абсурда, если бы не хотелось неудержимо рыдать под креслом.
А что же, спросите, предлагают семантические технологии? А они предлагают совершить маленькую революцию в нашем Средневековье - создать канализацию. И когда очередной дорвееписатель отправляет естественную нужду очередной дорвей в сеть, он в нее попадет, только это будет «канализационная» сеть. Семантический анализ документов позволяет абсолютно достоверно выявлять как неестественные, сгенерированные тексты, так и низкокачественный рерайт. Более того, даже документ с хорошим рерайтом может быть и будет определен как копия, т.к. его смысловая часть нисколько не меняется, а именно она является сутью документа, а не использованый набор слов и их относительные веса. Таким образом, мы априрори получаем чистую выдачу по любым запросам, т.к. мусора нет в индексе и быть не может.
В качестве резюме хочется сказать, что я нисколько не сомневаюсь в том, что поисковики ведут разработки в области семантических технологий и рано или поздно модель поиска, использующая их, будет представлена пользователям. Поэтому всем оптимизаторам я предлагаю задуматься уже сейчас над этим. Особенно это касается тех, кто активно использует модное нынче статейное продвижение. И хорошо, если эти статьи действительно качественный копирайт, а если нет? В одночасье можно остаться без всей "качественной" ссылочной массы. Так что в корне неправы те, кто говорят о вечных ссылках, получаемых таким образом. Век этих ссылок может оказаться недолгим, ведь семантические технологии будут внедряться постепенно, по мере их развития. И одним из первых фронтов их внедрения, как мне кажется, будет фронт борьбы с информационным мусором, которого благодаря новым алгоритмам поисковиков накопилось немало. Они его породили, им его и убивать.
Advertology.Ru
10.06.2010
Комментарии
Написать комментарий