Новые технологии в поиске, или Cтарые песни о главном

В своих более ранних публикациях я неоднократно указывал в качестве основного недостатка существующих моделей поиска отсутсвие гибкости в оценке запросов, сайтов и, как следствие, неудовлетворительное качество поиска.

Говорить еще раз о причинах такого положения, наверное, не имеет смысла, гораздо интереснее было бы заглянуть в будущее поисковых технологий и попытаться формализовать новую поисковую модель, которая, по моему мнению, рано или поздно будет реализована.

Глубоко убежден, что в основе такой модели должны лежать семантические сети.
Для непосвященных поясняю, что семантической сетью является такая сеть, в узлах которой находятся термины (понятия, образы), а связями в которой являются отношения между терминами.

Почему именно они? Только семантическая сеть позволяет оперировать такими понятиями как "смысл запроса" или "смысл документа" без каких-либо оговорок. В настоящий момент этот "смысл" определяется на основе статистических моделей, которые, к сожалению, и являются источником той самой "негибкости", замеряя лишь среднюю температуру по больнице или в лучшем случае по палате, но не способные спуститься на уровень отдельного больного, т.к. статистика изначально способна оперировать лишь множествами данных, а не их отдельными значениями. И в настоящее время идет лишь процесс совершенствования методики анализа статвыборок с целью увеличения разрешающей способности, но, повторюсь, принципиально подход не меняется.

Приведем простой пример. Возьмем любой запрос, содержащий 2 слова, однозначно идентифицирующие предмет поиска, например, "металлический ключ". Введем этот запрос в Яндексе. В результате в выдаче мы видим всего 2 документа, содержащих информацию о предмете поиска. Остальные предлагают нам шкафы для ключей, книги и антикварные вещицы, что однозначно можно расценивать как низкокачественный результат. Т.е. поисковая система не может определить смысл документа - о ключе он или о шкафе, соответственно выводит все, содержащее нужные ключевые слова.

Теперь попробуем ввести другой запрос - "гаечный глюч". И о чудо, все 10 сайтов в выдаче релевантны запросу. Что, впрочем, и логично - данная выдача сформирована оптимизаторами, т.к. запрос уже относится к области коммерческих. И вот тут становится интересно, а если бы не было оптимизаторов, что бы мы получили по этому запросу? Полагаю, что результат был бы не намного лучше, чем у прошлого запроса.

А теперь представим, что семантические сети задействованы в поиске, что это дает? Дает это прежде всего однозначную идентификацию "смысла" запроса и идентификацию "смысла" документа. Поисковик уже понимает, о ключе или о шкафе идет речь в документе. Также он понимает, что раз пользователь ищет металлический ключ, то его интересуют в том числе медные, стальные, железные, латунные и прочие ключи, которые по своей природе являются металлическими, а значит, не ограничивается тупым подсчетом веса слова "металлический" в документе. Для поиска уже используется более широкая документная база. Сейчас она расширяется путем использования словарей синонимов, что в приципе можно считать зачатками использования семантических технологий, но именно зачатками.

Другим немаловажным моментом является формирование сниппетов. Не секрет, что они оказывают огромное и порой решающее значение при выборе сайта пользователем, а значит, влияют в немалой степени на итоговые оценки качества поиска, т.е. пользователь прежде всего оценивает не сам сайт в выдаче, а его сниппет. О качестве же сниппетов говорить лишний раз не стоит - все и так прекрасно с этим знакомы. Чего, например, стоит такой сниппет в выдаче по запросу "пластиковые окна":

Главная страница О компании Продукция и услуги Статьи Расчет и заказ окон Дилерам и строителям Партнеры Гарантия Фотогалерея Контакты. о пластиковых окнах пластиковые окна монтаж окон калькулятор заявка на кредит

Подозреваю, что CTR у такого сайта сильно отличается от соседей по выдаче, причем не в лучшую сторону. А ведь компания предлагает ровно тоже самое, что и остальные. Примечательно, что пользовательское поведение является обратной связью, использующейся для оценки качества поиска и для его корректировок. Таким образом, методики оценки качества поиска, основывающиеся на пользовательском поведении, в некоторой степени оценивают качество формирования сниппетов, а не самой выдачи.

Что же дают нам семантические технологии в этой области? Прежде всего, сниппет из набора не всегда адекватных цитат, выдернутых из контекста превратится в сжатый мини-реферат документа в контексте запроса, сохраняя всю его смысловую нагрузку, а значит, позволяя пользователю оценить смысл документа, а возможно и сразу получить необходимую информацию. Последняя возможность еще интересна тем, что будет совершенно автоматической и не требующей дополнительных интеллектуальных затрат по созданию армии всевозможных колдунщиков, которыми поисковики сейчас набивают поиск, пытаясь исправить недостатки существующих моделей под девизом: "Не можем найти, так сделаем вручную". Вообще это все сильно напоминает кустарное производство средних веков. Собственно, все современные технологии в поиске можно смело переносить на реалии Средневековья. Санкции к сайтам - Инквизиция; улицы Европы, утопающие в нечистотах из-за отсутствия канализации - дорвеи; поисковики, пишущие "туманные" лицензии на поиск - монархия и т.д., продолжать список соответствий можно бесконечно. Апогеем всего этого, как я считаю, стал Матрикснет, результат работы которого стал настолько непредсказуем, что знать его не могут даже сами разработчики.

Интересно, кто-нибудь из читателей согласился бы, к примеру, ездить на автомобиле, реакцию которого на управляющие воздействия не могут предсказать даже его создатели? Т.е. в норме если вы нажимаете на тормоз, машина должна тормозить. Но в ряде случаев реакция может быть иная, например машина начнет ускоряться. В этом случае напишите нам через форму обратной связи и мы в течение месяца разберемся с этой проблемой, а вы пока научитесь тормозить нажимая на педаль газа, поворачивая одновременно руль вправо. Полагаю, что создание такого автомобиля в принципе было бы абсурдно и невозможно.

Однако в поиске почему-то это считается нормальным, и миллионы пользователей должны пользоваться им. Впрочем, это, наверное, в духе российских реалий. Наши автопроизводители тоже любят выпускать бета-версии автомобилей на дороги и тестировать их на потребителях.

Возвращаясь к семантическим технологиям и их плюсам невозможно обойти проблематику мусора в индексе: миллионы дорвеев, автоматически синонимизированного и вручную рерайченого говноконтента уже давно выплескиваются через край чаши Рунета, регулярно затапливая выдачу и формируя застойные гниющие болота в переулках низкочастотных запросов. Поисковики плещутся в этом, пытаясь между рерайчеными и синонимизированными копиями статьи из Большой Советской Энциклопедии определить оригинал. Их настойчивости в этом, несомненно, нелегком труде можно было бы аплодировать стоя в театре абсурда, если бы не хотелось неудержимо рыдать под креслом.

А что же, спросите, предлагают семантические технологии? А они предлагают совершить маленькую революцию в нашем Средневековье - создать канализацию. И когда очередной дорвееписатель отправляет естественную нужду очередной дорвей в сеть, он в нее попадет, только это будет «канализационная» сеть. Семантический анализ документов позволяет абсолютно достоверно выявлять как неестественные, сгенерированные тексты, так и низкокачественный рерайт. Более того, даже документ с хорошим рерайтом может быть и будет определен как копия, т.к. его смысловая часть нисколько не меняется, а именно она является сутью документа, а не использованый набор слов и их относительные веса. Таким образом, мы априрори получаем чистую выдачу по любым запросам, т.к. мусора нет в индексе и быть не может.

В качестве резюме хочется сказать, что я нисколько не сомневаюсь в том, что поисковики ведут разработки в области семантических технологий и рано или поздно модель поиска, использующая их, будет представлена пользователям. Поэтому всем оптимизаторам я предлагаю задуматься уже сейчас над этим. Особенно это касается тех, кто активно использует модное нынче статейное продвижение. И хорошо, если эти статьи действительно качественный копирайт, а если нет? В одночасье можно остаться без всей "качественной" ссылочной массы. Так что в корне неправы те, кто говорят о вечных ссылках, получаемых таким образом. Век этих ссылок может оказаться недолгим, ведь семантические технологии будут внедряться постепенно, по мере их развития. И одним из первых фронтов их внедрения, как мне кажется, будет фронт борьбы с информационным мусором, которого благодаря новым алгоритмам поисковиков накопилось немало. Они его породили, им его и убивать.

Алексей Кравцов, блог «Философия оптимизатора»
Advertology.Ru

10.06.2010

Жестко, но справедливо.
В пылу конкурентной борьбы за первые места в выдаче, будет сломлен барьер семантической обороны. На баррикады взойдут оптимизаторы!
Если ПС смотрит на нас, то и мы смотрим на него!
Нас больше!

as.is

13.06.2010 13:37 | сообщение #2

Алексей Кравцов, блог «Философия оптимизатора» писал(а):

Подозреваю, что CTR у такого сайта сильно отличается от соседей по выдаче, причем не в лучшую сторону. А ведь компания предлагает ровно тоже самое, что и остальные. Примечательно, что пользовательское поведение является обратной связью, использующейся для оценки качества поиска и для его корректировок. Таким образом, методики оценки качества поиска, основывающиеся на пользовательском поведении, в некоторой степени оценивают качество формирования сниппетов, а не самой выдачи.

ctr одно, продажи - другое.

По поводу матрикснет - технология конечно УГ, матрикснет - пользователю яндекса - никаких преимуществ не даёт, оптимизаторам тоже пользы никакой (скорее даже наоборот - увеличивает затраты на вывод запросов в топ и формирорвание вменяемого сниппета). Но из этого обсолютно не следует, что это не выгодно самому продажному поисковику рунета, так как я.директ никто не отменял.

	Эффективность мобильных кампаний сейчас зависит от грамотного...
Генеральный директор агентства мобильного маркетинга Mobisharks (входит в ГК Kokoc Group) — об эффективном мобильном маркетинге и примерах успешных стратегий.
	Как банки в рекламе ищут новые смыслы и старые ценности
За последние пару лет реклама банков изменилась. Появились новые сюжеты и герои. Реклама по-прежнему — не только инструмент продвижения услуг, но и способ формирования доверия к финансовым организациям. Главный тренд, который отмечают эксперты,— переход от сухого перечисления выгод к эмоционально окрашенным коммуникациям.
	Антитренды наружной рекламы
Антитрендами наружной рекламы в текущем году стали прямолинейность и чрезмерная перегруженность сообщений. Наружная реклама продолжает показывать рост: число рекламных конструкций за последний год увеличилось более чем на 2 тысячи.
	Мария Бар-Бирюкова, Sellty: продажи на маркетплейсах не заменят...
В компании Sellty спрогнозировали развитие рынка электронной коммерции в сегменте СМБ на ближайший год. По оценке основателя Sellty Марии Бар-Бирюковой, число собственных интернет-магазинов среднего, малого и микробизнеса продолжит расти и увеличится минимум на 40% до конца 2025 года. Компании будут и дальше развиваться на маркетплейсах, но станут чаще комбинировать несколько каналов продаж.
	Более двух третей представителей сферы рекламы, маркетинга и PR...
10 сентября – Всемирный день психического здоровья. Специально к этой дате компания HINT опросила коллег в сфере маркетинга, рекламы и пиара, чтобы понять, как представители этих профессий могут помочь себе и другим поддержать в норме психическое здоровье.

	Дизайн под грифом "секретно"
На чем раньше ездили первые лица страны? Эскизы, редкие фотографии и прототипы уникальных машин.
	"Наша индустрия – самодостаточна": ГПМ Радио на конференции...
Чего не хватает радио, чтобы увеличить свою долю на рекламном рынке? Аудиопиратство: угроза или возможности для отрасли? Каковы первые результаты общероссийской кампании по продвижению индустриального радиоплеера? Эти и другие вопросы были рассмотрены на конференции «Радио в глобальной медиаконкуренции», спикерами и участниками которой стали эксперты ГПМ Радио.
	Форум "Матрица рекламы" о технологиях работы в период...
Деловая программа 28-й международной специализированной выставки технологий и услуг для производителей и заказчиков рекламы «Реклама-2021» открылась десятым юбилейным форумом «Матрица рекламы». Его организовали КВК «Империя» и «Экспоцентр».
	В ЦДХ прошел День социальной рекламы (3)
28 марта в Центральном доме художника состоялась 25-ая выставка маркетинговых коммуникаций «Дизайн и реклама NEXT». Одним из самых ярких её событий стал День социальной рекламы, который организовала Ассоциация директоров по коммуникациям и корпоративным медиа России (АКМР) совместно с АНО «Лаборатория социальной рекламы» и оргкомитетом LIME.
	Форум "Матрица рекламы": к рекламе в интернете особое... (2)
На VII Международном форуме «Матрица рекламы», прошедшем в ЦВК «Экспоцентр» в рамках международной выставки «Реклама-2018», большой интерес у профессиональной аудитории вызвала VI Конференция «Интернет-реклама».

Статьи

Новые технологии в поиске, или Cтарые песни о главном

Комментарии

Написать комментарий

Интервью

Анализ рынков

Архив

Рассылка

Подписка на рассылку

Также нашу рассылку вы можете получать через

Есть мнение ...

Книги по дизайну

Репортажи

Форум

E-mail: