Поиск в полнотекстовых базах данных на основе лексического образа проблемы

Автор:
Кузнецов Сергей Валентинович

Дата доклада:
26.03.97

Организация:
Инвента

С.В.Кузнецов,
Генеральный директор ТОО "Инвента"

ПОИСК В ПОЛНОТЕКСТОВЫХ БАЗАХ ДАННЫХ
НА ОСНОВЕ ЛЕКСИЧЕСКОГО ОБРАЗА ПРОБЛЕМЫ

В каждый момент нашей жизни мы принимаем решения. Чтобы не попасть впросак, стараемся учитывать чужой опыт. Но жизнь невозможно описать сухими столбцами цифр, поэтому подавляющая часть информации, которую мы должны учитывать, содержится внутри обычных текстов.
Развитие глобальных компьютерных сетей (ИНТЕРНЕТ) решило проблемы доступа к любой информации (текст, числовые данные, неподвижные изображения, видео и звук). Только российский сегмент сети по состоянию на начало 1997 года включает более 5.000 компьютеров - более миллиарда страниц текста. Возможности получить информацию стали просто ошеломляющими. Только вот вопрос - как в этом море документов найти то, что нужно и что можно проанализировать за ограниченный отрезок времени, да и размер отдельных документов может быть весьма значительным. Остановимся более подробно на проблеме содержательного поиска информации в текстах.
В подавляющем числе случаев мы затрудняемся хотя бы сформулировать волнующую нас проблему, и тем более плохо себе представляем возможные пути ее разрешения. Кроме того, мы смутно догадываемся, что ситуация меняется день ото дня в зависимости от состояния окружающей нас среды, но мы просто не в состоянии уследить за этими изменениями, порой весьма существенными.
Поскольку объемы информации запредельны, мы можем рассчитывать на некоторый успех, например, по сравнению с конкурентами, только используя современные программные средства.
Попробуем оценить возможности информационных технологий как для уточнения (и возможно снятия) произвольной проблемы и постановки задач, так и для содержательного поиска информации - уже готовых решений или ценных сведений (идей) для самостоятельного принятия решения.
Для анализа проблемной ситуации могут использоваться методы (принципы) специального раздела системного анализа - целеполагания. По идее программа типа экспертной системы (реально работающие системы в России нам не известны, хотя в свое время был разработан пилотный проект) последовательно задает потребителю на его родном (естественном) языке серию вопросов и либо сразу снимает проблему, либо переформулирует проблемы собеседника в конкретные задачи, решение которых достаточно реально. В отдельных случаях может быть предложен несколько принципов (методов) решения сформулированной задачи. Также может быть автоматически сформировано поисковое предписание либо с использованием возможностей гармоничной системы из 6-7 классификаторов, либо для программы поиска непосредственно в текстах (об этом речь пойдет дальше). Пользователь уходит удовлетворенный, в лучшем случае сняв проблему или получив метод ее решения, в худшем случае забрав для анализа небольшую толику фрагментов текстов для подготовки решения.
Как обстоят дела на практике? Для решения задачи поиска информации по содержанию пользователю обычно предлагается не более двух методов. Первый основан на использовании различных механизмов поиска групп символов (полных слов или их фрагментов) в текстах документов с учетом нескольких логических условий или их комбинаций (одновременное присутствие в документе нескольких терминов, отсутствие термина или альтернатива присутствия любого из выбранных терминов в одном тексте).
К сожалению, слово само по себе многозначно и его присутствие в тексте с точки зрения содержательности найденных документов дает не много. В России, например, более 50 различных налогов, которые также могут именоваться в тексте "пошлиной", "тарифом", "акцизом", "сбором", "отчислением", "податью" и др. Без учета полного ряда синонимов термина и его контекстного окружения невозможно обеспечить ни полноту, ни точность содержательного поиска.
Отдельные программы поиска в тексте позволяют учитывать весь ряд словоформ искомого термина, что особенно важно для русского языка, где мы имеем до 60 словоформ одной основы, а также его лексическое окружение, например, два термина неупорядоченно в группе из 4 смежных слов. Очевидно, что в таком случае возможности содержательного поиска существенно расширяются.
Можно продемонстрировать, что правильное использование (программирование) профессиональных систем контекстного поиска даже без смыслового исследования текста, то есть его семантического анализа, позволяет ограниченным количеством поисковых операций найти в тексте все фрагменты, содержащие лексические образы произвольной проблемы любой степени общности.
Все способы поиска в текстах достаточно сильно зависят от конкретной программной реализации различных алгоритмов и требуют от пользователя неплохого знания особенностей программирования запросов на поиск. Более того, молчаливо предполагается, что пользователь может четко себе представить какими терминами и в каком контекстном окружении описана его проблема. Но у потребителя всегда крайне ограниченное время и на обучение, и на поиск, и на анализ найденного.
Второй механизм поиска ориентирован на совершенно неподготовленного пользователя и базируется на различных классификаторах информации.
Информация предварительно вручную или автоматически по некоторым ключевым словам отбирается и "привязывается" к соответствующей теме (рубрике) классификатора. Как правило, таких классификаторов предлагается не более двух и их объем не превышает 1000 тематик. Задача потребителя состоит в том, чтобы в предложенном иерархическом списке найти тему в наибольшей степени соответствующей его проблеме, а затем просмотреть все тексты, отнесенные поставщиком информации к просматриваемой рубрике.
К сожалению, ни один из существующих рубрикаторов, включая Общеправовой классификатор отраслей законодательства, не проектировался как гармоничное средство поиска методом выбора из списка альтернатив. Все имеющиеся классификаторы страдают следующими пороками, фатальными с точки зрения успешности процесса поиска:
неоднородность (деление материала на одном уровне должно производиться по одному основанию, иначе найти "свою" тему достаточно сложно);
недостаточность (классификатор должен исчерпывающе разделить весь существующий материал, в противном случае часть тем в нем вообще никак не отражена);
нарушение отношений логической соподчиненности (что существенно затрудняет процесс поиска темы);
низкая эргономичность (пользователь не может эффективно осуществлять выбор из альтернатив количеством более 7, также как он не в состоянии просмотреть с экрана компьютера и осмыслить выборку документов более 15).
Наши последние исследования показывают, что на практике до 85 % материала, имеющего непосредственное отношение к выбранной теме, в больших информационных массивах "не привязаны" к рубрике и соответственно недоступны потребителю при использовании классификатора.
Существенное затруднение в анализе найденного материала также вызывает также то обстоятельство, что в большинстве случаев единицей классификации является не фрагмент текста, как например, абзац, часть статьи, а полный документ, например, Гражданский кодекс Российской Федерации.
Как нам видится, единственный практический метод решения достаточно нечетких задач типа содержательного поиска в текстах - это применение системного подхода. Давайте посмотрим, что можно практически сделать с этой задачей, считая, что мы работаем с текстами на русском языке, а целью наших усилий является поиск не документа, а его фрагмента, имеющего непосредственное отношение по смыслу к решаемой нами проблемы.
В любом высказывании всегда имеется или подразумевается
Активный субъект: одушевленное подлежащее, отвечает на вопрос "кто?" и исполняет действие. Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами..." или "Беженцы и вынужденные переселенцы..."
Пассивный субъект: одушевление косвенное дополнение или подлежащее, отвечает на вопросы "кому?", "кого?", "кто?", на него направлено действие. Например, "Трудоспособные дети, достигшие 18 лет, должны заботиться о нетрудоспособных родителях" или "преступления против личности".
Предмет или объект: неодушевленное прямое дополнение или подлежащее, отвечает на вопросы "что?", "чего?" и является точкой приложения действий. Например, "В Российской Федерации гарантируется единство экономического пространства" или "Государственная граница".
Действие или процесс: сказуемое (глагол или любые отглагольные части речи - существительное, причастие, деепричастие), отвечает на вопросы "что делает?", "что?". Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами" или "Ответственность за нарушение трудового законодательства"
Место события (действия): обстоятельство места отвечает на вопрос "где?" и характеризует расположение субъектов или объектов в пространстве. Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами" или "Районы Крайнего Севера".
Способ: обстоятельство образа действия, отвечает на вопрос "как?", "каким образом?". Например, "В Российской Федерации признаются и защищаются равным образом частная, государственная, муниципальная и иные виды собственности" или "Претензионный характер урегулирования споров"
Время: обстоятельство времени, отвечает на вопросы "когда?", "как долго?" и уточняет вопрос длительности процесса или момента наступления события. Например, "До судебного решения лицо не может быть подвергнуто задержанию на срок более 48 часов" или "Сроки. Исковая давность" или "Действие уголовного закона во времени и в пространстве".
Любая из перечисленных "элементарных" позиций может быть объектом отдельного интереса потребителя информации и представляет собой большую группу терминов и совокупностей терминов, которая в свою очередь может быть систематизирована в виде специального многоуровневого классификатора (информационно-поискового тезауруса). Также можно показать на практике, что с использованием профессиональных систем контекстного поиска возможна автоматизированная классификация фрагментов текстов на одном языке с применением поиска по сходству или противоречию с любыми темами (терминами) перечисленных классификаторов.
Совокупность таких "элементарных позиций" образует практически содержательное описание явления или события и не зависит от языка текста (с использованием системы классификаторов на различных языках и автоматического перевода она дает возможность работать с материалами на иностранных языках). Она позволяет охватить смысл колоссального объема информации на уровне фрагментов текста и ассоциативно понятна всем, кто когда-то учил родную речь и в состоянии отличить вопрос "кто?" от вопроса "когда?".
Еще один аргумент о преимуществах предлагаемого подхода. Если мы считаем допустимым в качестве результата поиска 15 фрагментов текста, то с помощью единственного Общеправового классификатора отраслей законодательства (1100 рубрик) можно описать массив фрагментов не более 10.000, полагая, что один фрагмент текста в среднем может быть отнесен к 2 рубрикам. Использование системы из 7 "элементарных" классификаторов, каждый из которых содержит в среднем 300 рубрик (при общем объеме системы всего 3500 позиций), при тех же ограничениях позволяет детально описать смысл массива из 2х1017 фрагментов, что в десять миллионов раз превосходит объем информации русского сегмента ИНТЕРНЕТ (миллиард страниц текста, считая, что на странице не более 10 абзацев).

Опубликовано по адресу: http://www.lawint.ru/26-03-97.htm
Дата последнего редактирования 28.10.2013
©
Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Исследование рисков и поиск возможностей через Интернет
Невидимый Интернет для бизнеса
Технологии производства баз знаний
Средства автоматизации вэб-поиска:
Мастер поиска НТИ
Поиск по шаблону на основе Мастера
Классификационный поиск по шаблонам на основе Мастера
Сценарий: Поиск рыночных ниш через Яндекс
Сценарий: Выявление проблем через Яндекс
Сценарий: Поиск определений через Яндекс
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке