Тесты и обзоры

Вопросно ответная программа. Статистические техники для анализа естественного языка

Новые информационные технологии

Лекция № 2.2. Основные классы естественно-языковых систем. Интеллектуальные вопросно-ответные системы

    Новые информационные технологии (3)

1.1. Основные классы естественно-языковых систем

        Функциональные компоненты естественно-языковых систем

        Сравнительная характеристика основных классов ЕЯ-систем

        1. Интеллектуальные вопросно-ответные системы

          1. Информационно-поисковые системы

            Системы общения с базами данных

            Экспертные системы

            Диалоговые системы решения задач

            Интеллектуальные хранилища и цифровые библиотеки

        2. Системы распознавания речи

          1. Системы распознавания изолированно произносимых команд

            Системы распознавания ключевых слов в потоке слитной речи

            Системы распознавания слитной речи

            Подход «анализ-через-синтез»

            Системы чтения по губам

          Системы обработки связных текстов

          1. Системы реферирования текстов

            Системы сравнения и классификации текстов

            Системы кластеризации текстов

          Системы синтеза

          1. Системы синтеза речи

            Системы синтеза видеоряда по тексту

          Системы машинного перевода. Системы понимания речи (текстов)

          1. Системы фразового перевода

            Системы контекстного перевода

            Системы понимания речи (текстов)

          Онтологии и тезаурусы

          Речевые и текстовые базы

          Компоненты интеллектуальных систем

        Сравнительная характеристика естественно-языковых систем

        Интеллектуальные вопросно-ответные системы

В настоящее время наиболее массовым продуктом, подпадающим под категорию интеллектуальных вопросно-ответных систем, являются (57) информационно поисковые системы .

2.2.1.1. Информационно-поисковые системы

Наиболее известные информационно-поисковые системы GOOGLE, Yandex, Rambler, имеют приблизительно одинаковые возможности и функциональность. Единственное (58) отличие системы GOOGLE от остальных носит скорее технический характер: эта система реализована как параллельная распределенная система с использованием большого количества процессоров с памятью собственного производства. Возможно, именно это отличие сыграло решающую роль в несомненном превосходстве этой системы перед всеми остальными, хотя и имеющими более интеллектуальные функции. (59) Обработка естественного языка в этой и других информационно-поисковых системах играет не очень большую роль , но зато объем их использования в системах человеко-машинного общения очень велик.

Рис. 2.2. Типичная информационно-поисковая система.

(60) Основные функции информационно-поисковой системы сводятся к парсингу источников, индексированию текстов, извлеченных из источников, обработке запроса пользователя, сравнению проиндексированных текстов базы с запросом пользователя, выдаче результатов. Недавно в системе GOOGLE появился речевой ввод , позволяющий вводить в систему ограниченный по объему запрос голосом. Еще одной функцией, используемой в информационно-поисковых системах, является функция представления структуры модели мира системы, являющейся средством навигации по ресурсам системы .

Таким образом, стандартная (61) информационно-поисковая система содержит семь основных компонентов (см. рис. 2.2): блок ввода информации, блок парсинга, блок индексирования источников, блок обработки запросов пользователя, блок сравнения текстов источников с запросом пользователя, представленным на естественном языке, блок вывода результатов, и блок структурирования предметных областей и навигации .

Основной задачей реализации ввода является представление исходного множества текстов и запроса пользователя в виде, удобном компьютеру. Дело в том, что в силу большого объема обрабатываемой информационно-поисковыми системами информации (62) тексты обрабатываемых документов обычно не хранятся в системе .Хранятся только их представления . Тексты берутся из хранилища (хранилищ) и обрабатываются, время от времени (обычно циклически).

(63) Таким представлением текста может быть, например, список ключевых слов, извлеченных из текста (представленный векторно-пространственной, или n -граммной моделями), но может быть и сеть совместной встречаемости слов в фрагментах текста .

Основная идея (64) векторно-пространственной модели проста:текст описывается лексическим вектором в евклидовом пространстве,каждому компоненту вектора соответствует некоторый объект, содержащийся в тексте (слово, словосочетание, названия фирм, должности, имена и т.п.), который называется термом.Каждому используемому в текстетерму ставится в соответствие его вес (значимость), определяемый на основе статистической информации о его встречаемости в отдельном тексте .Размерность вектора – это количество термов, которые встречаются в текстах .

(65) В полиграммной модели текст представляется вектором, где элементы вектора – все комбинации символов длины n из алфавита M (для русского языка M = 33 ). Каждому элементу вектора ставится в соответствие частота встречаемости соответствующей n -граммы в тексте. Размерность вектора для произвольного текста жестко фиксирована и составляет 33 3 = 35937 элемента. Однако, как показывает практика, в реальных текстах реализуется не более 25-30 процентов n-грамм от общего допустимого их числа, т.е. для русского языка их не более 7000.

(66) Сеть совместной встречаемости слов в фрагментах текста . Текст представляется множеством понятий в их взаимосвязях. И понятия и связи оцениваются их весом.

(67) Запрос пользователя, представленный на естественном языке, обрабатывается способом, аналогичным обработке информации при индексации текстов источников, чтобы упростить сравнение этих естественно-языковых текстов . На этапе сравнения, собственно, и реализуются стратегии поиска

Таким образом, помимо способов внутреннего представления текста, в информационно-поисковых системах существенную роль играет способ классификации (сравнения) текстов. (68) В настоящее время практическое применение получили классификаторы следующие типов :

        (69) Статистические классификаторы на основе вероятностных методов. Наиболее известным в данной группе является семейство Байесовых классификаторов. Их общей чертой являетсяпроцедура классификации, в основе которой лежит формула Байеса для условной вероятности .

Классический метод классификации текстов делает очень сильные предположения о независимости участвующих событий (появления слов в документах), но практика показывает, что наивный байесовский классификатор оказывается весьма эффективен.

2. (70) Классификаторы, основанные на функциях подобия . Наиболее характерными для таких классификаторов является использование лексических векторов модели терм-документ, которые так же применяются и в нейронных классификаторах. В качествемеры подобия обычно берется косинус угла между векторами, вычисляемый через скалярное произведение .

В свете выше описанного (72) в системах информационного поиска используются следующие стратегии .

1. (73) На основе ключевых слов . Ключевые слова обычно снабжаются весовыми характеристиками, которые определяют вес слова в тексте. В основе числовой характеристики лежит частота встречаемости слов в тексте. Однако смысловой вес слова отличается от частоты его появления в тексте.

2. Очень важна (74) информация о порядке следования ключевых слов в фрагментах текста . Для увеличения эффективности поиска в этом случае вместо ключевых понятий используютсяn-граммы ключевых понятий.

3. При поиске используется также частота совместной встречаемости ключевых слов в фрагментах текста. Внутренняя структура текста (75) в терминах ключевых слов в их взаимосвязях – смысловой портрет текста – является основой представления текста в информационно-поисковых системах. Смысловой портрет текста позволяет выявитьлогическую структуру текста (и логическую структуру всего корпуса текстов), которые улучшают качество поиска и ускоряют его.

4. В последнее время при поиске начали использовать так называемое (76) нечеткое сравнение .

Для улучшения результатов поиска пользователь может изменить запрос. Для этого существует обратная связь. (77) Обработка информации в информационно-поисковой системе включает структуризацию информации с целью последующей навигации , в том числе, ее кластеризацию.

Под (76) выводом результатов надо понимать те ссылки на исходный текст (тексты), которые система выдает пользователю . Это может быть система цитат, номера документов, хранящие анализируемые тексты.

(77) Поиск нужной информации в сети с помощью поисковой системы обычно осуществляется следующим образом . Пользователь вводит в диалоговое окно поисковой системы один или более поисковых терминов. Поисковая система возвращает результаты поиска, отвечающие этим поисковым терминам. Например, поисковая система может возвратить список адресов в сети (URL-адресов), которые указывают документы, содержащие один или более поисковых слов запроса.

Введение

Проблемы

Обзор предметной области

1 Задача анализа вопроса

Методы анализа вопросов

1 Символьные шаблоны вопросов

2 Синтаксические шаблоны вопросов

3 Статистика употребления слов в вопросах

Оценка методов анализа вопросов

1 Создание тестовой коллекции вопросов

2 Метрики

3 Результаты простого эксперимента

Список литературы

Введение

В связи с бурным развитием информационных технологий и непрерывным увеличением объемов информации, доступной в глобальной сети Интернет, всё большую актуальность приобретают вопросы эффективного поиска и доступа к данным. Зачастую стандартный поиск с использованием ключевых слов не даёт желаемого результата, в связи с тем, что такой подход не учитывает языковые и смысловые взаимосвязи между словами запроса. Поэтому сейчас активно развиваются технологии обработки естественных языков (Natural Language Processing, NLP) и основанные на них вопросно-ответные системы (Question-Answering Systems, QAS).

Вопросно-ответная система - это информационная система, являющаяся гибридом поисковых, справочных и интеллектуальных систем, которая использует естественно-языковой интерфейс. На вход такой системе подаётся запрос, сформулированный на естественном языке, после чего он обрабатывается с использованием методов NLP, и генерируется естественно-языковой ответ. В качестве базового подхода к задаче поиска ответа на вопрос обычно применяется следующая схема: сначала система тем или иным образом (например, поиском по ключевым словам) отбирает документы, содержащие информацию, связанные с поставленным вопросом, затем фильтрует их, выделяя отдельные текстовые фрагменты, потенциально содержащие ответ, после чего из отобранных фрагментов генерирующий модуль синтезирует ответ на вопрос.

В качестве источника информации QA-система использует либо локальное хранилище, либо глобальную сеть, либо и то и другое одновременно. Несмотря на явные преимущества использования Интернета, такие как доступ к огромным, постоянно растущим информационным ресурсам, с этим подходом связана существенная проблема - информация в Интернете неструктурированна и для её корректного извлечения необходимо создание так называемых "оберток" (wrapper), то есть подпрограмм, которые обеспечивают унифицированный доступ к различным информационным ресурсам.

Современные QA-системы разделяют на общие (open-domain) и специализированные (closed-domain). Общие системы, то есть системы, ориентированные на обработку произвольных вопросов, имеют достаточно сложную архитектуру, но тем не менее на практике дают достаточно слабые результаты и невысокую точность ответов. Но, как правило, для таких систем более важным оказывается степень покрытия знаний, нежели точность ответов. В специализированных системах, отвечающих на вопросы, связанные с конкретной предметной областью, напротив, точность ответов зачастую оказывается критическим показателем (лучше вообще не дать ответа на вопрос, чем дать неправильный ответ).

1. Проблемы

Однако сегодня вопросно-ответные системы показывают далеко не впечатляющие результаты. Так, лучшая система на дорожке GikiCLEF 2009 продемонстрировала точность 47% (отметим, что это результат работы систем на многоязыковой коллекции). Отдельно отметим тот факт, что сегодня очень мало русскоязычных вопросно-ответных систем участвует в открытой независимой оценке качества. В публикациях встречается только один случай, дающий возможность сравнить хотя бы две системы - это участие системы Стокона (сегодня AskNet.ru) и Exacatus.ru на семинаре РОМИП 2006 (2., 23). Обе системы используют метод семантического индексирования, который является сегодня только одним из множества методов, используемых исследователями в мире (3,4). По мнению авторов, требуется провести исследование других популярных методов на русскоязычном корпусе.

Анализ существующих работ показал, что для проведения независимой оценки на корпусах русского языка всего спектра методов, применяемых в вопросно-ответных системах, требуется создание исследовательской программной платформы в согласии с т.н. типовой архитектурой вопросно-ответной системы (Common architecture for Question Answering (3)). В качестве основы предлагается использовать систему с открытым исходным кодом OpenEphyra, которая уже была использована другими исследователями для работы с английским, немецким и голландским языками (5). Архитектура системы OpehEphyra повторяет типовую архитектуру.

Основными задачами для работы являются реализация практически всех модулей конвейера системы для русского языка. Авторы предполагают задействовать следующие существующие программные библиотеки для обработки русского языка: библиотеки лексического, морфологического и синтаксического разбора от aot.ru (6), модуль морфологического разбора предложений mystem (7), классификацию вопросов системы AskNet.ru для русского языка (8., 34), тезаурус русского языка RussNet (9). Ряд недостающих модулей необходимо разработать самостоятельно: синтаксические шаблоны вопросов и ответов, модуль категоризации вопросов, модуль распознавания именованных сущностей.

Рис.1. Архитектура системы OpenEphyra (10., 1)

Целью работы является подготовка базовой исследовательской системы для выступления на семинарах РОМИП, CLEF, TREC. Без подобной системы авторы считают невозможным проведение экспериментальных исследований методов автоматического ответа на вопросы на русском языке. Учитывая результаты аналогичного проекта на голландском языке - в работе (5) была достигнута точность 3.5% - авторы ожидают, что базовая реализация системы продемонстрирует точность того же порядка на дорожке РОМИП прошлых лет. Отдельной проблемой является невозможность повторно использовать вопросно-ответные дорожки РОМИП в автоматическом режиме (2). Для решения этой проблемы авторы планируют создать повторно используемую тестовую коллекцию на основе подмножества заданий РОМИП, с использованием регулярных выражений для сравнения ответов, как предложено организаторами TREC в работе (11).

Далее в статье обсуждается только первый этап работы вопросно-ответной системы - модуль анализа вопросов. Рассмотрены: постановка задачи анализа вопроса, методы анализа вопросов и доступный аппарат экспериментального исследования методов на тестовой коллекции вопросов.

2. Обзор предметной области

Системы вопросно-ответного поиска в сравнении с традиционными поисковыми системами получают вопросительно предложение на естественном языке (на английском, на русском и т.д.), а не набор ключевых слов, и возвращают краткий ответ, а не список документов и ссылок. Современные системы информационного поиска позволяют нам получить список целых документов, которые могут содержать интересующую информацию, при этом оставляют пользователю работу по получению нужных данных из документов, упорядоченных по уровню релевантности запросу. Например, пользователь вводит следующий вопрос: "Кто является президентом России?" и в качестве ответа получает имя человека, а не список релевантных ссылок на документы. Таким образом, нахождение ответа на вопрос извлечением небольшого отрывка текста из документа, в котором непосредственно содержится сам ответ, в отличие от информационного поиска совсем другая задача.

Большая часть существующих проектов в области вопросно-ответного поиска предназначены для английского языка. Если сравнить несколько работ в данной сфере исследований, то можно прийти к стандартной схеме устройства вопросно-ответных систем. Как правило, работа типовой вопросно-ответной системы состоит из нескольких этапов:

Этап анализа вопроса, введенного пользователем;

Этап информационного поиска;

Этап извлечения ответа.

На первом этапе производится ввод вопроса на естественном языке и первичная обработки и формализация предложения различными анализаторами (синтаксическим, морфологическим, семантическим), определяются соответствующие его атрибуты для дальнейшего их использования. Далее на втором этапе происходит поиск и анализ документов - отбираются документы и их фрагменты, в которых может содержаться ответ на исходный вопрос. На третьем этапе происходит извлечение ответа: система, получая текстовые документы или их фрагменты, извлекает из них слова, предложения или отрывки текста, которые могут стать ответом.

Следует отметить, что важную роль в результатах и разработке играет использование различных словарей-тезаурусов. Применение данных словарей решают задачу определения типов сущностей для выявления ответов, нахождение начальной формы слов для использования их в поисковых запросах. Также данные словари используются для нахождения синонимов слов.

.1 Задача анализа вопроса

Первым этапом работы является создание модуля анализа вопросов (Question Analysis на Рис.1). Для модуля ставится следующая задача: для вопроса на естественном языке выделить фокус вопроса, опору вопроса и определить семантический тэг ответа (Рис.2).

Рис. 2. Недетализированная диаграмма IDEF0 для процесса анализа вопроса.

Фокус вопроса (англ.: question focus) -это такие сведения,содержащиеся ввопросе, которые несут в себе информацию об ожиданиях пользователя от информации в ответе (4).

Опора вопроса (англ.: question support) -это остальная часть вопроса(после"вычета" фокуса), которая несёт в себе информацию, поддерживающую выбор конкретного ответа.

Семантический тэг ответа (англ.: answer tag, answer type) -классзапрашиваемой пользователем информации согласно некоторой ранее заданной таксономии.

Ниже приведены примеры анализа вопросов из заданий РОМИП 2009, выполненного вручную (Таб.2.1., сохранена орфография реальных запросов ).

Таблица 2.1.

Примеры анализа вопросов из заданий РОМИП 2009. (3., 12)

№Вопрос, жирным шрифтом выделен фокусСемантический тэгnqa2009_6368как отключить перехват клавиатуры?Recipenqa2009_7185сколько стоит поченить гнездо у телефона сони эрикссон?Moneynqa2009_6425в каких религиях как рассматривается карма?Definitionnqa2009_3123отечественная война кто с кем?Countrynqa2009_8557являются ли чердаки пожароопасными помещениями?Yes/Nonqa2009_7801какое колличество циклов чтения/записи предусмотренноCardinalкомпанией fujifilm для картриджей стандарта lto 4?nqa2009_8763когда начнется распродажа в меге?Datenqa2009_9150во сколько заход солнца 27 февраля?Timenqa2009_8754когда можно сводить кошек?Agenqa2009_6797какие в тамбове есть студии звукозаписи??Organization

Таксономия семантических тэгов обычно выбирается разработчиками системы так, чтобы покрыть большую часть вопросов к системе. Следующая таксономия была заимствована из (3) и дополнена авторами несколькими тэгами, чтобы лучше покрывать тестовую коллекцию вопросов РОМИП 2009: Age, Disease, Ordinal, Recipe, Animal, Duration, Organ, Salutation, Areas, Event, Organization, Substance, Attraction, Geological objects, People, Term (Reverse definition), Cardinal, Law, Percent, Time, Company-roles, Location, Person, Title-of-work, Country, Manner, Phrase (NNP), URL, Date, Measure, Plant, Weather, Date-Reference, Money, Product, Yes/No, Definition, Occupation, Reason .

3. Методы анализа вопросов

В этом разделе дан краткий обзор существующих методов анализа вопросов.

.1 Символьные шаблоны вопросов

Простейшим способом определить тэг или фокус в вопросе является подготовка шаблонов (регулярных выражений) для распознавания распространённого вопросительного оборота. Ниже приведёны некоторые правила, используемые в системе OpenEphyra для английского языка (Таб.3.1.).

Таблица 3.1.

Символьные шаблоны вопросов из системы OpenEphyra (10)

СемантическийРегулярное выражение вопросаТэгNEaward(what|which|name|give|tell) (.*)?(accolade|award|certification|decoration|honoring|honouring|medal|prize|reward)NEbird(what|which|name|give|tell) (.*)?birdNEbirthstone(what|which|name|give|tell) (.*)?birthstoneNEcolor(what|which|name|give|tell) (.*)?(color|colour)NEconflict(what|which|name|give|tell) (.*)?(battle|conflict|conquest|crisis|crusade|liberation|massacre|rebellion|revolt|revolution|uprising|war)NEdate(when|what|which|name|give|tell) (.*)?(birthday|date|day)NEdate-century(when|what|which|name|give|tell) (.*)?century

Для выделения фокуса в работе (3) использовались следующие шаблоны, использующие в т.ч. и морфологическую информацию (Таб.3.2., на английском языке):

Таблица 3.2.

Примеры шаблонов для выделения фокуса вопроса на английском языке (3)

Вопросительное словоШаблонWhat, which , name , list,question word + headword of first noun clusteridentifyWho, why, whom, whenquestion wordWherequestion word + main verbHowquestion word plus next word if it seeks an count attribute + headword of firstnoun clusterquestion word plus the next word if it seeks an attributeif question seeks a methodology, then just question word

Очевидными недостатками такого подхода являются:

1.Практическая невозможность покрыть значимую часть реальных вопросов пользователей. Набор вопросов подбирается так, чтобы обработать конкретный набор тестовых заданий. Выйти за пределы этого покрытия "неудобным вопросом" достаточно легко.

2.После ряда экспериментов становится очевидно, что связь между вопросительными словами и семантическими тэгами не так прямолинейна. Так слово "кто" может сигнализировать и о персоне, и об организации, и о стране, и о народе (например, в вопросе "Кто выиграл войну?").

.Выделение фокуса на основе шаблонов также работает в очень ограниченных случаях.

Метод шаблонов успешно использовался в системах, учувствовавших в TREC-8 (1999), в котором организаторы подготовили вопросы для дорожки QA вручную. Однако, уже в TREC-9 (2000) были предложены задания на основе реальных запросов пользователей и те системы, которые не применили иные методы анализа вопроса, заметно отстали от адаптировавшихся лидеров.

3.2 Синтаксические шаблоны вопросов

Для выделения фокуса вопросаследующим шагом после символьных шаблонов стал метод синтаксических шаблонов. В основе метода лежит предположение, что фокус вопроса часто находится в определённом синтаксическом отношении с вопросительным словом, м.б. не в одном, но набор вариантов этих отношений ограничен. Если выполнить синтаксический разбор предложения, то получится синтаксическое дерево (Рис.3.). Этот пример наглядно демонстрирует, что для работы на коллекции реальных вопросов пользователей система в т.ч. должна справляться с опечатками и орфографическими ошибками.

Вот пример синтаксического шаблона для распознавания фокуса, используемого в системе OpenEphyra:

(ROOT (SBARQ (WHNP (WP What)) (SQ (VP (VBZ is) (NP (NP (DT the) (NN name)) (PP (IN of) (*NP xx)))))))

Здесь в скобочной нотации задано синтаксическое дерево со словами или их синтаксическими/морфологическими метками в узлах. Такой шаблон дерева сравнивается с реальным деревом вопроса и, в случае совпадения, фокусом считаются члены предложения, соответствующие позиции xx в шаблоне.

3.3 Статистика употребления слов в вопросах

В работе(3)предложен методавтоматического обучения статистической модели для простановки семантического тэга. Для каждого вопроса из обучающей выборки выделяют три "потока" признаков (features stream):

1.все слова как есть и дополнительные метки к некоторым из них (например, метка bqw означает, что вопросительное слово стоит в начале предложения);

2.метки частей речи слов и порядковые номера слов в предложении;

3.Фокусные слова с гиперонимами, согласно лексическому тезаурусу.

Ниже приведены признаки для одного вопроса на английском языке (Таб.3.3.).

Таблица 3.3.

Признаки для вопроса " Which European city hosted the 1992 Olympics?" (3)

Слова как естьWhich which_bqw which_JJ European city host 1992 olympicsЧасти речиWDT_0 which_WDT JJ_0 european_JJ NN_1 city_NN VBD_2hosted_VBD DT_3 CD_4 1992_CD NNS_5 olympics_NNSГиперонимыEuropean city metropolis urban_center municipality urban_areageographical_areageographic_areageographical_regiongeographic_region regionlocation entity metropolisurban_centercity_centercentral_cityfinancial_centerHubcivic_centermunicipal_center down_town inner_city

Разметив вручную коллекцию из более 4 тыс. вопросов авторы (3) посчитали, какие свойства чаще означают каждый семантический тэг. Для этого использовался математический аппарат максимизации энтропии. Всего на коллекции из 4 тыс. вопросов было порождено 36 тыс. признаков. Ниже приведены веса для принятия решения о простановке того или иного тэга на основании выявленных признаков (Таб.3.4.).

Недостатком статистического метода является необходимость создания большой обучающей коллекции вопросов вручную. Так, авторы работы (3) не удовлетворены размером своей коллекции из 4 тыс. вопросов TREC-9.

Таблица 3.4.

Признаки для простановки семантического тэга (3)

ПризнакиСемантический тэгВесmany | COUNT0CARDINAL6,87why_WRBREASON33,04RegionLOCATION5,75who_VPERSON4,09when_V | DEFN0DATE17,31PeriodDURATION7,66GovernmentLOCATION9,56

4. Оценка методов анализа вопросов

Рассмотрим процедуру экспериментального исследования методов анализа вопросов.

.1 Создание тестовой коллекции вопросов

Как и в других задачахинформационного поиска предлагается создать текстовую коллекцию вопросов и выполнить анализ вручную с помощью инструмента асессора. В качестве тестовой коллекции авторы используют задания к вопросно-ответной дорожке семинара РОМИП 2009. Это 9617 русскоязычных вопросов, сформулированных пользователями в интернете.

.2 Метрики

В качестве основной метрики предлагается использоватьошибку простановки семантического тэга : Et = (M-N)/M, где N - число вопросов, обработанных асессором, M - число вопросов, для которых модулем анализа вопроса был проставлен тот же семантический тэг, что и асессором (3).

Вторая метрика должна оценивать правильность выделения фокуса в вопросе. Авторы не нашли существующей метрики в литературе, поэтому предлагают свои метрики: точность P и полноту R выделения фокуса у заданного вопроса:

В обоих множествах игнорируются незначимые слова: вопросные слова, предлоги, союзы. Элементами обоих множеств являются не слова как лексические единицы, а позиции слов в предложении, т.е. множество может содержать несколько экземпляров одного слова, если оно повторялось в предложении-вопросе. В качестве метрик по всей коллекции вопросов следует брать средние точность и полноту.

.3 Результаты простого эксперимента

На коллекции русскоязычных вопросовбыл поставлен эксперимент по исследованию тривиальной реализации модуля простановки семантического тэга. Модуль использовал таблицу поиска слов в вопросе для выбора того или иного семантического тэга. Ниже перечислены все правила работы модуля (Таб.4.1.).

Таблица 4.1.

Правила работы тривиального модуля анализа вопросов на русском языке.

СловоТэгСловоТэгСкачатьURLподарить | подарокProductКтоPersonЛиYes/NoКакRecipeопределение | что такоеDefinitionГдеLocationцена | стоимость | сколько стоитMoneyкогда | в каком годуDateвозраст | сколько летAge

Эксперимент показал, что такая реализация модуля анализа вопроса даёт ошибку 67%. На момент написания статьи авторы не проводили экспериментов с выделением фокуса.

Вывод

В задаче автоматического ответа на вопрос на естественном языке первым этапом работы системы является анализ вопроса. Качество работы модуля анализа вопроса существенно влияет на качество работы системы в целом (3). Зарубежными исследователями были поставлены эксперименты по анализу вопросов на английском языке, причём разные исследовательские группы, использовали разные методы решения этой первой задачи.

В настоящей работе выполнен обзор существующих методов для английского языка, разработана процедура оценки методов, обработана вручную тестовая коллекция русскоязычных вопросов и поставлен эксперимент для исследования некоторой тривиальной реализации модуля. Авторы планируют собрать полный конвейер типовой вопросно-ответной системы из тривиально реализованных модулей, который станет экспериментальной площадкой для исследования более эффективных методов.

семантический тэг вопрос шаблон

Список литературы

1.Carol Peters. What happened in CLEF 2009 Introduction to the Working Notes. // Proceedings of CLEF2009. URL: #"justify">2.Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского семинара РОМИП"2006. СПб.: НУ ЦСИ, 2006, 274 с.

3.Abraham Ittycheriah. A Statistical Approach For Open Domain Question Answering // Advances in Open Domain Question Answering. Springer Netherlands, 2006. Part 1. Vol.32.

4.Burger, J. и др. Issues, tasks and program structures to roadmap research in question & answering (Q&A). NIST DUC Vision and Roadmap Documents, 2001. URL: #"justify">6.Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. MLMTA, 2003.

7.Поисковая система AskNet.ru [Электронный ресурс]: Перечень вопросов, поддерживаемых системой AskNet для проведения семантического поиска. URL: #"justify">.Азарова И. В. и др. Разработка компьютерного тезауруса русского языка типа WordNet // Доклады научной конференции "Корпусная лингвистика и лингвистические базы данных" / Под ред. А.С. Герда. СПб., 2002. С. 6-18.

9.Semantic Analyzer group blog [Электронный ресурс]. URL: http://semanticanalyzer.info/

Вопросно-ответные системы

Вопросно-ответная система (англ. Question-answering system) - это особый тип информационных систем , являющиеся гибридом поисковых , справочных и интеллектуальных систем (часто они рассматриваются как интеллектуальные поисковые системы ). QA-система должна быть способна принимать вопросы на естественном языке, то есть это система с естественно-языковым интерфейсом. Информация предоставляется на основе документов из сети Интернет или из локального хранилища. Современные разработки QA-систем позволяют обрабатывать множество вариантов запросов фактов, списков, определений, вопросов типа Как, Почему, гипотетических, сложных и межязыковых.

  • Узкоспециализированные QA-системы работают в конкретных областях (например, медицина или обслуживание автомобилей). Построение таких систем - сравнительно легкая задача.
  • Общие QA-системы работают с информацией по всем областям знаний, таким образом появляется возможность вести поиск в смежных областях.

Архитектура

Первые QA-системы были разработаны в 1960х годах и являлись естественно-языковыми оболочками для экспертных систем , ориентированных на конкретные области. Современные системы предназначаются для поиска ответов на вопросы в предоставляемых документах с использованием технологий обработки естественных языков (NLP).

Современные QA-системы обычно включают особый модуль - классификатор вопросов , который определяет тип вопроса и, соответственно, ожидаемого ответа. После этого анализа система постепенно применяет к предоставленным документам все более сложные и тонкие методы NLP, отбрасывая ненужную информацию. Самый грубый метод - поиск в документах - предполагает использование системы поиска информации для отбора частей текста, потенциально содержащих ответ. Затем фильтр выделяет фразы, похожие на ожидаемый ответ (например, на вопрос «Кто …» фильтр вернет кусочки текста, содержащие имена людей). И, наконец, модуль выделения ответов найдет среди этих фраз правильный ответ.

Схема работы

Производительность вопросно-ответной системы зависит от качества текстовой базы - если в ней нет ответов на вопросы, QA-система мало что сможет найти. Чем больше база - тем лучше, но только если она содержит нужную информацию. Большие хранилища (такие как Интернет) содержат много избыточной информации. Это ведёт к двум положительным моментам:

  1. Так как информация представлена в разных формах, QA-системе быстрее найдет подходящий ответ. Не придется прибегать к сложным методам обработки текстов.
  2. Правильная информация чаще повторяется, поэтому ошибки в документах отсеиваются.

Поверхностный поиск

Наиболее распространенный метод поиска - по ключевым словам . Найденные таким способом фразы фильтруются в соответствии с типом вопроса, а затем ранжируются по синтаксическим признакам, например, по порядку слов.

Расширенный поиск

Проблемы

В 2002 году группа исследователей написала план исследований в области вопросно-ответных систем. Предлагалось рассмотреть следующие вопросы.

Типы вопросов Разные вопросы требуют разных методов поиска ответов. Поэтому нужно составить или улучшить методические списки типов возможных вопросов. Обработка вопросов Одну и ту же информацию можно запросить разными способами. Требуется создать эффективные методы понимания и обработки семантики (смысла) предложения. Важно, чтобы программа распознавала эквивалентные по смыслу вопросы, независимо от используемых стиля , слов, синтаксических взаимосвязей и идиом . Хотелось бы, чтобы QA-система разделяла сложные вопросы на несколько простых, и правильно трактовала контекстно-зависимые фразы, возможно, уточняя их у пользователя в процессе диалога. Контекстные вопросы Вопросы задаются в определенном контексте . Контекст может уточнить запрос, устранить двусмысленность или следить за ходом мыслей пользователя по серии вопросов. Источники знаний для QA-системы Перед тем как отвечать на вопрос, неплохо было бы осведомиться о доступных базах текстов. Какие бы способы обработки текстов не применялись, мы не найдем правильного ответа, если его нет в базах. Выделение ответов Правильное выполнение этой процедуры зависит от сложности вопроса, его типа, контекста, качества доступных текстов, метода поиска и др. - огромного числа факторов. Поэтому подходить к изучению методов обработки текста нужно со всей осторожностью, и эта проблема заслуживает особого внимания. Формулировка ответа Ответ должен быть как можно более естественным. В некоторых случаях достаточно и простого выделения его из текста. К примеру, если требуется наименование (имя человека, название прибора, болезни), величина (денежный курс, длина, размер) или дата («Когда родился Иван Грозный?») - прямого ответа достаточно. Но иногда приходится иметь дело со сложными запросами, и здесь нужны особые алгоритмы слияния ответов из разных документов. Ответы на вопросы в реальном времени Нужно сделать систему, которая бы находила ответы в хранилищах за несколько секунд, независимо от сложности и двусмысленности вопроса, размера и обширности документной базы. Многоязыковые запросы Разработка систем для работы и поиска на других языках (в том числе автоматический перевод). Интерактивность Зачастую информация, предлагаемая QA-системой в качестве ответа, неполна. Возможно, система неправильно определила тип вопроса или неправильно «поняла» его. В этом случае пользователь может захотеть не только переформулировать свой запрос, но и «объясниться» с программой с помощью диалога. Механизм рассуждений (вывода) Некоторые пользователи хотели бы получить ответ, выходящий за рамки доступных текстов. Для этого в QA-систему нужно добавить знания, общие для большинства областей (см. Общие онтологии в информатике), а также средства автоматического вывода новых знаний. Профили пользователей QA-систем Сведения о пользователе, такие как область интересов, манера его речи и рассуждения, подразумеваемые по умолчанию факты, могли бы существенно увеличить производительность системы.

Ссылки

  • Dialogus - поисковая машина, автоматически подбирающая ответы на вопросы пользователей.
  • Ответы@Mail.Ru: Человеческий поиск ответов на любые вопросы.

Wikimedia Foundation . 2010 .

Смотреть что такое "Вопросно-ответные системы" в других словарях:

    Эта статья об автоматических информационных системах. О типе социальных сетей см. система вопросов и ответов (веб сервис). Вопросно ответная система (QA система; от англ. QA англ. Question answering… … Википедия

    Интеллектуальная информационная система (ИИС) это один из видов автоматизированных информационных систем, иногда ИИС называют системой, основанных на знаниях. ИИС представляет собой комплекс программных, лингвистических и логико математических… … Википедия

    В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете … Википедия

    URL … Википедия

    - (от англ. Virtual виртуальный, Digital цифровой, Assistant помощник, сокращенно VDA) веб сервис и/или приложение для смартфонов и ПК, фактически исполняющий роль личного секретаря при пользователе. Решает задачи планирования графика,… … Википедия

    Представление знаний вопрос, возникающий в когнитологии (науке о мышлении), в информатике и в исследованиях искусственного интеллекта. В когнитологии он связан с тем, как люди хранят и обрабатывают информацию. В информатике с подбором … Википедия

    Представление знаний вопрос, возникающий в когнитологии (науке о мышлении), в информатике и в искусственном интеллекте. В когнитологии он связан с тем, как люди хранят и обрабатывают информацию. В информатике основная цель подбор представления … Википедия

    Предназначена для получения пользователем максимально точной (релевантной) информации по интересующей его (и ограниченной базой статей) теме. Обычно выбор статьи происходит по иерархии разделов справки. Справочные системы часто комбинируются с… … Википедия

    - (Natural Language Processing, NLP) общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает … Википедия

    Wolfram|Alpha Главная страница сайта … Википедия

Вскоре после появления в вычислительных науках метода обработки списков была написана (для иллюстрации того, как можно применить новые методы в вопросно-ответных системах) программа BASEBALL (Грин, Вулф, Хомский, Лафри, 1961; Грин, 1963). Эта программа предназначалась для ответа на вопросы об играх 1959 г. в американской бейсбольной лиге - отсюда и ее название. Хотя социальная ценность такого применения программы сомнительна, она дает хороший аппарат для проверки принципов программирования, которые нашли с тех пор широкое применение. Сообщения программе составлялись на простом подмножестве английского языка, на котором мы практически не будем останавливаться. Гораздо интереснее использованная здесь структура данных.

Данные программы BASEBALL были упорядочены в иерархическую систему. Эту структуру данных можно было бы эквивалентным образом представить в виде дерева. Самым высоким уровнем был ГОД (использовались данные только за 1959 г., но в программе предусматривались возможности и для нескольких лет), за ним, в порядке очередности, МЕСЯЦ и МЕСТО. После того как определялись ГОД, МЕСЯЦ и МЕСТО, последовательно указывались номер игры, день и счет (очков, выигранных командой).

В общих чертах формат структуры данных имел вид

Ясно, что эта форма структуры данных пригодна не только для бейсбола, и при написании подпрограмм обработки данных в программе BASEBALL имелась в виду работа с любыми иерархическими структурами данных независимо от интерпретации различных уровней и ветвлений.

Работу программы BASEBALL можно понять, рассмотрев два понятия: путь данных и список спецификаций.

Путь данных - это последовательность ветвей, которую надо пройти, чтобы получить информацию о конкретной игре.

Например, определяет и по ходу дела устанавливает некоторые сведения об этой игре. С каждой игрой связан единственный путь данных, причем вхождения в него определяют, как показано в примере, признаки игры. Для порождения всех возможных путей данных можно воспользоваться любым простым алгоритмом поиска на дереве, поскольку дерево данных, очевидно, конечно.

Список спецификаций - это список признаков, которыми должен обладать путь данных, чтобы быть допустимым ответом на вопрос. Например, списком спецификаций вопроса

Где (в каких местах) играла в июле команда „Редсокс“? (1) будет

Допустим, что языковый процессор сформировал список спецификаций для вопроса. Иерархический процессор данных воспринимает список спецификаций и систематически порождает все пути данных, согласующиеся с ним. Путь согласуется со списком спецификаций, если

(а) пара признак - значение (например, содержится и в списке спецификаций, и на пути, или

(б) пара признак - значение в списке спецификаций имеет значение (например, в этом случае соответствующее значение на пути данных регистрируется как возможное (в примере (1) список значений будет ответом).

Если пара признак - значение в списке спецификаций имеет значение она согласуется со значением любого признака на пути данных. Тип согласования не регистрируется.

Как уже говорилось, процесс порождения путей данных и согласования их со списком спецификаций не содержит ничего характерного для бейсбольной тематики. Производные пары признак - значение могут также быть согласованными, но в этом случае они зависят от приложения. Например, рассмотрим вопрос:

Сколько игр в июле выиграно командами на своих полях? (2)

Для ответа на него программа должна найти все пути данных, определяющие игры, для которых значение совпадает со значением и имя которой совпадает со значением имеет лучший счет. Ясно, что подпрограмма, составляющая соответствующий список спецификаций, опирается на знание игры в бейсбол.

Когда пути данных, удовлетворяющие спискам спецификаций, найдены, они объединяются в основной список. Он также представляется в виде дерева. Например, пути, отвечающие на вопрос (1), можно суммировать так:

Ответ на вопрос составляется в результате просмотра основного списка. В случае (1) ответ получен простым перечислением значений МЕСТА в основном списке.

Рис. 14.1. (см. скан) Этапы ответа на вопросы в программе BASEBALL.

Ответ на несколько более сложный вопрос

В скольких местах играла команда Редсокс“ в июле? (3)

можно получить, пересчитав значения в основном списке.

Схема этой процедуры ответа на вопросы изображена на рис. 14.1. Анализатор подмножества естественного языка

воспринимает вопрос на естественном языке, распознает тип заданного вопроса и составляет список спецификаций. Эта часть программы BASEBALL по необходимости связана с областью применения в двух отношениях. Очевидно, она должна иметь доступ к лексикону этой игры. Менее очевидно, что она должна содержать подпрограммы, преобразующие такие выражения естественного языка, как „сколько" или „в каком", в подходящие списки спецификаций. Таким образом, хотя Грин и др. не ограничивали пользователя в задании „индексированных" вопросов, как делается в библиотеках, они заранее определяли типы вопросов, которые система могла получить.

На шаге (Б) программа порождает основной список данных из списка спецификаций. Как уже отмечалось, большие участки в Б не зависят от приложений, хотя отдельные подпрограммы могут нуждаться в производных проверочных признаках. На последнем шаге ответ выводится из основного списка (блоки и Здесь программист снова должен предвидеть тип задаваемых вопросов и ввести в систему подходящую подпрограмму порождения основного списка для каждого типа вопросов.

Как видно из блоков на рис. 14.1, программа BASEBALL не ограничена вопросами, на которые можно ответить, проходя через данные только один раз. Рассмотрим вопрос:

Сколько команд играли в 8 местах в июле? (4)

Исходный список спецификаций таков:

На вопрос, определенный этим списком спецификаций, нельзя ответить сразу. Вместо этого процессор должен исследовать

и на нельзя ответить сразу, поэтому нужен вспомогательный вопрос:

На также нельзя сразу ответить, поэтому он запоминается и порождается вопрос

На можно ответить с помощью вопросного процессора, дающего основной список

Спецификация означает просмотр всех списков вида Сосчитав названия мест, можно получить ответ на его можно преобразовать в список и получить ответ на Отсюда сразу следует ответ на

Развитие программы BASEBALL не пошло дальше рамок первоначального проекта - обычная судьба систем искусственного интеллекта. В самом деле, идея иерархической структуры данных, кажется, исчезла из программирования для машинного понимания. Это несколько удивляет, ибо иерархические структуры позволяют осуществить эффективное управление данными, особенно если большой объем информации необходимо держать частично в первичной памяти и частично в относительно медленно работающих, недорогих устройствах памяти (подробности см. в статье Сассенгута, 1963). Кроме того, иерархические структуры можно реализовать методами управления данными, совместимыми с более традиционными системами обработки информации (Хант и Килдалл, 1971; Лефковиц, 1969). Без сомнения, когда собираешься пользоваться „понимающими“ программами, надо на каком-то этапе поставить неизбежные практические вопросы стоимости и системной совместимости. Возможно, в будущем стоило бы вернуться к принципам, реализованным в этой довольно старой программе.