Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
Состав работы
|
|
|
|
Работа представляет собой zip архив с файлами (распаковать онлайн), которые открываются в программах:
- Microsoft Word
Описание
Обработку естественно-языковых текстов (ЕЯТ) относят к области искусственного интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д.
Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3].
К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6].
Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения.
Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа.
В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной'базы.
Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации.
Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи:
- генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок;
- разработка рекомендаций по коррекции словарной базы.
Правила выявления некорректных значений МИ
Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359.
На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О».
Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3].
К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6].
Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения.
Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа.
В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной'базы.
Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации.
Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи:
- генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок;
- разработка рекомендаций по коррекции словарной базы.
Правила выявления некорректных значений МИ
Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359.
На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О».
Другие работы
Статистика, Вариант 2
vladslad
: 4 сентября 2015
Задание 1
Выполнить анализ состава безработного населения по возрастным группам субъекта РФ и соответствующего федерального округа, указанных в варианте задания, рассчитав следующие характеристики:
а) показатели центра распределения;
б) показатели вариации;
в) показатели дифференциации;
г) показатели формы распределения.
Дать сравнительную оценку полученных результатов субъекта РФ с характеристиками соответствующего федерального округа. Сформулировать выводы.
Вариант 2 – Южный федеральный округ
400 руб.
Мобильная буровая установка МБУ ОМЗ 2000/125-ДМ-Оборудование для капитального ремонта, обработки пласта, бурения и цементирования нефтяных и газовых скважин-Дипломная работа
leha.nakonechnyy.92@mail.ru
: 29 марта 2019
Мобильная буровая установка ОМЗ 2000/125-ДМ - Модернизация: Разработана конструкция планетарного редуктора для коробки передач привода КПП установки-Оборудование для капитального ремонта, обработки пласта, бурения и цементирования нефтяных и газовых скважин-Дипломная работа
Введение
Агрегаты для бурения и ремонта скважин в отличие от буровых установок предназначены для выполнения работ в ранее пробуренных скважинах. Иногда они применяются для бурения разведочных скважин малого диаметра и отно
2776 руб.
Информационные технологии в сфере труда и занятости
ivlevaolja
: 26 января 2012
СОДЕРЖАНИЕ
Введение 3
1. Определение понятия «информационные технологии» 5
2. Возможности применения информационных технологий в сфере труда и занятости 7
Заключение
60 руб.
Финальная контрольная работа__Макроэкономика_вариант №3
lenok333
: 20 июня 2016
Задание №1
В качестве целей государственного регулирования экономики можно назвать: рост ВНП, борьбу с инфляцией, сбалансированный платежный баланс, защиту окружающей среды, экономический рост.
Подумайте и определите:
Может ли государство добиваться достижения всех поставленных целей одновременно?
Могут ли быть эти цели несовместимыми? Если да, то какие именно цели несовместимы? Чем объясняется конфликт целей?
Задание №2
Опишите свою позицию по отношению к высоким тарифам и квотам на автомобили
150 руб.