Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
Состав работы
|
|
|
|
Работа представляет собой zip архив с файлами (распаковать онлайн), которые открываются в программах:
- Microsoft Word
Описание
Обработку естественно-языковых текстов (ЕЯТ) относят к области искусственного интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д.
Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3].
К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6].
Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения.
Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа.
В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной'базы.
Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации.
Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи:
- генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок;
- разработка рекомендаций по коррекции словарной базы.
Правила выявления некорректных значений МИ
Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359.
На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О».
Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3].
К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6].
Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения.
Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа.
В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной'базы.
Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации.
Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи:
- генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок;
- разработка рекомендаций по коррекции словарной базы.
Правила выявления некорректных значений МИ
Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359.
На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О».
Другие работы
Проекционное черчение. Стойка. Чертеж в автокаде
Laguz
: 11 августа 2025
Вычертить в трех ортогональных проекциях стойку в масштабе 1:1.
Сделать необходимые разрезы.
Сделано в автокаде.
Открывается так же нанокадом.
Если есть какие-то вопросы или нужно другой вариант, пишите.
160 руб.
Исследование операций (ДВ 6.2). Вариант №07
IT-STUDHELP
: 15 ноября 2021
"Исследование операций"
Вариант 8
Задание 1
Компания, занимающаяся разработкой новых средств бытовой химии, управляет биохимической лабораторией. Недавно сотрудники лаборатории разработали новое отличное средство чистки ковровых покрытий, Потенциально это средство может принести весьма значительную прибыль, но у компании нет достаточных средств, чтобы вывести это средство на рынок так, чтобы полностью реализовать его рыночный потенциал. Президент компании рассматривает следующие три возможности.
480 руб.
Ключ гаечный 56.000 СБ. Деталирование
HelpStud
: 23 декабря 2019
Гаечный ключ без свободного хода предназначен для навинчивания гаек в труднодоступных местах. Направление вращения изменяется при перестановке ручки 13 на противоположный хвостовик корпуса. Неизменность направления вращения шпинделя достигается применением двух храповых колес. При вращении ручки 7 по часовой стрелке усилие передается через верхнее колесо, при вращении против часовой стрелки — через нижнее. Для удобства пользования ключом ручка 13 может устанавливаться в любом из шести фиксирован
400 руб.
Муфта короткозамкнутая МЧ.03.00.00 деталировка
coolns
: 12 августа 2019
Муфта короткозамкнутая сборочный чертеж
Муфта короткозамкнутая чертежи
Муфта короткозамкнутая деталирование
Муфта короткозамкнутая скачать
Муфта короткозамкнутая 3д модель
Муфта короткозамкнутая служит для заколачивания фидера при измерении фазы синусоидальных колебаний электрического тока частотой от 500 до 3000 МГц.
С помощью муфты производится короткое замыкание контактного наконечника 3, который служит штепсельной вставкой, или контактного гнезда 5, являющегося розеткой высокочастотного ра
600 руб.