Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»

Категории: Информатика, Работа
Добавлен: 26.02.2014
Размер: 5 KB
Покупок: 0
Добавил:
alfFRED

Написать сообщение

Все работы пользователя

Цена:

10 руб.

Скачать

Состав работы

49DD5DA2-AE36-4621-806D-35B0C8EDA380.zip [ 5 KB ]

bestref-412668.rtf [ 14 KB ]

Работа представляет собой zip архив с файлами (распаковать онлайн), которые открываются в программах:

Microsoft Word

Что делать, если файл не открывается

Описание

Обработку естественно-языковых текстов (ЕЯТ) относят к области искусственного интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д.
Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3].
К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6].
Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения.
Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа.
В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной'базы.
Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации.
Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи:
- генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок;
- разработка рекомендаций по коррекции словарной базы.
Правила выявления некорректных значений МИ
Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359.
На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О».

Экзамен по дисциплине: Направляющие среды электросвязи. Билет №15

Билет 15. 1.Расчет длины участка регенерации ВОЛП 2.Коммутаторы на основе полупроводниковых оптических усилителей

ДО СИБГУТИ Сети связи и системы коммутации Работа Экзаменационная

konst1992 : 27 января 2018

210 руб.

Лабораторная работа. Сети связи. Вариант №12. «Системы сигнализации ТфОП»

Цель работы: 1.1. Изучить классификацию и состав сигналов систем сигнализаций, применяемых на телефонной сети общего пользования. 1.2. Изучить сигнальные коды: • одночастотный; • по двум выделенным сигнальным каналам системы ИКМ. 1.3. Приобрести навыки по составлению алгоритмов установления соединения, используя заданный сигнальный код. Задание: Задается фрагмент сети и сигнальный код, используемый на участке междугородной или внутризоновой сети. Требуется составить алгоритм установления соедин

СибГУТИ Работа Лабораторная Сети связи

elina56 : 4 мая 2018

70 руб.

Анатомия и возрастная физиология.Тесты Синергия (71 вопрос)

Сдано на 73 баллов в 2018г. Скриншот с отметкой прилагается к работе. Ответы выделены цветом в Worde. После покупки Вы получите файл с ответами на вопросы которые указаны ниже: 1.Внутреннюю среду организма образуют: кровь, ... лимфа и тканевая жидкость тканевая жидкость и цитоплазма клеток лимфа желчь и тканевая жидкость 2.Главной функцией паращитовидных желез является регуляция ... углеводного обмена процессов роста и развития обмена кальция и фосфора жирового обмена 3.Ребенок начинает раз

Синергия МФПУ и МОИ Тесты Анатомия

annaserg : 5 октября 2022

350 руб.

Гидравлика ИжГТУ им. М.Т. Калашникова Задача 8 Вариант 5

Днище открытого бака с водой находится на расстоянии h1, м над поверхностью земли. Глубина воды в баке равна h2, м. Найти гидростатический напор относительно поверхности земли для точки, находящейся на глубине h3, м от уровня воды в баке.

Задачи Гидравлика

Z24 : 9 декабря 2025

120 руб.

Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»

Состав работы

Описание

Другие работы

Вход