Страницу Назад
Поискать другие аналоги этой работы
10 Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»ID: 137882Дата закачки: 26 Февраля 2014 Продавец: alfFRED (Напишите, если есть вопросы) Посмотреть другие работы этого продавца Тип работы: Работа Форматы файлов: Microsoft Office Описание: Обработку естественно-языковых текстов (ЕЯТ) относят к области искусственного интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д. Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3]. К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6]. Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения. Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа. В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной\'базы. Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации. Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи: - генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок; - разработка рекомендаций по коррекции словарной базы. Правила выявления некорректных значений МИ Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359. На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О». Размер файла: 5,1 Кбайт Фаил: (.zip)
Коментариев: 0 |
||||
Есть вопросы? Посмотри часто задаваемые вопросы и ответы на них. Опять не то? Мы можем помочь сделать! Некоторые похожие работы:К сожалению, точных предложений нет. Рекомендуем воспользоваться поиском по базе. |
||||
Не можешь найти то что нужно? Мы можем помочь сделать! От 350 руб. за реферат, низкие цены. Спеши, предложение ограничено ! |
Вход в аккаунт:
Страницу Назад
Cодержание / Информатика / Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»
Вход в аккаунт: