Анализ Данных Лабораторная работа 2: Методы классификации анализа данных вариант 12
Состав работы
|
|
Работа представляет собой файл, который можно открыть в программе:
- Microsoft Word
Описание
Часть 1. Классификация данных методов наивного Байеса.
Цель задания: Изучение методов наивного байесовского классификатора при построении моделей машинного обучения и их применения, получение и закрепление умений и навыков при работе с наивным байесовским классификатором для решения задач линейной классификации.
Часть 2. Применение методов машинного обучения, дерево решений и случайные леса.
Цель задания: Изучение и применение классификации и регрессии данных методами построения дерева решений и случайного леса.
Задание.
Часть 1. Задание
С помощью данный методических указаний, рекомендуемой литературы (см., например, [1], глава 5) и материалов сети Интернет изучить основные теоретические сведения и инструкции по применению стандартных НБК.
Разработать модель классификации коротких документов по категориям. Для обучения использовать набор данных с разреженными признаками количеств слов из корпуса текста 20 Newsgroups («20 дискуссионных групп»). Для этого необходимо:
1. Скачать и загрузить данные. Набор данных доступен из библиотеки
sklearn: from sklearn.datasets import fetch_20newsgroups data =
fetch_20newsgroups()
2. Вывести заголовок набора данных, изучить признаки, выбрать
целевые переменные.
3. Для простоты обучения, выбрать несколько категорий.
4. Вывести образец записи на экран.
5. Определить количество классов и уникальных записей.
6. Подключить классы TfidfVectorizer и MultinomialNB из библиотеки
sklearn.
7. Преобразовать содержимое каждой строки в числовой вектор. Для
этого использовать векторизатор TF-IDF (https://scikit-learn.ru/).
8. При помощи функции make_pipeline преобразовать данные и
передать в классификатор.
9. Обучить модель.
10. Выполнить предсказание на примере разных предложений.
11. Проверить эффективность работы оценивателя. Построить
матрицу различий между настоящими и предсказанными метками для
контрольных данных (confusion_matrix). Сделать выводы по значениям
полученной матрицы ошибок.
12. Построить модель, применив другие алгоритмы семейства
байесовских классификаторов с различными параметрами. Сравнить
результаты.
13. Ответьте письменно на контрольные вопросы:
1. Что такое наивный байесовский классификатор и почему его называют
наивным?
2. С какими данными работает НБК и почему?
3. Какие задачи решает и какие решения генерирует НБК?
4. Каковы преимущества и недостатки НБК?
5. Каковы области применения НБК
6. В чем заключается смысл принципа максимального правдоподобия?
7. Дайте краткую характеристику стандартным модификациям НБК и
поясните их основные отличия.
8. Перечислите существующие классификаторы семейства байесовской
классификации. В чем заключаются характерные отличия и
особенности каждого из классификаторов?
9. Какие средства Python используются для реализации стандартных
НБК?
10. Что показывает матрица ошибок (confusion matrix) в отношении НБК?
11. Что выполняет функция pipeline()?
12. В каком случае и для каких данных используется векторизатор TFIDF?
13. Какие из метрик наилучшим образом подходят для определения
качества моделей байесовской классификации?
14. Таблица содержит данные о классификации писем на «СПАМ» и
«НЕ_СПАМ», а также информацию об общем количестве слов в
каждой группе:
Используя данные в таблице, посчитать вероятность того, что в
качестве следующего письма придет спам.
Часть 2. Задание
1. Загрузить набор данных, согласно варианту, провести
предварительную обработку данных, изучить набор данных, выполнить
описание.
Таблица 1. Выбор варианта
2. Разделить на тренировочный и тестовый наборы.
3. Обучить модель дерева решений на тренировочном наборе данных и
оцените ее точность на тестовом наборе, таких как точность, полнота и F1-
мера.
4. Построить график дерева решений, чтобы визуализировать процесс
принятия решений моделью.
5. Попробовать улучшить точность модели, изменяя параметры дерева
решений (глубина, минимальное количество объектов в листе и т. д.).
6. Обучить модель случайного леса на тренировочном наборе данных и
сравните ее точность с моделью дерева решений.
7. Используя метод feature_importances_ для оценки важности признаков в
модели случайного леса. Оценить важность признаков, используемых
моделью случайного леса, и сравните их с важностью признаков в модели
дерева решений.
8. Попробовать улучшить точность модели случайного леса, изменяя
количество деревьев, максимальную глубину деревьев и другие параметры.
9. Сравните результаты моделей дерева решений и случайного леса на
тестовом наборе данных и сделайте выводы об их эффективности в решении
данной задачи.
10.Выполнить отчет. Отчет по лабораторной работе необходимо представить
в текстовом формате с подробным описанием этапов выполнения заданий,
приложить скрины листингов и результатов выполнения.
Цель задания: Изучение методов наивного байесовского классификатора при построении моделей машинного обучения и их применения, получение и закрепление умений и навыков при работе с наивным байесовским классификатором для решения задач линейной классификации.
Часть 2. Применение методов машинного обучения, дерево решений и случайные леса.
Цель задания: Изучение и применение классификации и регрессии данных методами построения дерева решений и случайного леса.
Задание.
Часть 1. Задание
С помощью данный методических указаний, рекомендуемой литературы (см., например, [1], глава 5) и материалов сети Интернет изучить основные теоретические сведения и инструкции по применению стандартных НБК.
Разработать модель классификации коротких документов по категориям. Для обучения использовать набор данных с разреженными признаками количеств слов из корпуса текста 20 Newsgroups («20 дискуссионных групп»). Для этого необходимо:
1. Скачать и загрузить данные. Набор данных доступен из библиотеки
sklearn: from sklearn.datasets import fetch_20newsgroups data =
fetch_20newsgroups()
2. Вывести заголовок набора данных, изучить признаки, выбрать
целевые переменные.
3. Для простоты обучения, выбрать несколько категорий.
4. Вывести образец записи на экран.
5. Определить количество классов и уникальных записей.
6. Подключить классы TfidfVectorizer и MultinomialNB из библиотеки
sklearn.
7. Преобразовать содержимое каждой строки в числовой вектор. Для
этого использовать векторизатор TF-IDF (https://scikit-learn.ru/).
8. При помощи функции make_pipeline преобразовать данные и
передать в классификатор.
9. Обучить модель.
10. Выполнить предсказание на примере разных предложений.
11. Проверить эффективность работы оценивателя. Построить
матрицу различий между настоящими и предсказанными метками для
контрольных данных (confusion_matrix). Сделать выводы по значениям
полученной матрицы ошибок.
12. Построить модель, применив другие алгоритмы семейства
байесовских классификаторов с различными параметрами. Сравнить
результаты.
13. Ответьте письменно на контрольные вопросы:
1. Что такое наивный байесовский классификатор и почему его называют
наивным?
2. С какими данными работает НБК и почему?
3. Какие задачи решает и какие решения генерирует НБК?
4. Каковы преимущества и недостатки НБК?
5. Каковы области применения НБК
6. В чем заключается смысл принципа максимального правдоподобия?
7. Дайте краткую характеристику стандартным модификациям НБК и
поясните их основные отличия.
8. Перечислите существующие классификаторы семейства байесовской
классификации. В чем заключаются характерные отличия и
особенности каждого из классификаторов?
9. Какие средства Python используются для реализации стандартных
НБК?
10. Что показывает матрица ошибок (confusion matrix) в отношении НБК?
11. Что выполняет функция pipeline()?
12. В каком случае и для каких данных используется векторизатор TFIDF?
13. Какие из метрик наилучшим образом подходят для определения
качества моделей байесовской классификации?
14. Таблица содержит данные о классификации писем на «СПАМ» и
«НЕ_СПАМ», а также информацию об общем количестве слов в
каждой группе:
Используя данные в таблице, посчитать вероятность того, что в
качестве следующего письма придет спам.
Часть 2. Задание
1. Загрузить набор данных, согласно варианту, провести
предварительную обработку данных, изучить набор данных, выполнить
описание.
Таблица 1. Выбор варианта
2. Разделить на тренировочный и тестовый наборы.
3. Обучить модель дерева решений на тренировочном наборе данных и
оцените ее точность на тестовом наборе, таких как точность, полнота и F1-
мера.
4. Построить график дерева решений, чтобы визуализировать процесс
принятия решений моделью.
5. Попробовать улучшить точность модели, изменяя параметры дерева
решений (глубина, минимальное количество объектов в листе и т. д.).
6. Обучить модель случайного леса на тренировочном наборе данных и
сравните ее точность с моделью дерева решений.
7. Используя метод feature_importances_ для оценки важности признаков в
модели случайного леса. Оценить важность признаков, используемых
моделью случайного леса, и сравните их с важностью признаков в модели
дерева решений.
8. Попробовать улучшить точность модели случайного леса, изменяя
количество деревьев, максимальную глубину деревьев и другие параметры.
9. Сравните результаты моделей дерева решений и случайного леса на
тестовом наборе данных и сделайте выводы об их эффективности в решении
данной задачи.
10.Выполнить отчет. Отчет по лабораторной работе необходимо представить
в текстовом формате с подробным описанием этапов выполнения заданий,
приложить скрины листингов и результатов выполнения.
Похожие материалы
Обработка и анализ данных. Лабораторная работа 2. Работа с файлами. Списки. Вариант ОБЩИЙ
aleshin
: 22 октября 2022
Задание. Программа должна создавать файл *.xls, записать в него
сгенерированный случайным образом массив чисел. Затем, с помощью
реализованного алгоритма сортировки, одного из предложенных
преподавателем, записать отсортированную последовательность чисел в
ранее созданный файл *.xls.
Алгоритмы сортировки:
Сортировка выбором
Сортировка вставками
Сортировка “Методом пузырька”
Сортировка Шелла
Быстрая сортировка
322 руб.
Лабораторная работа №2 по предмету «Анализ данных»
farkuad1
: 15 февраля 2026
Лабораторная работа №2
Тема: «Методы классификации анализа данных»
Лабораторная работа состоит из двух частей:
Часть 1. Классификация данных методов наивного Байеса.
Цель задания: Изучение методов наивного байесовского классификатора при построении моделей машинного обучения и их применения, получение и закрепление умений и навыков при работе с наивным байесовским классификатором для решения задач линейной классификации.
Часть 2. Применение методов машинного обучения, дерево решений и
400 руб.
Лабораторная работа №2 по дисциплине: Обработка и анализ данных. Общий вариант
Учеба "Под ключ"
: 9 марта 2026
Лабораторная работа №2. Работа с файлами. Списки
Задание.
Программа должна создавать файл *.xls, записать в него сгенерированный случайным образом массив чисел. Затем, с помощью реализованного алгоритма сортировки, одного из предложенных преподавателем, записать отсортированную последовательность чисел в ранее созданный файл *.xls.
Алгоритмы сортировки:
- Сортировка выбором;
- Сортировка вставками;
- Сортировка «Методом пузырька»; (используется в данной работе)
- Сортировка Шелла;
-
500 руб.
Лабораторная работа №1 по дисциплине: Обработка и анализ данных. Вариант 2
xtrail
: 15 августа 2024
*** Лабораторная состоит из отчета (docx) и файлов программы, написанных на языке Python ***
Тема: Введение в Python.
Выбор варианта задания
По условию: полученный остаток от деления на «4» увеличиваем на 1.
Мои цифры пароля: 05
Таким образом, номер варианта:
5/4=1 (остаток 1) +1=2
Задание 1
Напишите программу для решения примера (по вариантам).
Предусмотрите проверку деления на ноль. Все необходимые переменные пользователь вводит через консоль. Запись |пример| означает «взять по модулю», т
400 руб.
Обработка и анализ данных. Лабораторные 1,2,3. Контрольная работа. ВАРИАНТ 2
aleshin
: 22 октября 2022
Лабораторная работа №1
Введение в Python
Задание 1
Напишите программу для решения примера (по вариантам).
Предусмотрите проверку деления на ноль. Все необходимые переменные пользователь вводит через консоль. Запись |пример| означает «взять по модулю», т.е. если значение получится отрицательным, необходимо сменить знак с минуса на плюс.
Для вычисления примеров вам понадобится библиотека math. Подключить ее можно, записав в ячейке кода: import math.
Задание 2
Разработать программу для вычисления
831 руб.
Лабораторные работы №2-3 по дисциплине: Обработка и анализ данных. Вариант общий
xtrail
: 15 августа 2024
*** Лабораторные состоят из отчетов (docx) и файлов программы, написанных на языке Python ***
Лабораторная работа №2
Тема: Работа с файлами. Списки
Задание
Программа должна создавать файл *.xls, записать в него сгенерированный случайным образом массив чисел. Затем, с помощью реализованного алгоритма сортировки, одного из предложенных преподавателем, записать отсортированную последовательность чисел в ранее созданный файл *.xls.
Алгоритмы сортировки:
- Сортировка выбором
- Сортировка вставками
900 руб.
Лабораторная работа №2 по дисциплине: Обработка и анализ данных. Вариант для всех (Быстрая сортировка)
SibGUTI2
: 27 июля 2024
Лабораторная работа No2.
Работа выполнена для алгоритма быстрой сортировки
Работа с файлами. Списки
Задание. Программа должна создавать файл *.xls, записать в него сгенерированный случайным образом массив чисел. Затем, с помощью реализованного алгоритма сортировки, одного из предложенных
преподавателем, записать отсортированную последовательность чисел в ранее созданный файл *.xls.
Алгоритмы сортировки:
Сортировка выбором
Сортировка вставками
Сортировка “Методом пузырька”
Сортировка Ш
350 руб.
Обработка и анализ данных. Лабораторная работа 1. Введение в Python. Вариант 2
aleshin
: 22 октября 2022
Лабораторная работа №1
Введение в Python
Задание 1
Напишите программу для решения примера (по вариантам).
Предусмотрите проверку деления на ноль. Все необходимые переменные пользователь вводит через консоль. Запись |пример| означает «взять по модулю», т.е. если значение получится отрицательным, необходимо сменить знак с минуса на плюс.
Для вычисления примеров вам понадобится библиотека math. Подключить ее можно, записав в ячейке кода: import math.
Задание 2
Разработать программу для вычислени
190 руб.
Другие работы
Способы диагностирования топливной аппаратуры дизелей
OstVER
: 20 октября 2013
Резервы ресурсосбережения при эксплуатации мобильных энергетических средств
Особенности конструкции ТА дизелей
Методы и средства диагностики ТА дизелей
Диагностирование ТА виброакустическим методом
Методы контроля ТА по параметрам рабочих процессов дизеля
Газоаналитический метод оценки состояния ТА по содержанию в ОГ дизеля О2 и СО2
Гидравлические методы диагностирования работы ТА
5 руб.
Гидромеханика РГУ нефти и газа им. И. М. Губкина Гидростатика Задача 26 Вариант 1
Z24
: 6 декабря 2025
Решите задачу 24 при условии, что рычаг отсутствует, и сила R приложена непосредственно к поршню малого диаметра.
Задача 24
Определить силу прессования F, развиваемую гидравлическим прессом. Диаметр большого плунжера равен D, а малого d. Большой плунжер расположен выше меньшего на величину H, усилие, приложенное к рукоятке, равно R. Температура жидкости 20°С.
150 руб.
Турбина паровая К-310-23,5
Андрей75
: 4 июня 2020
Чертеж "Турбина паровая К-310-23,5" в компасе
Паровая турбина состоит из двух основных частей. Ротор с лопатками — подвижная часть турбины. Статор с соплами — неподвижная часть.
По направлению движения потока пара различают аксиальные паровые турбины, у которых поток пара движется вдоль оси турбины, и радиальные, направление потока пара в которых перпендикулярно, а рабочие лопатки расположены параллельно оси вращения.
По числу цилиндров турбины подразделяют на одноцилиндровые и двух—трёх-, чет
200 руб.
Планирование производства тесты и задачи. 3 модуля
studypro
: 2 мая 2016
1. Тестовые задания № 1
1.1.1 Тип: свободное слово
Сущность планирования на предприятии заключается в научном обосновании … и разработке …
1.1.2 Тип: свободное слово
По охвату видов деятельности различают … и … планирование
1.1.3 Тип: свободное слово
Основные направления стратегического развития предприятия служат исходной информацией для разработки … планов предприятия
1.1.4 Тип: свободное слово
По методам выражения плановые показатели делятся на …
1.1.5 Тип: строгая логика "Да/нет"
Н
700 руб.