Контрольная работа, Анализ данных, Знакомство с библиотеками Python. Применение регрессионных методов машинного обучения. Применение классификационных методов машинного обучения.

Цена:
1000 руб.

Состав работы

material.view.file_icon KR.docx
Работа представляет собой файл, который можно открыть в программе:
  • Microsoft Word

Описание

Контрольная работа состоит из трех частей:
Часть 1. Знакомство с библиотеками Python.

Часть 2. Применение регрессионных методов машинного обучения.

Часть 3. Применение классификационных методов машинного обучения.


Данная контрольная работа выполняется в любом блокноте Python (Anaconda, Colab, PyCharm).
Для выполнения первой части выбирается один из 10 вариантов файлов, представленных в таблице 1, в соответствии с последней цифрой пароля. Файлы размещены в папке «Приложение 1».
Для выполнения задания второй части выбирается один из 10 вариантов файлов, представленных в таблице 2, в соответствии с последней цифрой пароля. Файлы размещены в папке «Приложение 2».
Отчет по контрольной работе необходимо представить в текстовом формате с подробным описанием этапов выполнения заданий, приложить скрины листингов и результатов выполнения. Включить в отчет ответы на контрольные вопросы.

Часть 1. Задание

Создать структуру данных Series из Python и Numpy ;
Создать структуру данных DataFrame любым из способов.
Создайте csv- файл: создайте строку, содержащую данные в формате CSV и постройте на их базе DataFrame.
Загрузите данные из файла csv в структуру DataFrame.
Варианты:

Таблица 1

Вариант

Файл

1

'Protein Consumption in

2

bank_marketing_dataset.csv

3

Churn.csv

4

heart.csv

5

ВВП России.csv

6

Дети с особенностями.csv

7

mba_decision_dataset

8

StudentsPerformance

9

winequality-white

0

Obesity prediction

Файл из архива (DataSet,)
** Файлы могут быть не подготовлен для обработки данных, вам необходимо, открыть файл в любом текстовом редакторе и расставить разделители согласно тому как требует это формат csv.

Выведите данные на просмотр
Выведите случайную выборку 10 из фреймов данных
Проверьте хвост набора данных — последние записи в наборе данных
Посмотрите размер набора данных
Выведите название столбцов
Проверить файл на пропуски данных
Заполнить имеющиеся пропуски 0.
Добавить в имеющуюся структуру строку и столбец.
Вывести строки структуры за исключением первых 7.
Задайте новую структуру DataFrame и объедините с текущей структурой (concat).
Задайте еще одну структуру DataFrame и соедините с текущей структурой по вертикали (применив join).
Загрузите исходный файл заново и выполните над данными следующие статистические операции, отмеченные в таблице, для числовых значений необходимо создать фрейм только для числовых значений и работать с ним:
Методы для расчета статистик

Метод

Описание

count

Количество не-NAобъектов

sum

Сумма

mean

Среднее значение

mad

Среднее абсолютное отклонение

median

Медиана

min

Минимум

max

Максимум

mode

Мода

abs

Абсолютное значение

std

Стандартное отклонение

quantile

Квантиль (%)

Вывести сводную информацию по статистикам (describe()).
Вывести описательную статистику всех категориальных переменных
На основе данных таблицы построить гистограммы для подходящих значений.
Часть 2. Задание

С помощью данный методических указаний, и материалов сети Интернет изучить основные теоретические сведения и инструкции по реализации множественной линейной регрессии.
В соответствии с номерами варианта выбрать из табл. 2 заданный набор данных и выполнить постановку задачи регрессионного анализа: определить цель исследования и поставить конкретные задачи анализа (например, определить стоимость на подержанные автомобили в зависимости от его характеристик, и т.п.).
В соответствии с постановкой задачи импортировать требуемые библиотеки:
обработка данных: pandas и numpy,
модель множественной регрессии: linear_model из sklearn,
разделение данных обучения и тестирования: train_test_spli,
оценка модели: r2_score;
Обработать данные,
просмотреть;
избавиться от пропусков;
определить формат данных для работы;
проверить корректность отображения;
провести словесное описание набора данных;
провести описательную статистику;
определить категориальные данные и преобразовать их в (есть несколько способов сделать это, например, с помощью Label Encoder или One Hot Encoder - оба доступны в модуле sklearn (подробнее см. https://scikit-learn.ru/6-3-preprocessing-data/#encoding-categorical-features). Можно использовать классический подход фиктивных переменных, который преобразует категориальные признаки в числовые дихотомические переменные);
представить визуализацию зависимости данных (представить графики, гистограммы, диаграммы и т.д.).
Подготовить входные данные:
определить зависимую переменную, исходя из тото, что требуется спрогнозировать;
определить функции для прогноза, то есть набор характеристик для прогноза (можно брать все, а можно исключить лишние характеристики):
при выборе признаков проверять корреляцию между зависимой и каждой независимой переменной. Если они не коррелированны, следует удалить соответствующий элемент из модели;
проверить мультиколлинеарность, взаимосвязь между независимыми переменными, удалить коррелированные элементы, чтобы избежать переобучения модели;
есть несколько способов выбрать переменные для модели: прямой отбор и обратное исключение, в этом процессе добавляется или удаляется по одной переменной и проверяется производительность режима;
разделить данные на наборы для обучения и тестирования;
Построить модель:
вызвать регрессор: model = LinearRegression();
передать данные в модель: model.fit(X, Y);
выполнить предсказание: y_pred = model.predict(X).
Провести оценивание модели. Выбрать метод для оценивания модели (в классической статистике производительность моделей линейной регрессии оценивается с помощью расчета коэффициента детерминации (R²), то есть разница между выборками в наборе данных и прогнозами, сделанными моделью, которое дает значение от 0 до 1, и чем выше R², тем лучше модель. Подробнее о методике расчета коэффициента детерминации см. https://scikit-learn.org/...etrics.r2_score.html.
Ответьте письменно на контрольные вопросы

В чем отличия между простой и множественной линейной регрессей?
В чем разница в методиках расчета коэффициентов корреляции с помощью Pandas и SciPy?
В чем разница между числовыми и категориальными переменными? Каковы отличия их обработки методом регрессионного анализа?
Как осуществляется подбор членов линейного уравнения при построении модели множественной линейной регрессии?
Что такое мультиколлинеарность и как её избежать?
Как идентифицировать фиктивные поля в наборе данных?
Для чего рассчитывается коэффициент корреляции Пирсона и какие средства Python для этого используются?

Выполнить загрузку и предварительную обработку данных, построить модель.
На сайте Kaggle необходимо выбрать один из наборов данных подходящих для разработки модели k ближайших соседей. Далее определить, как устроен датасет и какую постановку задачи можно выполнить. Т.к. алгоритм является метрическим, соответственно значения полей должны быть числовыми.
Выделить целевую переменную. Определить, какая из задач обучения с учителем k ближайших соседей будет рассматриваться – классификация или регрессия.
Определить распределение значений целевой переменной. Построить подходящую визуализацию. Прокомментировать результат.
Провести необходимую предобработку данных. Все категориальные признаки преобразовать в числовые.
Разбить набор данных на обучающую и тестовую выборки с помощью метода train_test_split.
Обучить алгоритм классификации kNeighborsClassifier и регрессии KNeighborsRegressor. Оценить качество модели на тестовой выборке помощью mean_squared_error. Сравнить результаты и сделать выводы.

Поиск наилучшего значения количества соседей.
Разработать генератор, который выполнит разбивку на блоки и перемешает выборку перекрестной проверки. Число блоков n_splits равно 5. Например: kf = KFold(n_splits=5, shuffle=True, random_state=42).
Найти показатель качества модели kNN кросс-валидации (cross_val_score).
Сделать вывод, приемлемо ли использование данной метрики качества в выбранной задаче.
Пересчитать качество модели при помощи другой наиболее подходящей метрики из списка в табл. 3.
Выполнить перекрестную проверку при возможных значения количества соседей от 1 до 50. Использовать GridSearchCV.
Сделать выводы: при каком количестве соседей качество модели получилось наилучшим, чему равна эта оценка качества.
Построить график значений метрики в зависимости от количества соседей (matplotlib.pyplot.plot()).
Выбор метрики в методе k ближайших соседей.
Выполнить перебор различных вариантов значений метрики Минковского по сетке от 1 до 10 с таким шагом, чтобы всего было протестировано 200 вариантов (удобно использовать функцию numpy.linspace: np.linspace(1.0, 10.0, num = 200)). Использовать наилучшее значение n_neighbors, найденое ранее.
Для параметра weights задать значение 'distance' (данный параметр добавляет в алгоритм веса, зависящие от расстояния до ближайших соседей). В качестве метрики качества снова использовать accuracy . Качество оценить с помощью кросс-валидации по 5 блокам.
Определить, при каком значении меры Минковского на кросс-валидации качество модели оказалось наилучшим. При этом учесть, что cross_val_score возвращает массив показателей качества по блокам, поэтому необходимо максимизировать среднее этих показателей.
Разработать алгоритм классификатора либо регрессора методом k ближайших соседей без использования библиотек.
Ответить письменно на контрольные вопросы
В чем заключается метод классификации?
Какие задачи можно решить методом k ближайших соседей?
Какие подходы для реализации метод классификации могут быть использованы и в чем их суть?
Какие средства Python применяются для реализации метод классификации?
В чем заключается метод k ближайших соседей?
С какими данными – числовыми или категориальными – работает метод k ближайших соседей?
Каков смысл задачи определения числа ближайших соседей и как этот параметр влияет на результат решения задачи?
Метрика

Ссылка на описание

‘accuracy’

metrics.accuracy_score

‘balanced_accuracy’

metrics.balanced_accuracy_score

‘top_k_accuracy’

metrics.top_k_accuracy_score

‘average_precision’

metrics.average_precision_score

‘neg_brier_score’

metrics.brier_score_loss

‘f1’

metrics.f1_score

‘f1_micro’

metrics.f1_score

‘f1_macro’

metrics.f1_score

‘f1_weighted’

metrics.f1_score

‘f1_samples’

metrics.f1_score

‘neg_log_loss’

metrics.log_loss

‘precision’ etc.

metrics.precision_score

‘recall’ etc.

metrics.recall_score

‘jaccard’ etc.

metrics.jaccard_score

‘roc_auc’

metrics.roc_auc_score

‘roc_auc_ovr’

metrics.roc_auc_score

‘roc_auc_ovo’

metrics.roc_auc_score

‘roc_auc_ovr_weighted’

metrics.roc_auc_score

‘roc_auc_ovo_weighted’

metrics.roc_auc_score

‘explained_variance’

metrics.explained_variance_score

‘max_error’

metrics.max_error

‘neg_mean_absolute_error’

metrics.mean_absolute_error

‘neg_mean_squared_error’

metrics.mean_squared_error

‘neg_root_mean_squared_error’

metrics.mean_squared_error

‘neg_mean_squared_log_error’

metrics.mean_squared_log_error

‘neg_median_absolute_error’

metrics.median_absolute_error

‘r2’

metrics.r2_score

‘neg_mean_poisson_deviance’

metrics.mean_poisson_deviance

‘neg_mean_gamma_deviance’

metrics.mean_gamma_deviance

‘neg_mean_absolute_percentage_error’

metrics.mean_absolute_percentage_error

* https://scikit-learn.ru/3...lity-of-predictions/
Контрольная работа по дисциплине: Анализ данных.
Задание №1 Надстройки интеллектуального анализа данных для Microsoft Office Задание 1. Установите надстройки интеллектуального анализа данных для Microsoft Office 2007. Выполните необходимую конфигурацию MS SQL Server 2008 (2008 R2) для работы с надстройками. Создайте и протестируйте подключение. Задание 2. Подготовленный набор данных (для примера, можно взять приведен-ный на рис. 1.14) отформатируйте как таблицу. Убедитесь, что вы можете получить до-ступ к вкладке с инструментами интеллектуал
User IT-STUDHELP : 1 апреля 2022
400 руб.
promo
Контрольная работа для всех вариантов, Анализ данных
Задание №1 Надстройки интеллектуального анализа данных для Microsoft Office Задание 1. Установите надстройки интеллектуального анализа данных для Microsoft Office 2007. Выполните необходимую конфигурацию MS SQL Server 2008 (2008 R2) для работы с надстройками. Создайте и протестируйте подключение. Задание 2. Подготовленный набор данных (для примера, можно взять приведенный на рис. 1.14) отформатируйте как таблицу. Убедитесь, что вы можете получить доступ к вкладке с инструментами интеллектуальн
User мила57 : 21 июля 2020
400 руб.
promo
Анализ Данных. Контрольная Работа. Все Варианты
Анализ Данных. Контр работа. Задание №1 Надстройки интеллектуального анализа данных для Microsoft Office Задание 1. Установите надстройки интеллектуального анализа данных для Microsoft Office 2007. Выполните необходимую конфигурацию MS SQL Server 2008 (2008 R2) для работы с надстройками. Создайте и протестируйте подключение. Задание 2. Подготовленный набор данных (для примера, можно взять приведенный на рис. 1.14) отформатируйте как таблицу. Убедитесь, что вы можете получить доступ к вкладке
310 руб.
Анализ Данных. Контрольная Работа. Все Варианты
Контрольная работа по дисциплине: Анализ данных
Задание №1 Надстройки интеллектуального анализа данных для Microsoft Office Задание 1. Установите надстройки интеллектуального анализа данных для Microsoft Office 2007. Выполните необходимую конфигурацию MS SQL Server 2008 (2008 R2) для работы с надстройками. Создайте и протестируйте подключение. Задание 2. Подготовленный набор данных (для примера, можно взять приведенный на рис. 1.14) отформатируйте как таблицу. Убедитесь, что вы можете получить доступ к вкладке с инструментами интеллектуально
User DENREM : 18 октября 2017
700 руб.
Контрольная работа по дисциплине "Анализ данных"
Задание №1 Надстройки интеллектуального анализа данных для Microsoft Office Задание №2 Использование инструментов "Analyze Key Influencers" и "Detect Categories" Задание №3 Использование инструментов "Fill From Example" и "Forecast" Задание №4 Использование инструментов "Highlight Exceptions" и "Scenario Analysis" Задание №5 Надстройки интеллектуального анализа данных для Microsoft Office Отчет в word и расчеты в excel Оценка:Отлично
User Ekaterina4 : 12 октября 2017
380 руб.
Анализ данных, Контрольная работа, вариант №3
Надстройки интеллектуального анализа данных для Microsoft Office. Использование инструментов "Analyze Key Influencers" и "Detect Categories". Использование инструментов "Fill From Example" и "Forecast". Использование инструментов "Highlight Exceptions" и "Scenario Analysis". Надстройки интеллектуального анализа данных для Microsoft Office.
User Светлана59 : 30 марта 2023
650 руб.
Анализ данных (Контрольная работа. Билет №22)
Федеральное агентство связи Сибирский Государственный Университет Телекоммуникаций и Информатики Межрегиональный центр переподготовки специалистов Контрольная работа По дисциплине: Анализ данных Выполнил: Группа: Вариант: 22 Проверил: Полетайкин Алексей
User Qski : 27 января 2019
350 руб.
Анализ данных (Контрольная работа. Билет №22)
Анализ данных. Контрольная работа. Все варианты, СибГУТИ
Задание №1 Надстройки интеллектуального анализа данных для Microsoft Office Задание 1. Установите надстройки интеллектуального анализа данных для Microsoft Office 2007. Выполните необходимую конфигурацию MS SQL Server 2008 (2008 R2) для работы с надстройками. Создайте и протестируйте подключение. Задание 2. Подготовленный набор данных (для примера, можно взять приведенный на рис. 1.14) отформатируйте как таблицу. Убедитесь, что вы можете получить доступ к вкладке с инструментами интеллектуальн
User Fistashka : 19 апреля 2017
400 руб.
Анализ данных. Контрольная работа. Все варианты, СибГУТИ
Территориальная концентрация науки в Российской Федерации
План курсовой работы: 1. Введение. Стр.3 2. Особенности Российского научного комплекса. Стр.4 3. Роль научного комплекса в системе хозяйствования, задачи и цели научно-технического прогресса. Стр.6 4. Основные элементы инфраструктуры РНК. Стр.12 5. Общие сведения о РАН. Структура Российской Академии Наук. Отделения и Научные центры
User DocentMark : 27 сентября 2013
Аналіз міжнародних економічних відносин України, Угорщини, Франції та Бразилії
ВСТУП РОЗДІЛ1. ОСНОВНІ ПОКАЗНИКИ ЕКОНОМІК УГОРЩИНИ, ФРАНЦІЇ, БРАЗИЛІЇ ТА ЇХ ПОЛІТИЧНИЙ РІВЕНЬ ВЗАЄМОВІДНОСИН З УКРАЇНОЮ 1.1. Угорщина 1.1.1 Загальна інформація про Угорщину, географічне положення, населення та державний устрій Угорщини 1.1.2 Економічна ситуація в Угорщині 1.1.3 Загальна характеристика відносин Україна – Угорщина 1.2. Франція 1.2.1 Загальна інформація про Францію, географічне положення, населення та державний устрій Франції 1.2.2 Економічна ситуація в Франції 1.2
User Qiwir : 26 июля 2013
10 руб.
Контрольная работа по дисциплине "Химия радиоматериалов". 12 вариант
Задача No 3.1.1Определить падение напряжения в линии электропередач длиной L при температуре , если провод имеет сечение S и по нему течет ток I. No вар. Материал ,С 2 Cu -30 0 +30 500 30 250 Задача No 3.1.2 Определить длину проволоки для намотки проволочного резистора с номиналом R, и допустимой мощностью рассеяния P. No вар. Материал R,Ом P,Вт J,А/мм 2 Х20Н80 2000 5 0,3 1,05 Задача 3.2.1 Определить концентрацию электронов и дырок в собственном и примесном полупроводнике, содержащем N атомов
170 руб.
Маргиналы и их социальные интересы
СОДЕРЖАНИЕ 1. Вступление………………………………………………………..…2 2. Маргинальное искусство…………………………………………...3 3. Маргиналы в политике………………………….............................14 4. Философы и маргиналы………………………………………...…16 5. Маргинальность и право…………………………………………..18 6. Список использованной литературы……………………………..21 Очень общим образом скажем, что нормальность есть общепринятость и вытекает на ка
User Aronitue9 : 20 марта 2013
19 руб.
up Наверх