Введение в анализ данных

ID: 234914
Дата закачки: 02 Апреля 2023
Продавец: ezhva (Напишите, если есть вопросы)
Посмотреть другие работы этого продавца

Тип работы: Тесты
Сдано в учебном заведении: Синергия МФПУ и МОИ

Описание:
Введение в анализ данных (тест с ответами Юрайт /Синергия)
год сдачи 2022/2023
ИТОГОВЫЙ ТЕСТ
37 вопросов с ответами (~90% из 100, оценка отлично)
1.Вычисление среднего значения имеет смысл:

для качественного признака

для категоризированного признака

для количественного признака

для бинарного признака

2.Этот коэффициент был предложен К. Пирсоном (1901) как мера отклонения наблюдаемого двумерного распределения в таблице сопряженности от условия статистической независимости признаков. Как называется этот коэффициент?

коэффициент хи-квадрат

коэффициент Кетле

коэффициент Джини

фондовый коэффициент

3.Цель анализа данных — уточнение или обогащение существующего знания об исследуемом явлении или процессе. Сопоставьте действия, соответствующие двум самым прямым способам такого обогащения.

отыскание взаимосвязи между разными признаками (совокупностями) признаков в таблице данных

количественная оценка уровня интеллекта школьников по результатам тестирования и школьным оценкам

выявление кластера школьников со сходными оценками

вычисление среднего значения ряда чисел

«коррелирование» (correlation)

«агрегация» или «суммаризация» (summarization)

4.На рисунке изображены первая (слева) и финальная (справа) итерации извлечения аномальной группы из структуры некоторого множества объектов. Малая звезда представляет центр аномальной группы.

Как называется точка, обозначенная большой звездой?

нормальная точка

центральная точка

аномальная точка

реперная точка

Баллов: 1

5.Обычно при изучении связей в данных выделяют как минимум две группы признаков: , или входные, признаки и , или выходные, признаки.

6.В таблице приводятся данные о пяти признаках восьми компаний:

Сколько признаков будет содержать эта таблица после преобразования бинарных и номинальных признаков в количественные?

7.Расставьте в правильном порядке шаги алгоритма K-средних.

Инициализация

обновление кластеров

обновление центров

правило остановки

8. — это способ вычисления множества оценок интересующих нас параметров с помощью случайных подвыборок из множества наблюденных данных.

9.Ниже перечислены три типа методов кластер-анализа:

(a) кластеры получают непосредственно в терминах признаков (данный способ часто называют концептуальной кластеризацией);

(б) кластеры получают одновременно с трансформацией пространства признаков, что делает кластеры более четкими; данное направление совсем молодое и пока не очень развито;

(в) сначала получают кластеры как подмножества объектов, а затем уже производят их описание — такой способ является самым распространенным в настоящее время.

Чем они отличаются?

уровнем формализации данных

уровнем гранулярности

уровнем вовлеченности признаков

параметрами решающих правил

10.Если прогнозирование ведется по количественной переменной, а прогнозируемый признак категориальный, то можно использовать обучение для выработки правила, позволяющего прогнозировать значения целевого признака на тесте, при условии, что значения входных признаков известны. Пользователь оценивает качество правила, сличая прогнозы на тесте с известными ему значениями выходного признака — чем больше совпадений, тем выше качество прогноза. Как называется такое правило?

11.Как называется несколько устаревшее название для дисциплины, занимающейся построением классификационных решающих правил (распознавание с учителем, supervised learning) или кластеров (распознавание без учителя, unsupervised learning) по данным наблюдений?

Генетические алгоритмы (Genetic algorithms)

Распознавание образов (Pattern recognition)

Нейронные сети (Neural networks)

Математическая статистика (Mathematical statistics)

12.Какие объяснения наиболее подходят этим названиям среднего значения количественного признака?

Среднее значение

Медиана

Мода

Середина

- Среднее арифметическое значение признака

- Середина упорядоченного ряда значений признака

- Бин, на который приходится максимум гистограммы

- Середина размаха

13.Самый понятный и исчерпывающий способ агрегирования — это распределение, представленное так называемой гистограммой. На оси признака х отмечают границы, в которых изменяется признак, т. е. его минимальное и максимальное значения на имеющихся объектах. Отмеченный интервал, называемый также размахом признака, делят на некоторое число непересекающихся интервалов одинаковой длины. Затем подсчитывают, сколько объектов попадает в каждый такой интервал, и рисуют столбики высотой, соответствующей числу объектов в нем. Как называются такие интервалы?

14.Поставьте в правильном порядке шаги алгоритма выделения аномальной группы

Предобработка

Инициализация аномального центра

Обновление аномальной группы

Обновление аномального центра

Выдача результатов

15.Рассмотрим признак x, изменяющийся в пределах между 1 и 10. Разделим размах x на 9 бинов. Частоты x в бинах в порядке нумерации равны: 10, 20, 10, 20, 30, 20, 40, 20, 30. Сколько всего наблюдений x?

16.На графике изображена функция плотности.

Какому типу распределения она соответствует?

нормальному закону

закону Гаусса

равномерному распределению

степенному закону

17.В таблице приводятся данные о пяти признаках восьми компаний:

Сгруппируйте признаки по их типу.

количественные

бинарные

номинальные

количественные

18.Рассмотрим модель «мешок слов» в задаче выявления корреляции по данным следующей таблицы.

Объектами являются газетные статьи, разделенные на три категории в соответствии с темами «Феминизм», «Развлечения» и «Домохозяйство». Каждая статья характеризуется своим набором ключевых слов, представленных в соответствующей строке таблицы. Чтобы уменьшить эффект случайности отбора статей в таблицу данных, примем, что «мешок» содержит по одному появлению каждого ключевого слова, независимо от того, появилось ли оно в статьях данной категории или нет. Какое количество этот прием добавляет к наблюденным появлениям слов в категории Н?

41

10

21

31

19.На одном и том же наборе объектов исследуется зависимость двух количественных признаков x и y. Коэффициенты уравнения y = ax + b, наклон a и сдвиг b подобраны таким образом, чтобы суммарная ошибка, измеряемая суммой квадратов невязок, была минимальной. Как называется такое уравнение?

уравнение Бернулли

линейная регрессия

уравнение разброса

поле рассеяния

20.Для анализа связи между двумя номинальными признаками составляют следующую таблицу. Строки таблицы соответствуют категориям одного признака, а столбцы — категориям другого признака. Элемент на пересечении строки и столбца — количество объектов, обладающих соответствующими категориями и того и другого признаков. Такая таблица называется таблицей

21.При этом подходе глобальный поиск решений сложных задач оптимизации выполняется с помощью имитации процесса наследования генов в популяции. Для этого организуется процесс эволюции некоторого множества возможных решений, каждое из которых представлено в виде линейной «хромосомы». При переходе от поколения к поколению используются вероятностные механизмы генерации «брачных пар», «кросс-овера», «мутаций», «сохранения элиты». Как называются такие методы поиска решений?

Кластер-анализ (Cluster analysis)

Распознавание образов (Pattern recognition)

Генетические алгоритмы (Genetic algorithms)

Математическая статистика (Mathematical statistics)

22.При нахождении параметров линейной регрессии y = ax + b используется невязки (ошибки регрессии) — коэффициенты ei для пар (xi, yi) такие, что верны уравнения yi = axi + b + ei (i = 1, 2, ... N). Минимизируется средняя квадратичная ошибка L(a, b) = Σi ei2 / N = Σi (yi – axi – b)2 / N.Какого типа функция L(a, b)?

линейная

параболическая

эллиптическая

гиперболическая

23.Какой из коэффициентов, позволяющих оценить, насколько распределение отличается от равномерного, также называют качественной дисперсией?

фондовый коэффициент

коэффициент Джини

коэффициент вариации

коэффициент хи-квадрат

24.Как называется совокупность методов, разделяющих объекты таблицы наблюдений в множества (кластеры) таким образом, чтобы сходные объекты попадали в один и тот же кластер, а несходные — в разные кластеры?

Факторный анализ (Factor analysis)

Математическая статистика (Mathematical statistics)

Кластер-анализ (Cluster analysis)

Генетические алгоритмы (Genetic algorithms)

25.Этот подход к моделированию связи между входными и выходными признаками, использует структуру взаимосвязанных искусственных нейронов (устройств, испускающих выходной сигнал при накоплении достаточного количества входных сигналов); параметры сети обычно подбираются в процессе машинного обучения. Что это за метод исследования?

Генетические алгоритмы (Genetic algorithms)

Майнинг данных (Data mining)

Нейронные сети (Neural networks)

Машинное обучение (Machine learning)

26.Что означает совсем низкое или нулевое значение коэффициента корреляции двух количественных признаков?

отсутствие линейной связи

наличие неизвестного вида связи

наличие линейной связи

наличие квадратичной зависимости

27. Как называются современные методы оптимизации сложных функций, основанные не на изучении свойств задачи, как в классической математике, а с помощью процессов последовательного изменения популяции решений таким образом, чтобы имитировать какой-либо биологический или социальный процесс (движение роя пчел или колонии муравьев, репетиция оркестра и пр.)?

Социальная статистика (Social statistics)

Инспирированные природой алгоритмы (Nature-inspired algorithms)

Машинное обучение (Machine learning)

Факторный анализ (Factor analysis)

28. В теории линейных регрессионных уравнений Гальтона — Пирсона широко применяется понятие коэффициента корреляции, отражающего уровень «линейной связи» между двумя признаками. На каком промежутке расположены значения коэффициента корреляции?

от 0 и до бесконечности

от –1 до 1

от 0 до 1

на всей числовой оси

29. Поставьте в правильном порядке шаги алгоритма uK-средних (t), где t — порог разрешения, т. е. задаваемое пользователем минимальное количество объектов в аномальной группе, необходимое, чтобы она могла восприниматься как генератор отдельного кластера.

Настройка

Аномальная группа

Условие остановки

Отбрасывание малых кластеров

Метод K-средних

30. Как называется совокупность подходов и методов для автоматизации анализа текстовых документов, включая задачи установления степени сходства текстов, категоризации документов, формирования аннотаций и пр.?

Анализ текстов (Text analysis)

Вычислительный интеллект (Computational intelligence)

Кластер-анализ (Cluster analysis)

Генетические алгоритмы (Genetic algorithms)

31. В системе МатЛаб есть функции mean(X) и median(X). Они возвращают строку, содержащую средние значения или медианы, соответственно, столбцов матрицы. Какую величину возвращает следующая комбинация этих двух функций: mr = (max(X) + min(X)) / 2?

длину размаха

дисперсию среднего значения

середину размаха

квадратичный разброс данных

32. Может ли наличие выбросов — сильно выделяющихся наблюдений — повлиять на картину корреляции между признаками?

нет, не может повлиять

может незначительно изменить корреляцию

да, может сильно исказить картину корреляции

33. Установленное в больнице устройство сканировало 200 пациентов; результаты представлены в следующей таблице.

Строки этой таблицы соответствуют диагнозу сканера, а столбцы — окончательным результатам, установленным с помощью дальнейших тестов. Эта таблица перекрестной классификации (сопряженности) по-английски часто называется confusion table, что, вероятно, можно перевести как «таблица ошибок». Какова общая точность устройства?

7 %

96 %

98,9 %

93 %

34. Как называется совокупность методов для отыскания интересных закономерностей по данным, организованным в виде компьютерной базы или хранилища данных? Эти «интересные закономерности» образуют как бы вновь обнаруженное знание.

Факторный анализ (Factor analysis)

Нейронные сети (Neural networks)

Распознавание образов (Pattern recognition)

Майнинг данных (Data mining)

35.Какие объяснения наиболее подходят этим названиям мер разброса количественного признака?

Стандартное отклонение - Квадратный корень из среднего отклонения от среднего значения

Абсолютное отклонение - Среднее абсолютное отклонение от медианы

Полуразмах - Максимальное отклонение от середины размаха

36. P — число между 0 и 1. Как называется значение, разделяющее исходное множество объектов в пропорции P / (1 – P) в соответствии со значениями признака таким образом, что число объектов с большими значениями признака пропорционально P или 1 – P?

нижний P-квантиль

P-квантиль

верхний P-квантиль

37. На диаграмме прямоугольники представляют наблюдаемые данные, овалы — вычислительные структуры, шестиугольники — сравнение наблюдений с предсказаниями.

Какую задачу описывает эта диаграмма?

задачу суммаризации данных без расшифровщика

задачу суммаризации данных с расшифровщиком

задачу выявления корреляции между переменными

Комментарии: Введение в анализ данных (тест с ответами Юрайт /Синергия), год сдачи 2022/2023
ИТОГОВЫЙ ТЕСТ
37 вопросов с ответами (~90% из 100, оценка отлично)

Размер файла: 1011,5 Кбайт
Фаил: