Как создать квартет Анскомба в Excel?

Опубликовано: 24 Февраля, 2023

Anscombe Quartet разработал ситуацию, при которой, несмотря на разные наборы данных, с разными диаграммами рассеяния, данные могут иметь одинаковые значения корреляции между собой. Anscombe Quartet известен тем, что предоставил четыре набора данных, которые говорят нам о важности построения графиков и линий тренда в данных. В этой статье мы узнаем о квартете Анскомба в Excel.

Квартет Анскомба

В 1973 году Фрэнсис Анскомб сказал нам о важности графического отображения данных перед их анализом, несмотря на то, что они имеют схожие арифметические тождества. Квартет Анскомба — это группа из четырех наборов данных , которые выглядят одинаково с одинаковыми средними значениями и значениями корреляции , но при создании точечной диаграммы они выглядят совершенно по-разному . Мы рассматриваем одиннадцать значений данных в каждом наборе данных.

Квартет Анскомба в Excel

Шаг 1: Учитывая набор данных Anscombe Quartet . На 4 изображениях ниже показаны 4 набора данных , созданных Anscombe.

Набор данных 1:

Набор данных 2:

Набор данных 3:

Набор данных 4:

Шаг 2: Физически просмотрев приведенные выше данные. Мы не можем сделать вывод о том, какой тип корреляции может иметь данные. Чтобы иметь лучшее визуальное знание, мы создадим точечные диаграммы для каждого набора данных. Мы покажем шаги создания точечной диаграммы для набора данных1 , аналогичный процесс можно использовать для создания диаграмм для остальных наборов данных. Выберите набор данных1 , A2:B13 . Перейдите на вкладку «Вставка» .

Шаг 3: В разделе «Графики» выберите параметр «Разброс» . Выберите точечную диаграмму из появившегося списка.

Шаг 4: Для набора данных1 создается точечная диаграмма.

Шаг 5. Повторите шаги 2, 3 и 4 и создайте аналогичные диаграммы для набора данных2 , набора данных3 и набора данных4 .

Набор данных 2:

Набор данных 3:

Набор данных 4:

Шаг 6. Из диаграмм видно, что каждая диаграмма имеет различную визуализацию на точечной диаграмме. Набор данных 1 имеет равномерное распределение , набор данных 2 имеет параболическую форму , набор данных 3 представляет собой почти линию y = x , а набор данных 4 представляет собой почти прямую линию , параллельную оси Y. Наша следующая задача — добавить линию тренда для каждого из графиков, чтобы лучше понять квартет Анскомба. Выберите диаграмму, созданную для набора данных1 . Перейдите на вкладку «Макет» и нажмите «Линия тренда» .

Шаг 7: Появится раскрывающийся список. Нажмите на опцию «Линейная линия тренда» .

Шаг 8: На графике появляется линия тренда.

Шаг 9: Повторите шаги 6, 7 и 8 и добавьте аналогичные линии тренда к наборам данных2, наборам данных3 и наборам данных4.

Набор данных 2:

Набор данных 3:

Набор данных 4:

Шаг 10: Мы можем заметить, что линия тренда выглядит одинаково для каждого из наборов данных. Давайте добавим уравнение линии тренда , чтобы узнать больше о текущих наборах данных. Выберите диаграмму для набора данных1. Перейдите на вкладку «Макет» и нажмите «Линия тренда» .

Шаг 11: Появится раскрывающийся список. Нажмите «Дополнительные параметры линии тренда».

Шаг 12: На экране появится новое диалоговое окно, имя и линия тренда формата . Установите флажок Отобразить уравнение на графике .

Шаг 13: На графике появится уравнение линии тренда. Уравнение y = 0,5x + 3 для набора данных1 .

Шаг 14. Повторите шаги 10, 11, 12 и 13 и аналогичным образом добавьте уравнение линий тренда для набора данных2, набора данных3 и набора данных4.

Набор данных 2:

Набор данных 3:

Набор данных 4:

Мы можем заметить, что уравнение линии тренда одинаково для всех наборов данных, т.е. y = 0,5x + 3, несмотря на то, что точечные диаграммы сильно отличаются друг от друга. Таким образом, квартет Anscombe доказал, что только сводные статистические данные не являются полностью достоверными, необходимо также просмотреть графики.

Вывод

Таким образом, мы заключаем, что графическое представление важно перед анализом данных, идентичны ли они или одинаковы ли статистические тождества по своей природе. Графические представления различны и имеют разные отношения во всех наборах данных.