Квартет анскомба

Опубликовано: 30 Ноября, 2021

Согласно определению, данному в Википедии, квартет Анскомба состоит из четырех наборов данных, которые имеют почти идентичные простые статистические свойства, но при этом выглядят очень разными на графике. Каждый набор данных состоит из одиннадцати (x, y) точек. Они были построены в 1973 году статистиком Фрэнсисом Анскомбом, чтобы продемонстрировать как важность построения графиков данных перед их анализом, так и влияние выбросов на статистические свойства.

Простое понимание:
Однажды Фрэнсис Джон «Фрэнк» Анскомб, который был статистиком с большой репутацией, нашел в своем сне 4 набора из 11 точек данных и попросил совет в качестве последнего желания построить эти точки. Эти 4 набора из 11 точек данных приведены ниже.

После этого совет проанализировал их, используя только описательную статистику, и нашел среднее значение, стандартное отклонение и корреляцию между x и y.

Загрузите файл csv здесь.

Код: программа Python для поиска среднего значения, стандартного отклонения и корреляции между x и y

Выход:

9.0
3,32
7,5
2,03
0,816

Итак, позвольте мне показать вам результат в виде таблицы для лучшего понимания.

Код: программа Python для построения графика рассеяния

# Import the required libraries
from matplotlib import pyplot as plt
import pandas as pd
# Import the csv file
df = pd.read_csv( "anscombe.csv" )
# Convert pandas dataframe into pandas series
list1 = df[ 'x1' ]
list2 = df[ 'y1' ]
# Function to plot scatter
plt.scatter(list1, list2)
# Function to show the plot
plt.show()
# Similarly plot scatter plot for other 3 data sets
# This code is contributed by Amiya Rout

Для линии регрессии обратитесь к этому.
Выход:

Примечание: в определении упоминается, что квартет Анскомба состоит из четырех наборов данных, которые имеют почти идентичные простые статистические свойства, но при отображении на графике выглядят очень разными.

Объяснение этого вывода:

  • В первом (вверху слева), если вы посмотрите на диаграмму рассеяния, вы увидите, что между x и y существует линейная зависимость.
  • Во втором (вверху справа), если вы посмотрите на этот рисунок, вы можете сделать вывод, что существует нелинейная связь между x и y.
  • В третьем (внизу слева) вы можете сказать, когда есть идеальная линейная связь для всех точек данных, кроме одной, которая кажется выбросом, которая указана далеко от этой линии.
  • Наконец, четвертый (внизу справа) показывает пример, когда одной точки с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции.

Заявление:
Квартет по-прежнему часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с определенным типом взаимосвязи, а также неадекватности основных статистических свойств для описания реалистичных наборов данных.

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.