Интерпретации гистограммы

Опубликовано: 16 Июля, 2021

Гистограмма - это разновидность гистограммы, на которой значения данных сгруппированы вместе и помещены в разные классы. Эта группировка позволяет увидеть, как часто данные каждого класса встречаются в наборе данных.

Гистограмма графически показывает следующее:

  • Частота различных точек данных в наборе данных.
  • Расположение центра данных.
  • Распространение набора данных.
  • Асимметрия / дисперсия набора данных.
  • Наличие выбросов в наборе данных.

Эти функции четко указывают на правильную модель распределения данных. График вероятности или критерий согласия можно использовать для проверки модели распределения.

Гистограмма содержит следующие оси:

  • Вертикальная ось : частота / количество каждой ячейки.
  • Горизонтальная ось : список ящиков / категорий.

Интерпретации гистограммы:

  • Нормальная гистограмма: это классическая колоколообразная гистограмма, в которой большинство частотных отсчетов сосредоточено в середине с уменьшающимися хвостами, и есть симметрия относительно медианы. Поскольку нормальное распределение чаще всего наблюдается в реальных сценариях, вы, скорее всего, их найдете. В нормально распределенной гистограмме среднее значение почти равно медиане.
  • Ненормальная гистограмма с коротким и длинным хвостом: в короткохвостой гистограмме хвост очень быстро приближается к 0, когда мы движемся от медианы данных, на длиннохвостой гистограмме хвост приближается к 0 медленно, когда мы удаляемся от медиана. Здесь мы называем хвост крайними областями гистограммы, где большая часть данных не сконцентрирована, и это по обе стороны от пика.
  • Бимодальная гистограмма: режим данных представляет наиболее общие значения на гистограмме (т. Е. Пик гистограммы. Бимодальная гистограмма представляет собой два пика на гистограмме. Гистограмма может использоваться для проверки одномодальности данных. Бимодальность ( или, например, неунимодальность) в наборе данных означает, что с процессом что-то не так. Бимодальная гистограмма содержит один или оба из двух символов: бимодальное нормальное распределение и симметричное распределение
  • Скошенная гистограмма влево / вправо. Скошенная гистограмма - это те гистограммы, у которых односторонний хвост явно длиннее, чем другой. Гистограмма со смещением вправо означает, что правосторонний хвост пика более растянут, чем его левый, и наоборот для левого. На гистограмме со смещением влево среднее значение всегда меньше медианы, а на гистограмме со смещением вправо среднее значение больше, чем гистограмма.
  • Равномерная гистограмма: в однородной гистограмме каждая ячейка содержит примерно одинаковое количество отсчетов (частота). Пример однородной гистограммы: кубик бросают n (n >> 30) раз и записывают частоту различных результатов.
  • Нормальное распределение с выбросом: эта гистограмма похожа на нормальную гистограмму, за исключением того, что она содержит выброс, в котором количество / вероятность результата является существенным. В основном это происходит из-за некоторых системных ошибок в процессе, которые привели к неправильному созданию продуктов и т. Д.

Выполнение

  • В этой реализации мы будем использовать библиотеки построения графиков Numpy, Matplotlib и Seaborn. Эти библиотеки предварительно установлены в colab, однако для локальной среды вы можете легко установить их с помощью команды pip install .

Python3




# Imports
import numpy as np
import matplotlib.pylot as plt
import seaborn as sns
# Normal histogram plot
data = np.random.normal( 10.0 , 3 , 500 )
sns.displot(data, kde = True , bins = 10 , color = 'black' )
# Left-skewed Histogram
wc_goals = [ 0 ] * 19 + [ 1 ] * 49 + [ 2 ] * 60 + [ 3 ] * 47 + [ 4 ] * 32 + [ 5 ] * 18 + [ 6 ] * 3 + [ 7 ] * 3 + [ 8 ]
sns.displot(wc_goals, bins = 8 , kde = True , alpha = 0.6 ,color = 'blue' )
# Right-skewed Histogram
wc_goals_conc =
[ 0 ] * 19 + [ - 1 ] * 49 + [ - 2 ] * 60 + [ - 3 ] * 47 + [ - 4 ] * 32 + [ - 5 ] * 18 + [ - 6 ] * 3 + [ - 7 ] * 3 + [ - 8 ]
sns.displot(wc_goals_conc, kde = True ,bins = 8 , alpha = 0.6 , color = 'red' )
# Bi-modal histogram
N = 400
mu_1, sigma_1 = 80 , 10
mu_2, sigma_2 = 20 , 10
# Generate two normal distributios of given mean sdand concatenate
X_1 = np.random.normal(mu, sigma, N)
X_2 = np.random.normal(mu2, sigma2, N)
X = np.concatenate([X1, X2])
sns.displot(X,bins = 10 ,kde = True , color = 'green' )
# Uniform histogram (an example of die roll with N=600)
die_roll = [ 1 ] * 89 + [ 2 ] * 94 + [ 3 ] * 110 + [ 4 ] * 101 + [ 5 ] * 90 + [ 6 ] * 116
sns.displot(die_roll, kde = True , bins = 6 )
# Normal distribution with an outlier
X_1 = np.random.normal(mu, sigma, N)
X_1 = np.concatenate([X1, [ 200 ] * 30 ])
sns.displot(X_1, kde = True , bins = 13 )

Нормальная гистограмма

Перекошенная левая гистограмма

Гистограмма со смещением вправо

Бимодальная гистограмма

Неформальная гистограмма

Нормальный с выбросом