Изучение распределения данных | Комплект 2
Опубликовано: 25 Июля, 2021
Предварительное условие: изучение распределения данных | Комплект 1
Термины, связанные с исследованием распространения данных
-> Коробчатая диаграмма -> Таблица частот -> Гистограмма -> График плотности
Чтобы получить ссылку на csv
, щелкните здесь.
Загрузка библиотек
import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt |
Загрузка данных
data = pd.read_csv( "../data/state.csv" ) # Adding a new column with derived data data[ "PopulationInMillions" ] = data[ "Population" ] / 1000000 print (data.head( 10 )) |
Выход :
- Гистограмма: это способ визуализации распределения данных с помощью таблицы частот с ячейками на оси x и количеством данных на оси y.
Код - Гистограмма
# Histogram Population In Millions
fig, ax2
=
plt.subplots()
fig.set_size_inches(
9
,
15
)
ax2
=
sns.distplot(data.PopulationInMillions, kde
=
False
)
ax2.set_ylabel(
"Frequency"
, fontsize
=
15
)
ax2.set_xlabel(
"Population by State in Millions"
, fontsize
=
15
)
ax2.set_title(
"Population - Histogram"
, fontsize
=
20
)
Выход :
- График плотности: он связан с гистограммой, поскольку он показывает значения данных, распределенные в виде непрерывной линии. Это версия сглаженной гистограммы. Результат ниже - это плотность, наложенная на гистограмму.
Код - график плотности данных
# Density Plot - Population
fig, ax3
=
plt.subplots()
fig.set_size_inches(
7
,
9
)
ax3
=
sns.distplot(data.Population, kde
=
True
)
ax3.set_ylabel(
"Density"
, fontsize
=
15
)
ax3.set_xlabel(
"Murder Rate per Million"
, fontsize
=
15
)
ax3.set_title(
"Desnsity Plot - Population"
, fontsize
=
20
)
Выход :
Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.