Изучение распределения данных | Комплект 2
Опубликовано: 25 Июля, 2021
Предварительное условие: изучение распределения данных | Комплект 1
Термины, связанные с исследованием распространения данных
-> Коробчатая диаграмма -> Таблица частот -> Гистограмма -> График плотности
Чтобы получить ссылку на csv , щелкните здесь.
Загрузка библиотек
import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt |
Загрузка данных
data = pd.read_csv("../data/state.csv") # Adding a new column with derived data data["PopulationInMillions"] = data["Population"]/1000000 print (data.head(10)) |
Выход :
- Гистограмма: это способ визуализации распределения данных с помощью таблицы частот с ячейками на оси x и количеством данных на оси y.
Код - Гистограмма
# Histogram Population In Millionsfig, ax2=plt.subplots()fig.set_size_inches(9,15)ax2=sns.distplot(data.PopulationInMillions, kde=False)ax2.set_ylabel("Frequency", fontsize=15)ax2.set_xlabel("Population by State in Millions", fontsize=15)ax2.set_title("Population - Histogram", fontsize=20)Выход :

- График плотности: он связан с гистограммой, поскольку он показывает значения данных, распределенные в виде непрерывной линии. Это версия сглаженной гистограммы. Результат ниже - это плотность, наложенная на гистограмму.
Код - график плотности данных
# Density Plot - Populationfig, ax3=plt.subplots()fig.set_size_inches(7,9)ax3=sns.distplot(data.Population, kde=True)ax3.set_ylabel("Density", fontsize=15)ax3.set_xlabel("Murder Rate per Million", fontsize=15)ax3.set_title("Desnsity Plot - Population", fontsize=20)Выход :

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.