Исследовательский анализ данных в Python | Комплект 2

Опубликовано: 25 Июля, 2021

В предыдущей статье мы обсудили некоторые основные методы анализа данных, теперь давайте посмотрим на визуальные методы.

Давайте посмотрим на основные приемы -




# Loading Libraries
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import trim_mean
# Loading Data
data = pd.read_csv( "state.csv" )
# Check the type of data
print ( "Type : " , type (data), " " )
# Printing Top 10 Records
print ( "Head -- " , data.head( 10 ))
# Printing last 10 Records
print ( " Tail -- " , data.tail( 10 ))
# Adding a new column with derived data
data[ 'PopulationInMillions' ] = data[ 'Population' ] / 1000000
# Changed data
print (data.head( 5 ))
# Rename column heading as it
# has '.' in it which will create
# problems when dealing functions
data.rename(columns = { 'Murder.Rate' : 'MurderRate' },
inplace = True )
# Lets check the column headings
list (data)

Выход :

Тип: класс 'pandas.core.frame.DataFrame'


Глава --
          Государственное убийство населения. Сокращенное наименование.
0 Алабама 4779736 5,7 AL
1 Аляска 710231 5,6 АК
2 Аризона 639 2017 4,7 AZ
3 Арканзас 2915918 5,6 AR
4 Калифорния 37253956 4,4 CA
5 Колорадо 5029196 2,8 CO
6 Коннектикут 3574097 2,4 CT
7 Делавэр 897934 5,8 DE
8 Флорида 18801310 5,8 FL
9 Грузия 9687653 5,7 GA


Хвост --
             Государственное убийство населения. Сокращенное наименование.
40 Южная Дакота 814180 2.3 SD
41 Теннесси 6346105 5,7 TN
42 Техас 25145561 4,4 Техаса
43 Юта 2763885 2.3 UT
44 Вермонт 625741 1,6 VT
45 Вирджиния 8001024 4,1 ВА
46 Вашингтон 6724540 2,5 Вт
47 Западная Вирджиния 1852994 4,0 Западная Вирджиния
48 Висконсин 5686986 2,9 Висконсин
49 Вайоминг 563626 2,7 WY


        Убийство населения штата. Аббревиатура Население в миллионах
0 Алабама 4779736 5,7 AL 4.779736
1 Аляска 710231 5,6 АК 0,710231
2 Аризона 639 2017 4,7 АЗ 6,39 2017
3 Арканзас 2915918 5,6 AR 2.915918
4 Калифорния 37253956 4,4 Калифорния 37.253956


["Штат", "Население", "Уровень убийств", "Аббревиатура"]

Визуализация численности населения на миллион




# Plot Population In Millions
fig, ax1 = plt.subplots()
fig.set_size_inches( 15 , 9 )
ax1 = sns.barplot(x = "State" , y = "Population" ,
data = data.sort_values( 'MurderRate' ),
palette = "Set2" )
ax1. set (xlabel = 'States' , ylabel = 'Population In Millions' )
ax1.set_title( 'Population in Millions by State' , size = 20 )
plt.xticks(rotation = - 90 )

Выход:

(массив ([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]),
 список из 50 объектов Text xticklabel)

Визуализация количества убийств на лакх




# Plot Murder Rate per 1, 00, 000
fig, ax2 = plt.subplots()
fig.set_size_inches( 15 , 9 )
ax2 = sns.barplot(
x = "State" , y = "MurderRate" ,
data = data.sort_values( 'MurderRate' , ascending = 1 ),
palette = "husl" )
ax2. set (xlabel = 'States' , ylabel = 'Murder Rate per 100000' )
ax2.set_title( 'Murder Rate by State' , size = 20 )
plt.xticks(rotation = - 90 )

Выход :

(массив ([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]),
 список из 50 объектов Text xticklabel)


Хотя Луизиана занимает 17-е место по численности населения (около 4,53 млн), у нее самый высокий уровень убийств - 10,3 на 1 млн человек.

Код # 1: стандартное отклонение




Population_std = data.Population.std()
print ( "Population std : " , Population_std)
MurderRate_std = data.MurderRate.std()
print ( " MurderRate std : " , MurderRate_std)

Выход :

Население std: 6848235.347401142

MurderRate std: 1.915736124302923

Код # 2: отклонение




Population_var = data.Population.var()
print ( "Population var : " , Population_var)
MurderRate_var = data.MurderRate.var()
print ( " MurderRate var : " , MurderRate_var)

Выход :

Население var: 46898327373394.445

Рейтинг убийств var: 3.670044897959184

Код № 3: Межквартильный диапазон




# Inter Quartile Range of Population
population_IQR = data.Population.describe()[ '75 %' ] -
data.Population.describe()[ '25 %' ]
print ( "Population IQR : " , population_IRQ)
# Inter Quartile Range of Murder Rate
MurderRate_IQR = data.MurderRate.describe()[ '75 %' ] -
data.MurderRate.describe()[ '25 %' ]
print ( " MurderRate IQR : " , MurderRate_IQR)

Выход :

IQR населения: 4847308.0

Рейтинг убийств IQR: 3,124999999999999

Код # 4: Среднее абсолютное отклонение (MAD)




Population_mad = data.Population.mad()
print ( "Population mad : " , Population_mad)
MurderRate_mad = data.MurderRate.mad()
print ( " MurderRate mad : " , MurderRate_mad)

Выход :

Сумасшедшее население: 4450933.356000001

Безумный рейтинг убийств: 1.5526400000000005

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.