Исследовательский анализ данных в Python | Комплект 2
В предыдущей статье мы обсудили некоторые основные методы анализа данных, теперь давайте посмотрим на визуальные методы.
Давайте посмотрим на основные приемы -
# Loading Libraries import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from scipy.stats import trim_mean # Loading Data data = pd.read_csv( "state.csv" ) # Check the type of data print ( "Type : " , type (data), "
" ) # Printing Top 10 Records print ( "Head --
" , data.head( 10 )) # Printing last 10 Records print ( "
Tail --
" , data.tail( 10 )) # Adding a new column with derived data data[ 'PopulationInMillions' ] = data[ 'Population' ] / 1000000 # Changed data print (data.head( 5 )) # Rename column heading as it # has '.' in it which will create # problems when dealing functions data.rename(columns = { 'Murder.Rate' : 'MurderRate' }, inplace = True ) # Lets check the column headings list (data) |
Выход :
Тип: класс 'pandas.core.frame.DataFrame' Глава -- Государственное убийство населения. Сокращенное наименование. 0 Алабама 4779736 5,7 AL 1 Аляска 710231 5,6 АК 2 Аризона 639 2017 4,7 AZ 3 Арканзас 2915918 5,6 AR 4 Калифорния 37253956 4,4 CA 5 Колорадо 5029196 2,8 CO 6 Коннектикут 3574097 2,4 CT 7 Делавэр 897934 5,8 DE 8 Флорида 18801310 5,8 FL 9 Грузия 9687653 5,7 GA Хвост -- Государственное убийство населения. Сокращенное наименование. 40 Южная Дакота 814180 2.3 SD 41 Теннесси 6346105 5,7 TN 42 Техас 25145561 4,4 Техаса 43 Юта 2763885 2.3 UT 44 Вермонт 625741 1,6 VT 45 Вирджиния 8001024 4,1 ВА 46 Вашингтон 6724540 2,5 Вт 47 Западная Вирджиния 1852994 4,0 Западная Вирджиния 48 Висконсин 5686986 2,9 Висконсин 49 Вайоминг 563626 2,7 WY Убийство населения штата. Аббревиатура Население в миллионах 0 Алабама 4779736 5,7 AL 4.779736 1 Аляска 710231 5,6 АК 0,710231 2 Аризона 639 2017 4,7 АЗ 6,39 2017 3 Арканзас 2915918 5,6 AR 2.915918 4 Калифорния 37253956 4,4 Калифорния 37.253956 ["Штат", "Население", "Уровень убийств", "Аббревиатура"]
Визуализация численности населения на миллион
# Plot Population In Millions fig, ax1 = plt.subplots() fig.set_size_inches( 15 , 9 ) ax1 = sns.barplot(x = "State" , y = "Population" , data = data.sort_values( 'MurderRate' ), palette = "Set2" ) ax1. set (xlabel = 'States' , ylabel = 'Population In Millions' ) ax1.set_title( 'Population in Millions by State' , size = 20 ) plt.xticks(rotation = - 90 ) |
Выход:
(массив ([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]), список из 50 объектов Text xticklabel)
Визуализация количества убийств на лакх
# Plot Murder Rate per 1, 00, 000 fig, ax2 = plt.subplots() fig.set_size_inches( 15 , 9 ) ax2 = sns.barplot( x = "State" , y = "MurderRate" , data = data.sort_values( 'MurderRate' , ascending = 1 ), palette = "husl" ) ax2. set (xlabel = 'States' , ylabel = 'Murder Rate per 100000' ) ax2.set_title( 'Murder Rate by State' , size = 20 ) plt.xticks(rotation = - 90 ) |
Выход :
(массив ([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]), список из 50 объектов Text xticklabel)
Хотя Луизиана занимает 17-е место по численности населения (около 4,53 млн), у нее самый высокий уровень убийств - 10,3 на 1 млн человек.
Код # 1: стандартное отклонение
Population_std = data.Population.std() print ( "Population std : " , Population_std) MurderRate_std = data.MurderRate.std() print ( "
MurderRate std : " , MurderRate_std) |
Выход :
Население std: 6848235.347401142 MurderRate std: 1.915736124302923
Код # 2: отклонение
Population_var = data.Population.var() print ( "Population var : " , Population_var) MurderRate_var = data.MurderRate.var() print ( "
MurderRate var : " , MurderRate_var) |
Выход :
Население var: 46898327373394.445 Рейтинг убийств var: 3.670044897959184
Код № 3: Межквартильный диапазон
# Inter Quartile Range of Population population_IQR = data.Population.describe()[ '75 %' ] - data.Population.describe()[ '25 %' ] print ( "Population IQR : " , population_IRQ) # Inter Quartile Range of Murder Rate MurderRate_IQR = data.MurderRate.describe()[ '75 %' ] - data.MurderRate.describe()[ '25 %' ] print ( "
MurderRate IQR : " , MurderRate_IQR) |
Выход :
IQR населения: 4847308.0 Рейтинг убийств IQR: 3,124999999999999
Код # 4: Среднее абсолютное отклонение (MAD)
Population_mad = data.Population.mad() print ( "Population mad : " , Population_mad) MurderRate_mad = data.MurderRate.mad() print ( "
MurderRate mad : " , MurderRate_mad) |
Выход :
Сумасшедшее население: 4450933.356000001 Безумный рейтинг убийств: 1.5526400000000005
Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.