Профилирование Pandas в Python

Опубликовано: 27 Марта, 2022

Библиотека pandas_profiling в Python включает метод с именем ProfileReport (), который генерирует базовый отчет по входному DataFrame.

Отчет состоит из следующего:

  • Обзор DataFrame,
  • Каждый атрибут, для которого определен DataFrame,
  • Корреляции между атрибутами (корреляция Пирсона и корреляция Спирмена) и
  • Образец DataFrame.

Синтаксис:

 pandas_profiling.ProfileReport (df, ** kwargs)
Аргументы Тип Описание
df DataFrame Данные для анализа
мусорные ведра int Количество интервалов в гистограмме. По умолчанию - 10.
check_correlation логический Следует ли проверять корреляцию. По умолчанию это True.
correlation_threshold плавать Порог, чтобы определить, коррелирована ли пара переменных. По умолчанию - 0,9.
correlation_overrides список Имена переменных не должны быть отклонены, потому что они коррелированы. По умолчанию в списке нет переменной («Нет»).
check_recoded логический Проверять или нет перекодированную корреляцию (функция, требующая большого объема памяти). Поскольку это дорогостоящее вычисление, его можно активировать для небольших наборов данных. `check_correlation` должен иметь значение true, чтобы отключить эту проверку. По умолчанию - False.
pool_size int Количество рабочих в пуле потоков. По умолчанию равно количеству ЦП.

Example:

Python3

# importing packages
import pandas as pd
import pandas_profiling as pp
  
  
# dictionary of data
dct = {"ID": {0: 23, 1: 43, 2: 12, 3: 13
              4: 67, 5: 89, 6: 90, 7: 56
              8: 34}, 
       "Name": {0: "Ram", 1: "Deep", 2: "Yash",
                3: "Aman", 4: "Arjun", 5: "Aditya",
                6: "Divya", 7: "Chalsea",
                8: "Akash" }, 
       "Marks": {0: 89, 1: 97, 2: 45, 3: 78,
                 4: 56, 5: 76, 6: 100, 7: 87,
                 8: 81}, 
       "Grade": {0: "B", 1: "A", 2: "F", 3: "C",
                 4: "E", 5: "C", 6: "A", 7: "B",
                 8: "B"}
      }
  
# forming dataframe and printing
data = pd.DataFrame(dct)
print(data)
  
# forming ProfileReport and save
# as output.html file
profile = pp.ProfileReport(data)
profile.to_file("output.html")

Выход:

DataFrame

HTML-файл с именем output.html выглядит следующим образом:

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.