Профилирование Pandas в Python
Опубликовано: 27 Марта, 2022
Библиотека pandas_profiling в Python включает метод с именем ProfileReport (), который генерирует базовый отчет по входному DataFrame.
Отчет состоит из следующего:
- Обзор DataFrame,
- Каждый атрибут, для которого определен DataFrame,
- Корреляции между атрибутами (корреляция Пирсона и корреляция Спирмена) и
- Образец DataFrame.
Синтаксис:
pandas_profiling.ProfileReport (df, ** kwargs)
| Аргументы | Тип | Описание |
|---|---|---|
| df | DataFrame | Данные для анализа |
| мусорные ведра | int | Количество интервалов в гистограмме. По умолчанию - 10. |
| check_correlation | логический | Следует ли проверять корреляцию. По умолчанию это True. |
| correlation_threshold | плавать | Порог, чтобы определить, коррелирована ли пара переменных. По умолчанию - 0,9. |
| correlation_overrides | список | Имена переменных не должны быть отклонены, потому что они коррелированы. По умолчанию в списке нет переменной («Нет»). |
| check_recoded | логический | Проверять или нет перекодированную корреляцию (функция, требующая большого объема памяти). Поскольку это дорогостоящее вычисление, его можно активировать для небольших наборов данных. `check_correlation` должен иметь значение true, чтобы отключить эту проверку. По умолчанию - False. |
| pool_size | int | Количество рабочих в пуле потоков. По умолчанию равно количеству ЦП. |
Example:
Python3
# importing packagesimport pandas as pdimport pandas_profiling as pp # dictionary of datadct = {"ID": {0: 23, 1: 43, 2: 12, 3: 13, 4: 67, 5: 89, 6: 90, 7: 56, 8: 34}, "Name": {0: "Ram", 1: "Deep", 2: "Yash", 3: "Aman", 4: "Arjun", 5: "Aditya", 6: "Divya", 7: "Chalsea", 8: "Akash" }, "Marks": {0: 89, 1: 97, 2: 45, 3: 78, 4: 56, 5: 76, 6: 100, 7: 87, 8: 81}, "Grade": {0: "B", 1: "A", 2: "F", 3: "C", 4: "E", 5: "C", 6: "A", 7: "B", 8: "B"} } # forming dataframe and printingdata = pd.DataFrame(dct)print(data) # forming ProfileReport and save# as output.html fileprofile = pp.ProfileReport(data)profile.to_file("output.html") |
Выход:
DataFrame
HTML-файл с именем output.html выглядит следующим образом:




Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.