Часто используемые форматы файлов в Data Science

Опубликовано: 30 Ноября, 2021

Что такое формат файла
Форматы файлов предназначены для хранения определенных типов информации, например CSV, XLSX и т. Д. Формат файла также сообщает компьютеру, как отображать или обрабатывать его содержимое. Распространенные форматы файлов, такие как CSV, XLSX, ZIP, TXT и т. Д.

Если вы видите свое будущее как специалист по данным, вы должны понимать различные типы форматов файлов. Потому что наука о данных - это все о данных и их обработке, и если вы не понимаете формат файла, это может быть довольно сложно для вас. Таким образом, вам обязательно нужно знать о различных форматах файлов.

Различные типы форматов файлов:

CSV: CSV означает значения, разделенные запятыми. а также, поскольку это имя CSV-файла использует запятую для разделенных значений. В файле CSV каждая строка представляет собой запись данных, и каждая запись состоит из одного или нескольких полей данных, которые разделяются запятыми.

Код: код Python для чтения файла csv в пандах

XLSX: файл XLSX - это файл электронной таблицы в формате Microsoft Excel Open XML. Он используется для хранения любого типа данных, но в основном он используется для хранения финансовых данных, создания математических моделей и т. Д.

Код: код Python для чтения файла xlsx в пандах

import pandas as pd
df = pd.read_excel (r 'file_path\name.xlsx' )
print (df)

Примечание:

install xlrd before reading excel file in python for avoid the error. You can install xlrd using following command.

pip install xlrd

ZIP: ZIP-файлы используются в качестве контейнеров данных, они хранят один или несколько файлов в сжатом виде. он широко используется в Интернете. После того, как вы скачали ZIP-файл, вам необходимо распаковать его содержимое, чтобы использовать его.

Код: код Python для чтения zip-файла в пандах

import pandas as pd
df = pd.read_csv( ' File_Path \ File_Name .zip' )
print (df)

TXT: файлы TXT полезны для хранения информации в виде обычного текста без специального форматирования, кроме основных шрифтов и стилей шрифтов. Он распознается любым редактором текста и другими программами.

Код: код Python для чтения txt файла в пандах

import pandas as pd
df = pd.read_csv( 'File_Path \ File_Name .txt' )
print (df)

JSON: JSON - это обозначение объектов JavaScript. JSON - это стандартный текстовый формат для представления структурированных данных на основе синтаксиса объекта JavaScript.

Код: код Python для чтения файла json в пандах

import pandas as pd
df = pd.read_json( 'File_path \ File_Name .json' )
print (df)

HTML: HTML - это аббревиатура от языка гипертекстовой разметки, используемого для создания веб-страниц. мы можем читать таблицу html в python pandas, используя функцию read_html ().

Код: код Python для чтения html файла в пандах

import pandas as pd
df = pd.read_html( 'File_Path \File_Name.html' )
print (df)

Примечание:

You need to install a package named “lxml & html5lib” which can handle the file with ‘.html’ extension.

pip install html5lib
pip install lxml

PDF: pdf означает Portable Document Format (PDF), этот формат файла используется, когда нам нужно сохранить файлы, которые нельзя изменить, но которые все же должны быть легко доступны.

Код: код Python для чтения pdf в пандах

pip install tabula - py
pip install pandas
df = tabula.read_pdf(file_path \ file_name .pdf)
print (df)

Примечание:

You need to install a package named “tabula-py” which can handle the file with ‘.pdf’ extension.
pip install tabula-py

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.