Преобразование Excel в CSV на Python

Опубликовано: 27 Марта, 2022

В этой статье мы будем иметь дело с преобразованием файла Excel (.xlsx) в .csv. В Excel в основном используются два формата:

  1. (* .xlsx): файл электронной таблицы в формате Excel Microsoft Office Open XML.
  2. (* .xls): таблица Excel (книга Excel 97-2003).

Давайте рассмотрим набор данных магазина, в котором хранятся данные о серийном номере клиента, имени клиента, идентификаторе клиента и стоимости продукта в файле Excel.

check all used files here.

Python3

# importing pandas as pd
import pandas as pd
  
# read an excel file and convert 
# into a dataframe object
df = pd.DataFrame(pd.read_excel("Test.xlsx"))
  
# show the dataframe
df

Выход :

Теперь давайте посмотрим, как можно преобразовать файл Excel в файл CSV:

Метод 1. Преобразуйте файл Excel в файл CSV с помощью библиотеки pandas.

Pandas - это программная библиотека с открытым исходным кодом, созданная для обработки и анализа данных для языка программирования Python. Он предлагает различные функциональные возможности с точки зрения структур данных и операций для управления числовыми таблицами и временными рядами. Он может читать, фильтровать и переупорядочивать небольшие и большие наборы данных и выводить их в различных форматах, включая Excel, JSON, CSV.

Для чтения файла Excel с помощью метода read_excel () и преобразования фрейма данных в файл CSV используйте метод to_csv () программы pandas.

Code:

Python3

#importing pandas as pd
import pandas as pd
  
# Read and store content
# of an excel file 
read_file = pd.read_excel ("Test.xlsx")
  
# Write the dataframe object
# into csv file
read_file.to_csv ("Test.csv"
                  index = None,
                  header=True)
    
# read csv file and convert 
# into a dataframe object
df = pd.DataFrame(pd.read_csv("Test.csv"))
  
# show the dataframe
df

Выход:

Метод 2: преобразовать файл Excel в файл CSV с помощью xlrd и библиотеки CSV.

xlrd - это библиотека, основная цель которой - читать файл Excel.

csv - это библиотека, основная цель которой - чтение и запись файла csv.

Code:

Python3

# import all required library
import xlrd 
import csv
import pandas as pd
  
# open workbook by sheet index,
# optional - sheet_by_index()
sheet = xlrd.open_workbook("Test.xlsx").sheet_by_index(0)
  
# writer object is created
col = csv.writer(open("T.csv"
                      "w"
                      newline=""))
  
# writing the data into csv file
for row in range(sheet.nrows):
    # row by row write 
    # operation is perform
    col.writerow(sheet.row_values(row))
  
# read csv file and convert 
# into a dataframe object
df = pd.DataFrame(pd.read_csv("T.csv"))
  
# show the dataframe
df

Выход:

Метод 3: преобразовать файл Excel в файл CSV с помощью openpyxl и библиотеки CSV.

openpyxl - это библиотека для чтения / записи файлов Excel 2010 xlsx / xlsm / xltx / xltm. Она возникла из-за отсутствия существующей библиотеки для чтения / записи непосредственно из Python в формате Office Open XML.

Code:

Python3

# importe required libraries
import openpyxl
import csv
import pandas as pd
  
# open given workbook 
# and store in excel object 
excel = openpyxl.load_workbook("Test.xlsx")
  
# select the active sheet
sheet = excel.active
  
# writer object is created
col = csv.writer(open("tt.csv",
                      "w"
                      newline=""))
  
# writing the data in csv file
for r in sheet.rows:
    # row by row write 
    # operation is perform
    col.writerow([cell.value for cell in r])
  
# read the csv file and 
# covert into dataframe object 
df = pd.DataFrame(pd.read_csv("tt.csv"))
  
# show the dataframe
df

Выход:

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.