In this article, we will be dealing with the conversion of Excel (.xlsx) file into .csv. There are two formats mostly used in Excel :
- (*.xlsx) : Excel Microsoft Office Open XML Format Spreadsheet file.
- (*.xls) : Excel Spreadsheet (Excel 97-2003 workbook).
Let’s Consider a dataset of a shopping store having data about Customer Serial Number, Customer Name, Customer ID, and Product Cost stored in Excel file.
check all used files here.
Python3
import
pandas as pd
df
=
pd.DataFrame(pd.read_excel(
"Test.xlsx"
))
df
Output :
Now, let’s see different ways to convert an Excel file into a CSV file :
Method 1: Convert Excel file to CSV file using the pandas library.
Pandas is an open-source software library built for data manipulation and analysis for Python programming language. It offers various functionality in terms of data structures and operations for manipulating numerical tables and time series. It can read, filter, and re-arrange small and large datasets and output them in a range of formats including Excel, JSON, CSV.
For reading an excel file, using the read_excel() method and convert the data frame into the CSV file, use to_csv() method of pandas.
Code:
Python3
import
pandas as pd
read_file
=
pd.read_excel (
"Test.xlsx"
)
read_file.to_csv (
"Test.csv"
,
index
=
None
,
header
=
True
)
df
=
pd.DataFrame(pd.read_csv(
"Test.csv"
))
df
Output:
Method 2: Convert Excel file to CSV file using xlrd and CSV library.
xlrd is a library with the main purpose to read an excel file.
csv is a library with the main purpose to read and write a csv file.
Code:
Python3
import
xlrd
import
csv
import
pandas as pd
sheet
=
xlrd.open_workbook(
"Test.xlsx"
).sheet_by_index(
0
)
col
=
csv.writer(
open
(
"T.csv"
,
'w'
,
newline
=
""))
for
row
in
range
(sheet.nrows):
col.writerow(sheet.row_values(row))
df
=
pd.DataFrame(pd.read_csv(
"T.csv"
))
df
Output:
Method 3: Convert Excel file to CSV file using openpyxl and CSV library.
openpyxl is a library to read/write Excel 2010 xlsx/xlsm/xltx/xltm files.It was born from lack of existing library to read/write natively from Python the Office Open XML format.
Code:
Python3
import
openpyxl
import
csv
import
pandas as pd
excel
=
openpyxl.load_workbook(
"Test.xlsx"
)
sheet
=
excel.active
col
=
csv.writer(
open
(
"tt.csv"
,
'w'
,
newline
=
""))
for
r
in
sheet.rows:
col.writerow([cell.value
for
cell
in
r])
df
=
pd.DataFrame(pd.read_csv(
"tt.csv"
))
df
Output:
I want to write a Python script that reads in an Excel spreadsheet and saves some of its worksheets as CSV files.
How can I do this?
I have found third-party modules for reading and writing Excel files from Python, but as far as I can tell, they can only save files in Excel (i.e. *.xls) format. If I’m wrong here, some example code showing how to do what I’m trying to do with these modules would be appreciated.
I also came across one solution that I can’t quite understand, but seems to be Windows-specific, and therefore would not help me anyway, since I want to do this in Unix. At any rate, it’s not clear to me that this solution can be extended to do what I want to do, even under Windows.
Mel
5,72710 gold badges40 silver badges42 bronze badges
asked May 29, 2012 at 15:44
The most basic examples using the two libraries described line by line:
- Open the xls workbook
- Reference the first spreadsheet
- Open in binary write the target csv file
- Create the default csv writer object
- Loop over all the rows of the first spreadsheet
- Dump the rows into the csv
import xlrd
import csv
with xlrd.open_workbook('a_file.xls') as wb:
sh = wb.sheet_by_index(0) # or wb.sheet_by_name('name_of_the_sheet_here')
with open('a_file.csv', 'wb') as f: # open('a_file.csv', 'w', newline="") for python 3
c = csv.writer(f)
for r in range(sh.nrows):
c.writerow(sh.row_values(r))
import openpyxl
import csv
wb = openpyxl.load_workbook('test.xlsx')
sh = wb.active
with open('test.csv', 'wb') as f: # open('test.csv', 'w', newline="") for python 3
c = csv.writer(f)
for r in sh.rows:
c.writerow([cell.value for cell in r])
Sayyor Y
1,0102 gold badges15 silver badges27 bronze badges
answered May 29, 2012 at 16:36
ZeugmaZeugma
30.8k8 gold badges67 silver badges80 bronze badges
2
Using pandas
will be a bit shorter:
import pandas as pd
df = pd.read_excel('my_file', sheetname='my_sheet_name') # sheetname is optional
df.to_csv('output_file_name', index=False) # index=False prevents pandas to write row index
# oneliner
pd.read_excel('my_file', sheetname='my_sheet_name').to_csv('output_file_name', index=False)
answered Jul 25, 2017 at 8:09
FabienPFabienP
2,9701 gold badge21 silver badges24 bronze badges
4
As of December 2021 and Python 3:
The openpyxl
API has changed sufficiently (see https://openpyxl.readthedocs.io/en/stable/usage.html) that I have updated this part of the answer by @Boud (now @Zeugma?), as follows:
import openpyxl
import csv
wb = openpyxl.load_workbook('test.xlsx')
sh = wb.active # was .get_active_sheet()
with open('test.csv', 'w', newline="") as file_handle:
csv_writer = csv.writer(file_handle)
for row in sh.iter_rows(): # generator; was sh.rows
csv_writer.writerow([cell.value for cell in row])
@Leonid made some helpful comments — in particular:
csv.writer
provides some additional options e.g. custom delimiter:
csv_writer = csv.writer(fout, delimiter='|', quotechar='"', quoting=csv.QUOTE_MINIMAL)
HTH
answered Sep 28, 2020 at 9:32
jtlz2jtlz2
7,2987 gold badges61 silver badges111 bronze badges
4
Use the xlrd
or openpyxl
module to read xls or xlsx documents respectively, and the csv
module to write.
Alternately, if using Jython, you can use the Apache POI library to read either .xls
or .xlsx
, and the native CSV module will still be available.
answered May 29, 2012 at 15:47
Charles DuffyCharles Duffy
275k43 gold badges377 silver badges432 bronze badges
2
First read your Excel spreadsheet into Pandas. The code below will import your Excel spreadsheet into Pandas as an OrderedDict
which contains all of your worksheets as DataFrames
. Then, simply use the worksheet_name
as a key to access specific worksheet as a DataFrame
and save only the required worksheet as a csv
file by using df.to_csv()
. Hope this will work in your case.
import pandas as pd
df = pd.read_excel('YourExcel.xlsx', sheet_name=None)
df['worksheet_name'].to_csv('output.csv')
akshayk07
1,9841 gold badge20 silver badges30 bronze badges
answered Aug 1, 2019 at 17:30
Ashu007Ashu007
7351 gold badge9 silver badges13 bronze badges
In this article, we will show you how to convert an excel file to the CSV File (Comma Separated Values) using python.
Assume we have taken an excel file with the name sampleTutorialsPoint.xlsx containing some random text. We will return a CSV File after converting the given excel file into a CSV file.
sampleTutorialsPoint.xlsx
Player Name | Age | Type | Country | Team | Runs | Wickets |
---|---|---|---|---|---|---|
Virat Kohli | 33 | Batsman | India | Royal Challengers Bangalore | 6300 | 20 |
Bhuvaneshwar Kumar | 34 | Batsman | India | Sun Risers Hyderabad | 333 | 140 |
Mahendra Singh Dhoni | 39 | Batsman | India | Chennai Super Kings | 4500 | 0 |
Rashid Khan | 28 | Bowler | Afghanistan | Gujarat Titans | 500 | 130 |
Hardik Pandya | 29 | All rounder | India | Gujarat Titans | 2400 | 85 |
David Warner | 34 | Batsman | Australia | Delhi Capitals | 5500 | 12 |
Kieron Pollard | 35 | All rounder | West Indies | Mumbai Indians | 3000 | 67 |
Rohit Sharma | 33 | Batsman | India | Mumbai Indians | 5456 | 20 |
Kane Williamson | 33 | Batsman | New Zealand | Sun Risers Hyderabad | 3222 | 5 |
Kagiso Rabada | 29 | Bowler | South Africa | Lucknow Capitals | 335 | 111 |
Method 1: Converting Excel to CSV using Pandas Module
Algorithm (Steps)
Following are the Algorithm/steps to be followed to perform the desired task −
-
Import the pandas module (Pandas is a Python open-source data manipulation and analysis package)
-
Create a variable to store the path of the input excel file.
-
Read the given excel file content using the pandas read_excel() function(reads an excel file object into a data frame object).
-
Convert the excel file into a CSV file using the to_csv() function(converts object into a CSV file) by passing the output excel file name, index as None, and header as true as arguments.
-
Read the output CSV file with the read_csv() function(loads a CSV file as a pandas data frame) and convert it to a data frame object with the pandas module’s DataFrame() function.
-
Show/display the data frame object.
Example
The following program converts an excel file into a CSV file and returns a new CSV file
import pandas as pd inputExcelFile ="sampleTutorialsPoint.xlsx" excelFile = pd.read_excel (inputExcelFile) excelFile.to_csv ("ResultCsvFile.csv", index = None, header=True) dataframeObject = pd.DataFrame(pd.read_csv("ResultCsvFile.csv")) dataframeObject
Output
On executing, the above program will generate the following output −
| index | Player Name | Age | Type | Country | Team |Runs | Wickets | |--------|---------------------|-----|-----------|------------------|---------------------------|----- |---------| | 0 |Virat Kohli | 33|Batsman | India |Royal Challengers Bangalore| 6300 | 20 | | 1 |Bhuvaneshwar Kumar | 34|Batsman | India |Sun Risers Hyderabad | 333 | 140 | | 2 |Mahendra Singh Dhoni | 39|Batsman | India |Chennai Super Kings | 4500 | 0 | | 3 |Rashid Khan | 28|Bowler | Afghanistan |Gujarat Titans | 500 | 130 | | 4 |Hardik Pandya | 29|All rounder| India |Gujarat Titans | 2400 | 85 | | 5 |David Warner | 34|Batsman | Australia |Delhi Capitals | 5500 | 12 | | 6 |Kieron Pollard | 35|All rounder| West Indies |Mumbai Indians | 3000 | 67 | | 7 |Rohit Sharma | 33|Batsman | India |Mumbai Indians | 5456 | 20 | | 8 |Kane Williamson | 33|Batsman | New Zealand |Sun Risers Hyderabad | 3222 | 5 | | 9 |Kagiso Rabada | 29|Bowler | South Africa |Lucknow Capitals | 335 | 111 |
In this program, we use the pandas read_excel() function to read an excel file containing some random dummy data, and then we use the to csv() function to convert the excel file to csv. If we pass the index as a false argument, the final CSV file does not contain the index row at the beginning. Then we converted the CSV to a data frame to see if the values from the excel file were copied into the CSV file.
Method 2: Converting Excel to CSV using openpyxl and CSV Modules
Algorithm (Steps)
Following are the Algorithm/steps to be followed to perform the desired task −
-
Use the import keyword, to import the openpyxl(Openpyxl is a Python package for interacting with and managing Excel files. Excel 2010 and later files with the xlsx/xlsm/xltx/xltm extensions are supported. Data scientists use Openpyxl for data analysis, data copying, data mining, drawing charts, styling sheets, formula addition, and other operations) and CSV modules.
pip install openpyxl
-
Create a variable to store the path of the input excel file.
-
To create/load a workbook object, pass the input excel file to the openpyxl module’s load_workbook() function (loads a workbook).
-
Opening an output CSV file in write mode with open() and writer() functions to convert an input excel file into a CSV file.
-
Using the for loop, traverse each row of the worksheet.
-
Use the writerow() function, to write cell data of the excel file into the result CSV file row-by-row.
Example
The following program converts an excel file into a CSV file and returns a new CSV file −
import openpyxl import csv inputExcelFile = 'sampleTutorialsPoint.xlsx' newWorkbook = openpyxl.load_workbook(inputExcelFile) firstWorksheet = newWorkbook.active OutputCsvFile = csv.writer(open("ResultCsvFile.csv", 'w'), delimiter=",") for eachrow in firstWorksheet.rows: OutputCsvFile.writerow([cell.value for cell in eachrow])
Output
On executing, the above program a new CSV file (ResultCsvFile.csv) will be created with data of Excel.
In this program, we have an excel file with some random dummy data, which we load as an openpyxl work and set to use using the active attribute. Then we made a new CSV file and opened it in writing mode, then we went through the excel file row by row and copied the data into the newly created CSV file.
Conclusion
In this tutorial, we learned how to read an excel file and convert it to an openpyxl workbook, then how to convert it to a CSV file and remove the index, and finally how to convert the CSV file to a pandas data frame.
Need to convert an Excel file to a CSV file using Python?
If so, you may use the following template to convert your file:
import pandas as pd read_file = pd.read_excel (r'Path where the Excel file is storedFile name.xlsx') read_file.to_csv (r'Path to store the CSV fileFile name.csv', index = None, header=True)
And if you have a specific Excel sheet that you’d like to convert, you may then use this template:
import pandas as pd read_file = pd.read_excel (r'Path where the Excel file is storedFile name.xlsx', sheet_name='Your Excel sheet name') read_file.to_csv (r'Path to store the CSV fileFile name.csv', index = None, header=True)
In the next section, you’ll see the complete steps to convert your Excel file to a CSV file using Python.
Step 1: Install the Pandas Package
If you haven’t already done so, install the Pandas package. You may use the following command to install Pandas (under Windows):
pip install pandas
Step 2: Capture the Path where the Excel File is Stored
Next, capture the path where the Excel file is stored on your computer.
Here is an example of a path where an Excel file is stored:
C:UsersRonDesktopTestProduct_List.xlsx
Where ‘Product_List‘ is the Excel file name, and ‘xlsx‘ is the file extension.
Step 3: Specify the Path where the New CSV File will be Stored
Now you’ll need to specify the path where the new CSV file will be stored. For example:
C:UsersRonDesktopTestNew_Products.csv
Where ‘New_Products‘ is the new file name, and ‘csv‘ is the file extension.
Step 4: Convert the Excel to CSV using Python
For the final part, use the following template to assist you in the conversion of Excel to CSV:
import pandas as pd read_file = pd.read_excel (r'Path where the Excel file is storedFile name.xlsx') read_file.to_csv (r'Path to store the CSV fileFile name.csv', index = None, header=True)
This is how the code would look like in the context of our example (you’ll need to modify the paths to reflect the location where the files will be stored on your computer):
import pandas as pd read_file = pd.read_excel (r'C:UsersRonDesktopTestProduct_List.xlsx') read_file.to_csv (r'C:UsersRonDesktopTestNew_Products.csv', index = None, header=True)
Once you run the code (adjusted to you paths), you’ll get the new CSV file at your specified location.
You may also want to check the following source for the steps to convert CSV to Excel using Python.
In this article, you will learn how to convert Excel to CSV using Python Pandas.
Pandas is open source, fast, flexible, powerful, easy-to-use tools and are widely used for data manipulation and data analysis. It provides functionality to read data from various file formats, such as CSV, MS Excel, etc. As we know, Microsoft Excel has been used in many different applications and spreadsheet representations. We can easily organize a large amount of data by using this. It is also rich in features like calculation, graphing tools, pivot tables, producing graphs and charts, and much more. CSV is a widely used file format that stores data in a tabular format. Most popular programming languages have tools or applications to support the CSV file format.
CSV files have some advantages over Excel files. The CSV files are faster and consume less memory space, whereas Excel consumes more memory space while importing data. That’s why it’s important to convert excel to CSV.
Install Pandas in Python
Before starting work on Python Pandas, we need to install this module. So, open your command prompt, activate your virtual environment, and install it using the following command.
pip install pandas
On successful installation, it returns something like this-
Installing collected packages: pandas
Successfully installed pandas-1.0.1
Suppose we have the following excel file containing school program participant data.
Reading Excel file using Python Pandas
Here, we have first imported the Pandas module and passed the excel sheet file as a parameter in read_excel() method. This method reads the data into a Pandas DataFrame. It accepts filename in the first parameter and sheet name in the second parameter. DataFrame is the key data structure of Pandas.
import pandas as pd
df = pd.read_excel("school_event.xlsx")
Convert Excel to CSV Python
Pandas DataFrame provides the to_csv() method to convert data from a dataframe to a CSV. If we provide the file location as an argument, then data is written to the file otherwise, CSV string is returned. This method provides many options, like we can provide a custom delimiter, specify the columns to be used, ignore the index column, and much more to the generated CSV file. Here is the complete code to convert Excel to CSV.
import pandas as pd
df = pd.read_excel("school_event.xlsx")
df.to_csv ("school.csv", index = None, header=True)
You can see how we can simply achieve more work from just 2-3 lines of code. This is one of the big advantages of Python Pandas.
Related Articles
How to read data from excel file using Python Pandas
Python program to check leap year
Django Export Model Data to CSV
Python Converting a CSV File to a MySQL Table
Write Python Pandas Dataframe to CSV
Convert JSON to CSV using Python
Generate and download a CSV file in Django
Python Pandas CSV to Dataframe
How to read data from excel file in Python
Python read JSON from URL requests
Python send mail to multiple recipients using SMTP server
How to generate QR Code in Python using PyQRCode
Python programs to check Palindrome strings and numbers
CRUD operations in Python using MYSQL Connector
Fibonacci Series Program in Python
Python File Handler — Create, Read, Write, Access, Lock File
Python convert XML to JSON
Python convert xml to dict
Python convert dict to xml
- the XLSX and CSV File Formats
- Use the Pandas Library to Convert XLSX to CSV File in Python
- Use the
xlrd
andcsv
Modules to Convert XLSX to CSV File in Python - Use the
openpyxl
andcsv
Modules to Convert XLSX to CSV File in Python - Conclusion
This tutorial will demonstrate converting an XLSX file to CSV in Python.
the XLSX and CSV File Formats
The default format of an excel file is XLSX. It stores all the workbook data and the formulas, graphs, and other things.
We can also store an Excel workbook as a CSV file.
A CSV is a comma-separated text file. This text file can be accessed using a simple text editor as well.
A CSV file takes less memory and can be accessed more quickly. However, a CSV file only stores the data.
All the formulas, charts, and pivots will be lost if an Excel workbook is stored as CSV.
XLSX is the latest format of excel workbooks. Till Excel 2003, the file format was XLS.
The methods discussed below will work for both file formats.
Use the Pandas Library to Convert XLSX to CSV File in Python
The pandas
module allows us to create and work with DataFrame objects. The data is organized into rows and columns in a DataFrame.
We can read XLSX and CSV files into a DataFrame using the Pandas library.
To convert XLSX to CSV using Pandas, we will read an XLSX file into a DataFrame and export this as a CSV file.
To read excel files, we can use the pandas.read_excel()
function. This stores the data in a DataFrame.
Then, this is saved as a CSV file using the pandas.to_csv()
function.
Example:
import pandas as pd
df = pd.read_excel('sample.xlsx')
df.to_csv('sample.csv')
Use the xlrd
and csv
Modules to Convert XLSX to CSV File in Python
The xlrd
module provides an efficient way to read excel files. The file’s contents can be written to a CSV file using the csv
module.
Let us discuss how.
The xlrd.open_workbook()
can be used to read an XLSX workbook. We assume that we only want to convert the first sheet of the workbook to CSV.
This sheet is accessed using the sheet_by_index()
function. The index of the first sheet, which is zero, is passed to this function.
We will create a CSV file using the open()
function, and create a writer
object using the csv.writer()
constructor. This object will allow us to write data to the CSV file.
We will iterate the total number of rows in the file and write each row using the writer
object with the writerow()
function. We get the row’s content using the row_values()
function.
We will implement this in the following example.
import xlrd
import csv
ob = csv.writer(open("sample.csv",'w', newline = ""))
data = xlrd.open_workbook('sample.xlsx').sheet_by_index(0)
for r in range(data.nrows):
ob.writerow(data.row_values(r))
Use the openpyxl
and csv
Modules to Convert XLSX to CSV File in Python
The openpyxl
module is used in Python to perform reading and writing operations on Excel files. We can use this module with the csv
library in a similar approach as we did previously.
The openpyxl
module will be used to read the XLSX file using the load_workbook()
function. We will only convert the current sheet to CSV.
This sheet is accessed using the active
attribute.
We will write the contents of this sheet to the CSV file using the csv.writer
object, as done previously. We will iterate through the sheet and read the contents of the row using list comprehension.
These contents will be written to the CSV file.
See the code below.
import openpyxl
import csv
ob = csv.writer(open("sample.csv",'w', newline = ""))
data = openpyxl.load_workbook('sample.xlsx').active
for r in data.rows:
row = [a.value for a in r]
ob.writerow(row)
Conclusion
This tutorial discussed the methods to convert XLSX files to CSV using Python.
The pandas
module provides the simplest way to achieve this in three lines of code. The other methods require reading XLSX files using the xlrd
and openpyxl
modules and writing them to CSV files using the csv
module.
Convert Excel to CSV in Python
In this article, we will be dealing with the conversion of Excel (.xlsx) file into .csv. There are two formats mostly used in Excel :
- (*.xlsx) : Excel Microsoft Office Open XML Format Spreadsheet file.
- (*.xls) : Excel Spreadsheet (Excel 97-2003 workbook).
Let’s Consider a dataset of a shopping store having data about Customer Serial Number, Customer Name, Customer ID, and Product Cost stored in Excel file.
check all used files here.
import
pandas as pd
df
=
pd.DataFrame(pd.read_excel(
"Test.xlsx"
))
df
Output :
Now, let’s see different ways to convert an Excel file into a CSV file :
Method 1: Convert Excel file to CSV file using the pandas library.
Pandas is an open-source software library built for data manipulation and analysis for Python programming language. It offers various functionality in terms of data structures and operations for manipulating numerical tables and time series. It can read, filter, and re-arrange small and large datasets and output them in a range of formats including Excel, JSON, CSV.
For reading an excel file, using the read_excel() method and convert the data frame into the CSV file, use to_csv() method of pandas.
Code:
import
pandas as pd
read_file
=
pd.read_excel (
"Test.xlsx"
)
read_file.to_csv (
"Test.csv"
,
index
=
None
,
header
=
True
)
df
=
pd.DataFrame(pd.read_csv(
"Test.csv"
))
df
Output:
Method 2: Convert Excel file to CSV file using xlrd and CSV library.
xlrd is a library with the main purpose to read an excel file.
csv is a library with the main purpose to read and write a csv file.
Code:
import
xlrd
import
csv
import
pandas as pd
sheet
=
xlrd.open_workbook(
"Test.xlsx"
).sheet_by_index(
0
)
col
=
csv.writer(
open
(
"T.csv"
,
'w'
,
newline
=
""))
for
row
in
range
(sheet.nrows):
col.writerow(sheet.row_values(row))
df
=
pd.DataFrame(pd.read_csv(
"T.csv"
))
df
Method 3: Convert Excel file to CSV file using openpyxl and CSV library.
openpyxl is a library to read/write Excel 2010 xlsx/xlsm/xltx/xltm files.It was born from lack of existing library to read/write natively from Python the Office Open XML format.
Code:
import
openpyxl
import
csv
import
pandas as pd
excel
=
openpyxl.load_workbook(
"Test.xlsx"
)
sheet
=
excel.active
col
=
csv.writer(
open
(
"tt.csv"
,
'w'
,
newline
=
""))
for
r
in
sheet.rows:
col.writerow([cell.value
for
cell
in
r])
df
=
pd.DataFrame(pd.read_csv(
"tt.csv"
))
df
Output:
Содержание
- Convert Excel to CSV using Python (example included)
- Steps to Convert Excel to CSV using Python
- Step 1: Install the Pandas Package
- Step 2: Capture the Path where the Excel File is Stored
- Step 3: Specify the Path where the New CSV File will be Stored
- Step 4: Convert the Excel to CSV using Python
- Использование Python и Excel для обработки и анализа данных. Часть 1: импорт данных и настройка среды
- Работа с Excel из Python: Полное руководство с примерами
- Данные как ваша отправная точка
- Проверяем качество таблицы
- Лучшие практики для данных электронных таблиц
- Готовим рабочее окружение
- Установите библиотеки для чтения и записи файлов Excel
- Подготовка к дополнительной рабочей области: pip
- Установка Anaconda
- Загрузить файлы Excel в виде фреймов Pandas
- Как записать Pandas DataFrames в файлы Excel
- Пакеты для разбора файлов Excel и обратной записи с помощью Python
- Использование виртуальных сред
- Как читать и записывать файлы Excel с openpyxl
- Чтение и форматирование Excel-файлов: xlrd
- Запись данных в Excel-файлы с xlwt
- Сборник утилит: xlutils
- Использование pyexcel для чтения .xls или .xlsx файлов
- Запись в файл с pyexcel
- Чтение и запись .csv файлов
- Финальная проверка данных
- Что дальше?
Convert Excel to CSV using Python (example included)
Need to convert an Excel file to a CSV file using Python?
If so, you may use the following template to convert your file:
And if you have a specific Excel sheet that you’d like to convert, you may then use this template:
In the next section, you’ll see the complete steps to convert your Excel file to a CSV file using Python.
Steps to Convert Excel to CSV using Python
Step 1: Install the Pandas Package
If you haven’t already done so, install the Pandas package. You may use the following command to install Pandas (under Windows):
Step 2: Capture the Path where the Excel File is Stored
Next, capture the path where the Excel file is stored on your computer.
Here is an example of a path where an Excel file is stored:
Where ‘Product_List‘ is the Excel file name, and ‘xlsx‘ is the file extension.
Step 3: Specify the Path where the New CSV File will be Stored
Now you’ll need to specify the path where the new CSV file will be stored. For example:
Where ‘New_Products‘ is the new file name, and ‘csv‘ is the file extension.
Step 4: Convert the Excel to CSV using Python
For the final part, use the following template to assist you in the conversion of Excel to CSV:
This is how the code would look like in the context of our example (you’ll need to modify the paths to reflect the location where the files will be stored on your computer):
Once you run the code (adjusted to you paths), you’ll get the new CSV file at your specified location.
You may also want to check the following source for the steps to convert CSV to Excel using Python.
Источник
Использование Python и Excel для обработки и анализа данных. Часть 1: импорт данных и настройка среды
Если Вы только начинаете свой путь знакомства с возможностями Python, ваши познания еще имеют начальный уровень — этот материал для Вас. В статье мы опишем, как можно извлекать информацию из данных, представленных в Excel файлах, работать с ними используя базовый функционал библиотек. В первой части статьи мы расскажем про установку необходимых библиотек и настройку среды. Во второй части — предоставим обзор библиотек, которые могут быть использованы для загрузки и записи таблиц в файлы с помощью Python и расскажем как работать с такими библиотеками как pandas, openpyxl, xlrd, xlutils, pyexcel.
В какой-то момент вы неизбежно столкнетесь с необходимостью работы с данными Excel, и нет гарантии, что работа с таким форматами хранения данных доставит вам удовольствие. Поэтому разработчики Python реализовали удобный способ читать, редактировать и производить иные манипуляции не только с файлами Excel, но и с файлами других типов.
Отправная точка — наличие данных
Когда вы начинаете проект по анализу данных, вы часто сталкиваетесь со статистикой собранной, возможно, при помощи счетчиков, возможно, при помощи выгрузок данных из систем типа Kaggle, Quandl и т. д. Но большая часть данных все-таки находится в Google или репозиториях, которыми поделились другие пользователи. Эти данные могут быть в формате Excel или в файле с .csv расширением.
Данные есть, данных много. Анализируй — не хочу. С чего начать? Первый шаг в анализе данных — их верификация. Иными словами — необходимо убедиться в качестве входящих данных.
В случае, если данные хранятся в таблице, необходимо не только подтвердить качество данных (нужно быть уверенным, что данные таблицы ответят на поставленный для исследования вопрос), но и оценить, можно ли доверять этим данным.
Проверка качества таблицы
Чтобы проверить качество таблицы, обычно используют простой чек-лист. Отвечают ли данные в таблице следующим условиям:
- данные являются статистикой;
- различные типы данных: время, вычисления, результат;
- данные полные и консистентные: структура данных в таблице — систематическая, а присутствующие формулы — работающие.
Ответы на эти простые вопросы позволят понять, не противоречит ли ваша таблица стандарту. Конечно, приведенный чек-лист не является исчерпывающим: существует много правил, на соответствие которым вы можете проверять данные в таблице, чтобы убедиться, что таблица не является “гадким утенком”. Однако, приведенный выше чек-лист наиболее актуален, если вы хотите убедиться, что таблица содержит качественные данные.
Бест-практикс табличных данных
Читать данные таблицы при помощи Python — это хорошо. Но данные хочется еще и редактировать. Причем редактирование данных в таблице, должно соответствовать следующим условиям:
- первая строка таблицы зарезервирована для заголовка, а первый столбец используется для идентификации единицы выборки;
- избегайте имен, значений или полей с пробелами. В противном случае, каждое слово будет интерпретироваться как отдельная переменная, что приведет к ошибкам, связанным с количеством элементов в строке в наборе данных. Лучше использовать подчеркивания, регистр (первая буква каждого раздела текста — заглавная) или соединительные слова;
- отдавайте предпочтение коротким названиям;
- старайтесь избегать использования названий, которые содержат символы ?, $,%, ^, &, *, (,),-,#, . , /, |, , [ ,] ,<, и >;
- удаляйте любые комментарии, которые вы сделали в файле, чтобы избежать дополнительных столбцов или полей со значением NA;
- убедитесь, что любые недостающие значения в наборе данных отображаются как NA.
После внесения необходимых изменений (или когда вы внимательно просмотрите свои данные), убедитесь, что внесенные изменения сохранены. Это важно, потому что позволит еще раз взглянуть на данные, при необходимости отредактировать, дополнить или внести изменения, сохраняя формулы, которые, возможно, использовались для расчета.
Если вы работаете с Microsoft Excel, вы наверняка знаете, что есть большое количество вариантов сохранения файла помимо используемых по умолчанию расширения: .xls или .xlsx (переходим на вкладку “файл”, “сохранить как” и выбираем другое расширение (наиболее часто используемые расширения для сохранения данных с целью анализа — .CSV и.ТХТ)). В зависимости от варианта сохранения поля данных будут разделены знаками табуляции или запятыми, которые составляют поле “разделитель”. Итак, данные проверены и сохранены. Начинаем готовить рабочее пространство.
Подготовка рабочего пространства
Подготовка рабочего пространства — одна из первых вещей, которую надо сделать, чтобы быть уверенным в качественном результате анализа.
Первый шаг — проверка рабочей директории.
Когда вы работаете в терминале, вы можете сначала перейти к директории, в которой находится ваш файл, а затем запустить Python. В таком случае необходимо убедиться, что файл находится в директории, из которой вы хотите работать.
Для проверки дайте следующие команды:
Эти команды важны не только для загрузки данных, но и для дальнейшего анализа. Итак, вы прошли все проверки, вы сохранили данные и подготовили рабочее пространство. Уже можно начать чтение данных в Python? 🙂 К сожалению пока нет. Нужно сделать еще одну последнюю вещь.
Установка пакетов для чтения и записи Excel файлов
Несмотря на то, что вы еще не знаете, какие библиотеки будут нужны для импорта данных, нужно убедиться, что у все готово для установки этих библиотек. Если у вас установлен Python 2> = 2.7.9 или Python 3> = 3.4, нет повода для беспокойства — обычно, в этих версиях уже все подготовлено. Поэтому просто убедитесь, что вы обновились до последней версии 🙂
Для этого запустите в своем компьютере следующую команду:
В случае, если вы еще не установили pip, запустите скрипт python get-pip.py, который вы можете найти здесь (там же есть инструкции по установке и help).
Установка дистрибутива Anaconda Python — альтернативный вариант, если вы используете Python для анализа данных. Это простой и быстрый способ начать работу с анализом данных — ведь отдельно устанавливать пакеты, необходимые для data science не придется.
Это особенно удобно для новичков, однако даже опытные разработчики часто идут этим путем, ведь Anakonda — удобный способ быстро протестировать некоторые вещи без необходимости устанавливать каждый пакет отдельно.
Anaconda включает в себя 100 наиболее популярных библиотек Python, R и Scala для анализа данных в нескольких средах разработки с открытым исходным кодом, таких как Jupyter и Spyder. Если вы хотите начать работу с Jupyter Notebook, то вам сюда.
Чтобы установить Anaconda — вам сюда.
Загрузка файлов Excel как Pandas DataFrame
Ну что ж, мы сделали все, чтобы настроить среду! Теперь самое время начать импорт файлов.
Один из способов, которым вы будете часто пользоваться для импорта файлов с целью анализа данных — импорт с помощью библиотеки Pandas (Pandas — программная библиотека на языке Python для обработки и анализа данных). Работа Pandas с данными происходит поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Pandas — мощная и гибкая библиотека и она очень часто используется для структуризации данных в целях облегчения анализа.
Если у вас уже есть Pandas в Anaconda, вы можете просто загрузить файлы в Pandas DataFrames с помощью pd.Excelfile ():
Если вы не установили Anaconda, просто запустите pip install pandas, чтобы установить пакет Pandas в вашей среде, а затем выполните команды, приведенные выше.
Для чтения .csv-файлов есть аналогичная функция загрузки данных в DataFrame: read_csv (). Вот пример того, как вы можете использовать эту функцию:
Разделителем, который эта функция будет учитывать, является по умолчанию запятая, но вы можете, если хотите, указать альтернативный разделитель. Перейдите к документации, если хотите узнать, какие другие аргументы можно указать, чтобы произвести импорт.
Как записывать Pandas DataFrame в Excel файл
Предположим, после анализа данных вы хотите записать данные в новый файл. Существует способ записать данные Pandas DataFrames (с помощью функции to_excel ). Но, прежде чем использовать эту функцию, убедитесь, что у вас установлен XlsxWriter, если вы хотите записать свои данные на несколько листов в файле .xlsx:
Обратите внимание, что в фрагменте кода используется объект ExcelWriter для вывода DataFrame. Иными словами, вы передаете переменную writer в функцию to_excel (), и указываете имя листа. Таким образом, вы добавляете лист с данными в существующую книгу. Также можно использовать ExcelWriter для сохранения нескольких разных DataFrames в одной книге.
То есть если вы просто хотите сохранить один файл DataFrame в файл, вы можете обойтись без установки библиотеки XlsxWriter. Просто не указываете аргумент, который передается функции pd.ExcelWriter (), остальные шаги остаются неизменными.
Подобно функциям, которые используются для чтения в .csv-файлах, есть также функция to_csv () для записи результатов обратно в файл с разделителями-запятыми. Он работает так же, как когда мы использовали ее для чтения в файле:
Если вы хотите иметь отдельный файл с вкладкой, вы можете передать a t аргументу sep. Обратите внимание, что существуют различные другие функции, которые можно использовать для вывода файлов. Их можно найти здесь.
Использование виртуальной среды
Общий совет по установке библиотек — делать установку в виртуальной среде Python без системных библиотек. Вы можете использовать virtualenv для создания изолированных сред Python: он создает папку, содержащую все необходимое для использования библиотек, которые потребуются для Python.
Чтобы начать работу с virtualenv, сначала нужно его установить. Потом перейти в директорию, где будет находится проект. Создать virtualenv в этой папке и загрузить, если нужно, в определенную версию Python. После этого активируете виртуальную среду. Теперь можно начинать загрузку других библиотек и начинать работать с ними.
Не забудьте отключить среду, когда вы закончите!
Обратите внимание, что виртуальная среда может показаться сначала проблематичной, если вы делаете первые шаги в области анализа данных с помощью Python. И особенно, если у вас только один проект, вы можете не понимать, зачем вообще нужна виртуальная среда.
Но что делать, если у вас несколько проектов, работающих одновременно, и вы не хотите, чтобы они использовали одну и ту же установку Python? Или если у ваших проектов есть противоречивые требования. В таких случаях виртуальная среда — идеальное решение.
Во второй части статьи мы расскажем об основных библиотеках для анализа данных.
Продолжение следует…
Источник
Работа с Excel из Python: Полное руководство с примерами
Узнайте, как читать и импортировать файлы Excel в Python, как записывать данные в эти таблицы и какие библиотеки лучше всего подходят для этого.
Известный вам инструмент для организации, анализа и хранения ваших данных в таблицах — Excel — применяется и в data science. В какой-то момент вам придется иметь дело с этими таблицами, но работать именно с ними вы будете не всегда. Вот почему разработчики Python реализовали способы чтения, записи и управления не только этими файлами, но и многими другими типами файлов.
Из этого учебника узнаете, как можете работать с Excel и Python. Внутри найдете обзор библиотек, которые вы можете использовать для загрузки и записи этих таблиц в файлы с помощью Python. Вы узнаете, как работать с такими библиотеками, как pandas, openpyxl, xlrd, xlutils и pyexcel.
Данные как ваша отправная точка
Когда вы начинаете проект по data science, вам придется работать с данными, которые вы собрали по всему интернету, и с наборами данных, которые вы загрузили из других мест — Kaggle, Quandl и тд
Но чаще всего вы также найдете данные в Google или в репозиториях, которые используются другими пользователями. Эти данные могут быть в файле Excel или сохранены в файл с расширением .csv . Возможности могут иногда казаться бесконечными, но когда у вас есть данные, в первую очередь вы должны убедиться, что они качественные.
В случае с электронной таблицей вы можете не только проверить, могут ли эти данные ответить на вопрос исследования, который вы имеете в виду, но также и можете ли вы доверять данным, которые хранятся в электронной таблице.
Проверяем качество таблицы
- Представляет ли электронная таблица статические данные?
- Смешивает ли она данные, расчеты и отчетность?
- Являются ли данные в вашей электронной таблице полными и последовательными?
- Имеет ли ваша таблица систематизированную структуру рабочего листа?
- Проверяли ли вы действительные формулы в электронной таблице?
Этот список вопросов поможет убедиться, что ваша таблица не грешит против лучших практик, принятых в отрасли. Конечно, этот список не исчерпывающий, но позволит провести базовую проверку таблицы.
Лучшие практики для данных электронных таблиц
Прежде чем приступить к чтению вашей электронной таблицы на Python, вы также должны подумать о том, чтобы настроить свой файл в соответствии с некоторыми основными принципами, такими как:
- Первая строка таблицы обычно зарезервирована для заголовка, а первый столбец используется для идентификации единицы выборки;
- Избегайте имен, значений или полей с пробелами. В противном случае каждое слово будет интерпретироваться как отдельная переменная, что приведет к ошибкам, связанным с количеством элементов на строку в вашем наборе данных. По возможности, используйте:
- подчеркивания,
- тире,
- горбатый регистр, где первая буква каждого слова пишется с большой буквы
- объединяющие слова
- Короткие имена предпочтительнее длинных имен;
- старайтесь не использовать имена, которые содержат символы ?, $,%, ^, &, *, (,), -, #,? . , /, |, , [,], <, и >;
- Удалите все комментарии, которые вы сделали в вашем файле, чтобы избежать добавления в ваш файл лишних столбцов или NA;
- Убедитесь, что все пропущенные значения в вашем наборе данных обозначены как NA.
Затем, после того, как вы внесли необходимые изменения или тщательно изучили свои данные, убедитесь, что вы сохранили внесенные изменения. Сделав это, вы можете вернуться к данным позже, чтобы отредактировать их, добавить дополнительные данные или изменить их, сохранив формулы, которые вы, возможно, использовали для расчета данных и т.д.
Если вы работаете с Microsoft Excel, вы можете сохранить файл в разных форматах: помимо расширения по умолчанию .xls или .xlsx, вы можете перейти на вкладку «Файл», нажать «Сохранить как» и выбрать одно из расширений, которые указаны в качестве параметров «Сохранить как тип». Наиболее часто используемые расширения для сохранения наборов данных в data science — это .csv и .txt (в виде текстового файла с разделителями табуляции). В зависимости от выбранного варианта сохранения поля вашего набора данных разделяются вкладками или запятыми, которые образуют символы-разделители полей вашего набора данных.
Теперь, когда вы проверили и сохранили ваши данные, вы можете начать с подготовки вашего рабочего окружения.
Готовим рабочее окружение
Как убедиться, что вы все делаете хорошо? Проверить рабочее окружение!
Когда вы работаете в терминале, вы можете сначала перейти в каталог, в котором находится ваш файл, а затем запустить Python. Убедитесь, что файл лежит именно в том каталоге, к которому вы обратились.
Возможно, вы уже начали сеанс Python и у вас нет подсказок о каталоге, в котором вы работаете. Тогда можно выполнить следующие команды:
Вы увидите, что эти команды очень важны не только для загрузки ваших данных, но и для дальнейшего анализа. А пока давайте продолжим: вы прошли все проверки, вы сохранили свои данные и подготовили рабочее окружение.
Можете ли вы начать с чтения данных в Python?
Установите библиотеки для чтения и записи файлов Excel
Даже если вы еще не знаете, какие библиотеки вам понадобятся для импорта ваших данных, вы должны убедиться, что у вас есть все, что нужно для установки этих библиотек, когда придет время.
Подготовка к дополнительной рабочей области: pip
Вот почему вам нужно установить pip и setuptools. Если у вас установлен Python2 ⩾ 2.7.9 или Python3 ⩾ 3.4, то можно не беспокоиться — просто убедитесь, что вы обновились до последней версии.
Для этого выполните следующую команду в своем терминале:
Если вы еще не установили pip, запустите скрипт python get-pip.py, который вы можете найти здесь. Следуйте инструкциям по установке.
Установка Anaconda
Другой вариант для работы в data science — установить дистрибутив Anaconda Python. Сделав это, вы получите простой и быстрый способ начать заниматься data science, потому что вам не нужно беспокоиться об установке отдельных библиотек, необходимых для работы.
Это особенно удобно, если вы новичок, но даже для более опытных разработчиков это способ быстро протестировать некоторые вещи без необходимости устанавливать каждую библиотеку отдельно.
Anaconda включает в себя 100 самых популярных библиотек Python, R и Scala для науки о данных и несколько сред разработки с открытым исходным кодом, таких как Jupyter и Spyder.
Установить Anaconda можно здесь. Следуйте инструкциям по установке, и вы готовы начать!
Загрузить файлы Excel в виде фреймов Pandas
Все, среда настроена, вы готовы начать импорт ваших файлов.
Один из способов, который вы часто используете для импорта ваших файлов для обработки данных, — с помощью библиотеки Pandas. Она основана на NumPy и предоставляет простые в использовании структуры данных и инструменты анализа данных Python.
Эта мощная и гибкая библиотека очень часто используется дата-инженерами для передачи своих данных в структуры данных, очень выразительных для их анализа.
Если у вас уже есть Pandas, доступные через Anaconda, вы можете просто загрузить свои файлы в Pandas DataFrames с помощью pd.Excelfile():
Если вы не установили Anaconda, просто выполните pip install pandas, чтобы установить библиотеку Pandas в вашей среде, а затем выполните команды, которые включены в фрагмент кода выше.
Проще простого, да?
Для чтения в файлах .csv у вас есть аналогичная функция для загрузки данных в DataFrame: read_csv(). Вот пример того, как вы можете использовать эту функцию:
Разделитель, который будет учитывать эта функция, по умолчанию является запятой, но вы можете указать альтернативный разделитель, если хотите. Перейдите к документации, чтобы узнать, какие другие аргументы вы можете указать для успешного импорта!
Обратите внимание, что есть также функции read_table() и read_fwf() для чтения файлов и таблиц с фиксированной шириной в формате DataFrames с общим разделителем. Для первой функции разделителем по умолчанию является вкладка, но вы можете снова переопределить это, а также указать альтернативный символ-разделитель. Более того, есть и другие функции, которые вы можете использовать для получения данных в DataFrames: вы можете найти их здесь.
Как записать Pandas DataFrames в файлы Excel
Допустим, что после анализа данных вы хотите записать данные обратно в новый файл. Есть также способ записать ваши Pandas DataFrames обратно в файлы с помощью функции to_excel().
Но, прежде чем использовать эту функцию, убедитесь, что у вас установлен XlsxWriter, если вы хотите записать свои данные в несколько листов в файле .xlsx:
Обратите внимание, что в приведенном выше фрагменте кода вы используете объект ExcelWriter для вывода DataFrame.
Иными словами, вы передаете переменную Writer в функцию to_excel() и также указываете имя листа. Таким образом, вы добавляете лист с данными в существующую рабочую книгу: вы можете использовать ExcelWriter для сохранения нескольких (немного) разных DataFrames в одной рабочей книге.
Все это означает, что если вы просто хотите сохранить один DataFrame в файл, вы также можете обойтись без установки пакета XlsxWriter. Затем вы просто не указываете аргумент движка, который вы передаете в функцию pd.ExcelWriter(). Остальные шаги остаются прежними.
Аналогично функциям, которые вы использовали для чтения в файлах .csv, у вас также есть функция to_csv() для записи результатов обратно в файл, разделенный запятыми. Он снова работает так же, как когда вы использовали его для чтения в файле:
Если вы хотите иметь файл, разделенный табуляцией, вы также можете передать t аргументу sep. Обратите внимание, что есть другие функции, которые вы можете использовать для вывода ваших файлов. Вы можете найти их все здесь.
Пакеты для разбора файлов Excel и обратной записи с помощью Python
Помимо библиотеки Pandas, который вы будете использовать очень часто для загрузки своих данных, вы также можете использовать другие библиотеки для получения ваших данных в Python. Наш обзор основан на этой странице со списком доступных библиотек, которые вы можете использовать для работы с файлами Excel в Python.
Далее вы увидите, как использовать эти библиотеки с помощью некоторых реальных, но упрощенных примеров.
Использование виртуальных сред
Общий совет для установки — делать это в Python virtualenv без системных пакетов. Вы можете использовать virtualenv для создания изолированных сред Python: он создает папку, содержащую все необходимые исполняемые файлы для использования пакетов, которые потребуются проекту Python.
Чтобы начать работать с virtualenv, вам сначала нужно установить его. Затем перейдите в каталог, в который вы хотите поместить свой проект. Создайте virtualenv в этой папке и загрузите в определенную версию Python, если вам это нужно. Затем вы активируете виртуальную среду. После этого вы можете начать загрузку в другие библиотеки, начать работать с ними и т. д.
Совет: не забудьте деактивировать среду, когда закончите!
Обратите внимание, что виртуальная среда может показаться немного проблемной на первый взгляд, когда вы только начинаете работать с данными с Python. И, особенно если у вас есть только один проект, вы можете не понять, зачем вам вообще нужна виртуальная среда.
С ней будет гораздо легче, когда у вас одновременно запущено несколько проектов, и вы не хотите, чтобы они использовали одну и ту же установку Python. Или когда ваши проекты имеют противоречащие друг другу требования, виртуальная среда пригодится!
Теперь вы можете, наконец, начать установку и импорт библиотек, о которых вы читали, и загрузить их в таблицу.
Как читать и записывать файлы Excel с openpyxl
Этот пакет обычно рекомендуется, если вы хотите читать и записывать файлы .xlsx, xlsm, xltx и xltm.
Установите openpyxl с помощью pip: вы видели, как это сделать в предыдущем разделе.
Общий совет для установки этой библиотеки — делать это в виртуальной среде Python без системных библиотек. Вы можете использовать виртуальную среду для создания изолированных сред Python: она создает папку, которая содержит все необходимые исполняемые файлы для использования библиотек, которые потребуются проекту Python.
Перейдите в каталог, в котором находится ваш проект, и повторно активируйте виртуальную среду venv. Затем продолжите установку openpyxl с pip, чтобы убедиться, что вы можете читать и записывать файлы с ним:
Теперь, когда вы установили openpyxl, вы можете загружать данные. Но что это за данные?
Доспутим Excel с данными, которые вы пытаетесь загрузить в Python, содержит следующие листы:
Функция load_workbook() принимает имя файла в качестве аргумента и возвращает объект рабочей книги, который представляет файл. Вы можете проверить это, запустив type (wb). Убедитесь, что вы находитесь в том каталоге, где находится ваша таблица, иначе вы получите error при импорте.
Помните, что вы можете изменить рабочий каталог с помощью os.chdir().
Вы видите, что фрагмент кода выше возвращает имена листов книги, загруженной в Python.Можете использовать эту информацию, чтобы также получить отдельные листы рабочей книги.
Вы также можете проверить, какой лист в настоящее время активен с wb.active. Как видно из кода ниже, вы можете использовать его для загрузки другого листа из вашей книги:
На первый взгляд, с этими объектами рабочего листа вы не сможете многое сделать.. Однако вы можете извлечь значения из определенных ячеек на листе вашей книги, используя квадратные скобки [], в которые вы передаете точную ячейку, из которой вы хотите получить значение.
Обратите внимание, что это похоже на выбор, получение и индексирование массивов NumPy и Pandas DataFrames, но это не все, что вам нужно сделать, чтобы получить значение. Вам нужно добавить атрибут value:
Как вы можете видеть, помимо значения, есть и другие атрибуты, которые вы можете использовать для проверки вашей ячейки, а именно: row, column и coordinate.
Атрибут row вернет 2;
Добавление атрибута column к c даст вам ‘B’
coordinate вернет ‘B2’.
Вы также можете получить значения ячеек с помощью функции cell(). Передайте row и column, добавьте к этим аргументам значения, соответствующие значениям ячейки, которую вы хотите получить, и, конечно же, не забудьте добавить атрибут value:
Обратите внимание, что если вы не укажете атрибут value, вы получите , который ничего не говорит о значении, которое содержится в этой конкретной ячейке.
Вы видите, что вы используете цикл for с помощью функции range(), чтобы помочь вам распечатать значения строк, имеющих значения в столбце 2. Если эти конкретные ячейки пусты, вы просто вернете None. Если вы хотите узнать больше о циклах for, пройдите наш курс Intermediate Python для Data Science.
Есть специальные функции, которые вы можете вызывать для получения некоторых других значений, например, get_column_letter() и column_index_from_string.
Две функции указывают примерно то, что вы можете получить, используя их, но лучше сделать их четче: хотя вы можете извлечь букву столбца с предшествующего, вы можете сделать обратное или получить адрес столбца, когда вы задаёте букву последнему. Вы можете увидеть, как это работает ниже:
Вы уже получили значения для строк, которые имеют значения в определенном столбце, но что вам нужно сделать, если вы хотите распечатать строки вашего файла, не сосредотачиваясь только на одном столбце? Использовать другой цикл, конечно!
Например, вы говорите, что хотите сфокусироваться на области между «А1» и «С3», где первая указывает на левый верхний угол, а вторая — на правый нижний угол области, на которой вы хотите сфокусироваться. ,
Эта область будет так называемым cellObj, который вы видите в первой строке кода ниже. Затем вы говорите, что для каждой ячейки, которая находится в этой области, вы печатаете координату и значение, которое содержится в этой ячейке. После конца каждой строки вы печатаете сообщение, которое указывает, что строка этой области cellObj напечатана.
Еще раз обратите внимание, что выбор области очень похож на выбор, получение и индексирование списка и элементов массива NumPy, где вы также используете [] и : для указания области, значения которой вы хотите получить. Кроме того, вышеприведенный цикл также хорошо использует атрибуты ячейки!
Чтобы сделать вышеприведенное объяснение и код наглядным, вы можете проверить результат, который вы получите после завершения цикла:
Наконец, есть некоторые атрибуты, которые вы можете использовать для проверки результата вашего импорта, а именно max_row и max_column. Эти атрибуты, конечно, и так — общие способы проверки правильности загрузки данных, но они все равно полезны.
Наверное, вы думаете, что такой способ работы с этими файлами сложноват, особенно если вы еще хотите манипулировать данными.
Должно быть что-то попроще, верно? Так и есть!
openpyxl поддерживает Pandas DataFrames! Вы можете использовать функцию DataFrame() из библиотеки Pandas, чтобы поместить значения листа в DataFrame:
Если вы хотите указать заголовки и индексы, вам нужно добавить немного больше кода:
Затем вы можете начать манипулировать данными со всеми функциями, которые предлагает библиотека Pandas. Но помните, что вы находитесь в виртуальной среде, поэтому, если библиотека еще не представлена, вам нужно будет установить ее снова через pip.
Чтобы записать ваши Pandas DataFrames обратно в файл Excel, вы можете легко использовать функцию dataframe_to_rows() из модуля utils:
Но это точно не все! Библиотека openpyxl предлагает вам высокую гибкость при записи ваших данных обратно в файлы Excel, изменении стилей ячеек или использовании режима write-only. Эту библиотеку обязательно нужно знать, когда вы часто работаете с электронными таблицами ,
Совет: читайте больше о том, как вы можете изменить стили ячеек, перейти в режим write-only или как библиотека работает с NumPy здесь.
Теперь давайте также рассмотрим некоторые другие библиотеки, которые вы можете использовать для получения данных вашей электронной таблицы в Python.
Прежде чем закрыть этот раздел, не забудьте отключить виртуальную среду, когда закончите!
Чтение и форматирование Excel-файлов: xlrd
Эта библиотека идеально подходит для чтения и форматирования данных из Excel с расширением xls или xlsx.
Когда вам не нужны данные из всей Excel-книги, вы можете использовать функции sheet_by_name() или sheet_by_index() для получения листов, которые вы хотите получить в своём анализе
Также можно получить значение в определённых ячейках с вашего листа.
Перейдите к xlwt и xlutils, чтобы узнать больше о том, как они относятся к библиотеке xlrd.
Запись данных в Excel-файлы с xlwt
Если вы хотите создать таблицу со своими данными, вы можете использовать не только библиотеку XlsWriter, но и xlwt. xlwt идеально подходит для записи данных и форматирования информации в файлах с расширением .xls
Когда вы вручную создаёте файл:
Если вы хотите записать данные в файл, но не хотите делать все самостоятельно, вы всегда можете прибегнуть к циклу for, чтобы автоматизировать весь процесс. Составьте сценарий, в котором вы создаёте книгу и в которую добавляете лист. Укажите список со столбцами и один со значениями, которые будут заполнены на листе.
Далее у вас есть цикл for, который гарантирует, что все значения попадают в файл: вы говорите, что для каждого элемента в диапазоне от 0 до 4 (5 не включительно) вы собираетесь что-то делать. Вы будете заполнять значения построчно. Для этого вы указываете элемент строки, который появляется в каждом цикле. Далее у вас есть еще один цикл for, который будет проходить по столбцам вашего листа. Вы говорите, что для каждой строки на листе, вы будете смотреть на столбцы, которые идут с ним, и вы будете заполнять значение для каждого столбца в строке. Заполнив все столбцы строки значениями, вы перейдете к следующей строке, пока не останется строк.
На скриншоте ниже представлен результат выполнения этого кода:
Теперь, когда вы увидели, как xlrd и xlwt работают друг с другом, пришло время взглянуть на библиотеку, которая тесно связана с этими двумя: xlutils.
Сборник утилит: xlutils
Эта библиотека — сборник утилит, для которого требуются и xlrd и xlwt, и которая может копировать, изменять и фильтровать существующие данные. О том, как пользоваться этими командами рассказано в разделе по openpyxl.
Вернитесь в раздел openpyxl, чтобы получить больше информации о том, как использовать этот пакет для получения данных в Python.
Использование pyexcel для чтения .xls или .xlsx файлов
Еще одна библиотека, которую можно использовать для чтения данных электронных таблиц в Python — это pyexcel; Python Wrapper, который предоставляет один API для чтения, записи и работы с данными в файлах .csv, .ods, .xls, .xlsx и .xlsm. Конечно, для этого урока вы просто сосредоточитесь на файлах .xls и .xls.
Чтобы получить ваши данные в массиве, вы можете использовать функцию get_array(), которая содержится в пакете pyexcel:
Вы также можете получить свои данные в упорядоченном словаре списков. Вы можете использовать функцию get_dict():
Здесь видно, что если вы хотите получить словарь двумерных массивов или получить все листы рабочей книги в одном словаре, вы можете прибегнуть к get_book_dict().
Помните, что эти две структуры данных, которые были упомянуты выше, массивы и словари вашей таблицы, позволяют вам создавать DataFrames ваших данных с помощью pd.DataFrame(). Это облегчит обработку данных.
Кроме того, вы можете просто получить записи из таблицы с помощью pyexcel благодаря функции get_records(). Просто передайте аргумент file_name в функцию, и вы получите список словарей:
Чтобы узнать, как управлять списками Python, ознакомьтесь с примерами из документации о списках Python.
Запись в файл с pyexcel
С помощью этой библиотеки можно не только загружать данные в массивы, вы также можете экспортировать свои массивы обратно в таблицу. Используйте функцию save_as() и передайте массив и имя файла назначения в аргумент dest_file_name:
Обратите внимание, что если вы хотите указать разделитель, вы можете добавить аргумент dest_delimiter и передать символ, который вы хотите использовать в качестве разделителя между «».
Однако если у вас есть словарь, вам нужно использовать функцию save_book_as(). Передайте двумерный словарь в bookdict и укажите имя файла:
При использовании кода, напечатанного в приведенном выше примере, важно помнить, что порядок ваших данных в словаре не будет сохранен. Если вы не хотите этого, вам нужно сделать небольшой обход. Вы можете прочитать все об этом здесь.
Чтение и запись .csv файлов
Если вы все еще ищете библиотеки, которые позволяют загружать и записывать данные в файлы .csv, кроме Pandas, лучше всего использовать пакет csv:
Обратите внимание, что в пакете NumPy есть функция genfromtxt(), которая позволяет загружать данные, содержащиеся в файлах .csv, в массивы, которые затем можно поместить в DataFrames.
Финальная проверка данных
Когда у вас есть данные, не забудьте последний шаг: проверить, правильно ли загружены данные. Если вы поместили свои данные в DataFrame, вы можете легко и быстро проверить, был ли импорт успешным, выполнив следующие команды:
Если у вас есть данные в массиве, вы можете проверить их, используя следующие атрибуты массива: shape, ndim, dtype и т.д .:
Что дальше?
Поздравляем! Вы успешно прошли наш урок и научились читать файлы Excel на Python.
Если вы хотите продолжить работу над этой темой, попробуйте воспользоваться PyXll, который позволяет писать функции в Python и вызывать их в Excel.
Источник
A common situation for us (people in the programming/computing/processing world) is that we don’t always work with the same tools as some of our non-tech peers.
Case in point, I received a big bunch of files in XLS/XLSX format, very big files, LibreOffice has trouble working with them. Since I want to perform quick processing on that data, and I already have scripts that process similar data in CSV, the simplest path is to transform those files to plain, ugly, useful CSV files.
Then again, there are 100 files, and I don’t feel like dancing around each one: opening, clicking save as, selecting CSV, telling LibreOffice that this is a semicolon separated CSV file … etc etc.
Entering pandas.
Pandas
Pandas is a huge python library. Apparently, it is quite suited for data analysis and has a lot of goodies within it. For me, right now, it is a nice library that will let me open an .xlsx and save it as a CSV. BINGO!
- Basic example
- Multiple Sheets
- Column Indices
- CSV output style
- Float or Int
- Column Headers
- No data type
Basic XLS to CSV
Opening one XLS in pandas is a delight. There’s simply one function to call: read_excel. It supports a bunch of options that will prove really useful, but for a quick test you can simply write something on the lines of:
import pandas as pd data = pd.read_excel('myfile.xlsx')
Once the file is opened and parsed into the data variable, saving is equally easy:
data.to_csv(outfile)
This is the vanilla way to do it. No options, and as you expect, something weird may happen. The rest of this post simply deals with options and sub-options to fine-grain our reading and writing process.
Multiple Sheets
It is a fact, an excel file, more often than not, has multiple sheets. I am just interested in one of the sheets, and it can be selected using the sheetname
parameter on load.
import pandas as pd data = pd.read_excel('myfile.xlsx', 'MySheet')
It is the second parameter, so I don’t bother with the name and just use it as a positional parameter.
Column index
Not my case, but you may have a specific column that acts as an index. The index_col
parameter takes care of that. I set it to None.
import pandas as pd data = pd.read_excel('myfile.xlsx', 'MySheet', index_col=None)
CSV Styling
There’s not a lot to do with the CSV format, nevertheless you can perform some basic tidy ups like: forcing an UTF-8 encoding, a semicolon separator and specify the float format.
data.to_csv('output.csv', encoding='utf-8', sep=';', float_format='%.2f')
Ints are floats?!
I’ve found some problems while dealing with integer data. The xlsx input does have columns that I know are integers, but pandas is actually treating those as floats.
So, after my first xlsx to CSV format change I got something like:
500000 (in excel) -> 499999.89999 (in CSV)
As you can imagine, this is not acceptable at all. For float values I don’t mind losing some precision in the process (I actually did not find any precision loss in my dataset), but integers should be integers.
This can be achieved forcing the casting type of each column. For that the converters
parameters is our friend. It takes a dictionary with caster functions.
converters = { 'header1' : int, 'header2' : float } data_xls = pd.read_excel(fileName, 'ResultsSheet', index_col=None, converters=converters, na_values = ['NoData'])
No data values
Some of the input files differentiate between an empty set and no data value using a string. The na_values
option keeps track of all the strings or values that should be treated as no_data.
data_xls = pd.read_excel(fileName, 'ResultsSheet', na_values = ['NoData', 'nd', 'nodata', 'NONE'])
Those values are read as None into the data_xls
variable.
Column renaming
I noted that it’s frequent to find weird column headers. Mind me, not weird for a human, but weird when processing those columns. In my humble case, I can’t accept newlines in headers. They look nice in excel, but mess the CSV output.
What pandas offers is a rename
function. It takes a dictionary of headers with the current name and the new value:
headers = { 'Header with n newlines' : 'new header', 'whateverName' : 'my new name', } data.rename(columns=headers, inplace=True)
To curate the input headers we just have to loop the existing headers and remove any unwanted characters. To get the headers from a pandas data frame, we use the list
function.
fileHeaders = list(data) newHeaders = {} for header in fileHeaders: newHeaders[header] = header.replace('n','') data.rename(columns=newHeaders, inplace=True)
Conclusion
I am quite surprised at the pandas library and its wide range of options. While reading the documentation I’ve found a lot of stuff to like but this post only plays with a very very very small subset of what pandas can do.
References
Pandas website ⇒GO
Donghuas-MacBook-Air:Downloads donghua$ python
Python 3.6.3 |Anaconda, Inc.| (default, Oct 6 2017, 12:04:38)
[GCC 4.2.1 Compatible Clang 4.0.1 (tags/RELEASE_401/final)] on darwin
Type «help», «copyright», «credits» or «license» for more information.
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.read_excel(«/Users/donghua/Downloads/LN University.xls»,sheet_name=»Sheet1″,header=None, skiprows=3)
>>> df.head(1)
0 1 2 3 4 5 6 7
0 1 鞍山师范学院 201310169001 花楸果实中花青素的提取 创新训练项目 侯文锋 110604 4
8 9 10 11 12 13 14
0 杨晓龙 110607 n王博 110505 n陈中意 110629 辛广 教授 15000 5000 10000 550
15
0 本项目以花楸为原材料,通过用表面活性剂结合酸化的常规提取剂辅助超声波法提取花楸果实中花青素,…
>>> df.to_csv(«/Users/donghua/Downloads/LN_University_20180125.csv»,sep=’t’,header=False, encoding=’utf-8′)
>>> exit()
Donghuas-MacBook-Air:Downloads donghua$
import pandas as pd
import numpy as np
df = pd.read_excel(«/Users/donghua/Downloads/LN University.xls»,sheet_name=»Sheet1″,header=None, skiprows=3)
#replace at column level
#df[8]=df[8].str.replace(r’n’,’ ‘);
#df[15]=df[15].str.replace(r’n’,’ ‘);
#replace within whole data frame
df=df.replace({r’n’: ‘ ‘}, regex=True)
df.to_csv(«/Users/donghua/Downloads/LN_University_20180125.csv»,sep=’,’,line_terminator=’n’,escapechar=’\’, header=False, encoding=’utf-8′)
exit()