Надстройка python для excel

Время на прочтение
6 мин

Количество просмотров 349K

Добрый день, уважаемые читатели.

В сегодняшней статье я хотел бы, как можно подробнее, рассмотреть интеграцию приложений Python и MS Excel. Данные вопрос может возникнуть, например, при создании какой-либо системы онлайн отчетности, которая должна выгружать результаты в общепринятый формат ну или какие-либо другие задачи. Также в статье я покажу и обратную интеграцию, т.е. как использовать функцию написанную на python в Excel, что также может быть полезно для автоматизации отчетов.

Работаем с файлами MS Excel на Python

Для работы с Excel файлами из Python мне известны 2 варианта:

  1. Использование библиотек, таких как xlrd, xlwt, xlutils или openpyxl
  2. Работа с com-объектом

Рассмотрим работу с этими способами подробнее. В качестве примера будем использовать готовый файл excel из которого мы сначала считаем данные из первой ячейки, а затем запишем их во вторую. Таких простых примеров будет достаточно для первого ознакомления.

Использование библиотек

Итак, первый метод довольно простой и хорошо описан. Например, есть отличная статья для описания работы c xlrd, xlwt, xlutils. Поэтому в данном материале я приведу небольшой кусок кода с их использованием.

Для начала загрузим нужные библиотеки и откроем файл xls на чтение и выберем
нужный лист с данными:

import xlrd, xlwt
#открываем файл
rb = xlrd.open_workbook('../ArticleScripts/ExcelPython/xl.xls',formatting_info=True)

#выбираем активный лист
sheet = rb.sheet_by_index(0)

Теперь давайте посмотрим, как считать значения из нужных ячеек:

#получаем значение первой ячейки A1
val = sheet.row_values(0)[0]

#получаем список значений из всех записей
vals = [sheet.row_values(rownum) for rownum in range(sheet.nrows)]

Как видно чтение данных не составляет труда. Теперь запишем их в другой файл. Для этого создам новый excel файл с новой рабочей книгой:

wb = xlwt.Workbook()
ws = wb.add_sheet('Test')

Запишем в новый файл полученные ранее данные и сохраним изменения:

#в A1 записываем значение из ячейки A1 прошлого файла
ws.write(0, 0, val[0])

#в столбец B запишем нашу последовательность из столбца A исходного файла
i = 0
for rec in vals:
    ws.write(i,1,rec[0])
    i =+ i

#сохраняем рабочую книгу
wb.save('../ArticleScripts/ExcelPython/xl_rec.xls')

Из примера выше видно, что библиотека xlrd отвечает за чтение данных, а xlwt — за запись, поэтому нет возможности внести изменения в уже созданную книгу без ее копирования в новую. Кроме этого указанные библиотеки работают только с файлами формата xls (Excel 2003) и у них нет поддержки нового формата xlsx (Excel 2007 и выше).

Чтобы успешно работать с форматом xlsx, понадобится библиотека openpyxl. Для демонстрации ее работы проделаем действия, которые были показаны для предыдущих библиотек.

Для начала загрузим библиотеку и выберем нужную книгу и рабочий лист:

import openpyxl
wb = openpyxl.load_workbook(filename = '../ArticleScripts/ExcelPython/openpyxl.xlsx')
sheet = wb['test']

Как видно из вышеприведенного листинга сделать это не сложно. Теперь посмотрим как можно считать данные:

#считываем значение определенной ячейки
val = sheet['A1'].value

#считываем заданный диапазон
vals = [v[0].value for v in sheet.range('A1:A2')]

Отличие от прошлых библиотек в том, что openpyxl дает возможность отображаться к ячейкам и последовательностям через их имена, что довольно удобно и понятно при чтении программы.

Теперь посмотрим как нам произвести запись и сохранить данные:

#записываем значение в определенную ячейку
sheet['B1'] = val

#записываем последовательность
i = 0
for rec in vals:
    sheet.cell(row=i, column=2).value = rec
    i =+ 1

# сохраняем данные
wb.save('../ArticleScripts/ExcelPython/openpyxl.xlsx')

Из примера видно, что запись, тоже производится довольно легко. Кроме того, в коде выше, можно заметить, что openpyxl кроме имен ячеек может работать и с их индексами.

К недостаткам данной библиотеки можно отнести, то что, как и в предыдущем примере, нет возможности сохранить изменения без создания новой книги.

Как было показано выше, для более менее полноценной работы с excel файлами, в данном случае, нужно 4 библиотеки, и это не всегда удобно. Кроме этого, возможно нужен будет доступ к VBA (допустим для какой-либо последующей обработки) и с помощью этих библиотек его не получить.

Однако, работа с этими библиотеками достаточно проста и удобна для быстрого создания Excel файлов их форматирования, но если Вам надо больше возможностей, то следующий подпункт для Вас.

Работа с com-объектом

В своих отчетах я предпочитаю использовать второй способ, а именно использование файла Excel через com-объект с использованием библиотеки win32com. Его преимуществом, является то, что вы можете выполнять с файлом все операции, которые позволяет делать обычный Excel с использованием VBA.

Проиллюстрируем это на той же задаче, что и предыдущие примеры.

Для начала загрузим нужную библиотеку и создадим COM объект.

import win32com.client
Excel = win32com.client.Dispatch("Excel.Application")

Теперь мы можем работать с помощью объекта Excel мы можем получить доступ ко всем возможностям VBA. Давайте, для начала, откроем любую книгу и выберем активный лист. Это можно сделать так:

wb = Excel.Workbooks.Open(u'D:\Scripts\DataScience\ArticleScripts\ExcelPython\xl.xls')
sheet = wb.ActiveSheet

Давайте получим значение первой ячейки и последовательности:

#получаем значение первой ячейки
val = sheet.Cells(1,1).value

#получаем значения цепочки A1:A2
vals = [r[0].value for r in sheet.Range("A1:A2")]

Как можно заметить, мы оперируем здесь функциями чистого VBA. Это очень удобно если у вас есть написанные макросы и вы хотите использовать их при работе с Python при минимальных затратах на переделку кода.

Посмотрим, как можно произвести запись полученных значений:

#записываем значение в определенную ячейку
sheet.Cells(1,2).value = val

#записываем последовательность
i = 1
for rec in vals:
    sheet.Cells(i,3).value = rec
    i = i + 1

#сохраняем рабочую книгу
wb.Save()

#закрываем ее
wb.Close()

#закрываем COM объект
Excel.Quit()

Из примера видно, что данные операции тоже довольно просто реализовываются. Кроме этого, можно заметить, что изменения мы сохранили в той же книге, которую открыли для чтения, что достаточно удобно.

Однако, внимательный читатель, обратит внимание на переменную i, которая инициализируется не 0, как принято python, а 1. Это связано с тем, что мы работаем с индексами ячеек как из VBA, а там нумерация начинается не с 0, а с 1.

На этом закончим разбор способов работы с excel файлами в python и перейдем к обратной задаче.

Вызываем функции Python из MS Excel

Может возникнуть такая ситуация, что у вас уже есть какой-либо функция, которая обрабатывает данные на python, и нужно перенести ее функциональность в Excel. Конечно же можно переписать ее на VBA, но зачем?

Для использования функций python в Excel есть прекрасная надстройка ExcelPython. С ее помощью вы сможете вызывать функции написанные на python прямо из Excel, правда придется еще написать небольшую обертку на VBA, и все это будет показано ниже.

Итак, предположим у нас есть функция, написанная на python, которой мы хотим воспользоваться:

def get_unique(lists):
    sm = 0
    for i in lists:
        sm = sm + int(i.pop()) 
    return sm

На вход ей подается список, состоящий из списков, это одно из условий, которое должно выполняться для работы данной функции в Excel.

Сохраним функцию в файле plugin.py и положим его в ту же директорию, где будет лежать наш excel файл, с которым мы будем работать.

Теперь установим ExcelPython. Установка происходит через запуск exe-файла и не вызывает затруднений.

Когда все приготовления выполнены, открываем тестовый файл excel и вызовем редактор VBA (Alt+F11). Для работы с вышеуказанной надстройкой необходимо ее подключить, через Tools->References, как показано на рисунке:

Ну что же, теперь можно приступить к написанию функции-обертки для нашего Python-модуля plugin.py. Выглядеть она будет следующим образом:

Function sr(lists As Range)
    On Error GoTo do_error
        Set plugin = PyModule("plugin", AddPath:=ThisWorkbook.Path)
        Set result = PyCall(plugin, "get_unique", PyTuple(lists.Value2))
        sr = WorksheetFunction.Transpose(PyVar(result))
        Exit Function
do_error:
        sr = Err.Description
End Function

Итак, что же происходит в данной функции?

Для начала, с помощью PyModule, мы подключаем нужный модуль. Для этого в качестве параметров ей передается имя модуля без расширения, и путь до папки в которой он находится. На выходе работы PyModule мы получаем объект для работы с модулем.

Затем, с помощью PyCall, вызываем нужную нам функцию из указанного модуля. В качестве параметров PyCall получает следующее:

  1. Объект модуля, полученный на предыдущем шаге
  2. Имя вызываемой функции
  3. Параметры, передаваемые функции (передаются в виде списка)

Функция PyTuple, получает на вход какие-либо значения и преобразует их в объект tuple языка Python.
Ну и, соответственно, PyVar выполняет операцию преобразования результата функции python, к типу понятному Excel.

Теперь, чтобы убедиться в работоспособности нашей связки, вызовем нашу свежеиспеченую функцию на листе в Excel:

Как видно из рисунка все отработало правильно.

Надо отметить, что в данном материале используется старая версия ExcelPython, и на GitHub’e автора доступна новая версия.

Заключение

В качестве заключения, надо отметить, примеры в данной статье самые простые и для более глубоко изучения данных методов, я рекомендую обратиться к
документации по нужным пакетам.

Также хочу заметить, что указанные пакеты не являются единственными и в статье опущено рассмотрение, таких пакетов как xlsxwriter для генерации excel файлов или xlwings, который может работать с Excel файлами «на лету», а также же PyXLL, который выполняет аналогичные функции ExcelPython.

Кроме этого в статье я попытался несколько обобщить разборасанный по сети материал, т.к. такие вопросы часто фигурируют на форумах и думаю некоторым будет полезно иметь, такую «шпаргалку» под рукой.

xlwings — Make Excel fly with Python!

xlwings (Open Source)

xlwings is a BSD-licensed Python library that makes it easy to call Python from Excel and vice versa:

  • Scripting: Automate/interact with Excel from Python using a syntax that is close to VBA.
  • Macros: Replace your messy VBA macros with clean and powerful Python code.
  • UDFs: Write User Defined Functions (UDFs) in Python (Windows only).

Numpy arrays and Pandas Series/DataFrames are fully supported. xlwings-powered workbooks are easy to distribute and work
on Windows and macOS.

xlwings includes all files in the xlwings package except the pro folder, i.e., the xlwings.pro subpackage.

xlwings PRO

xlwings PRO offers additional functionality on top of xlwings (Open Source), including:

  • xlwings Server: No local Python installation required, supports Excel on the web and Google Sheets in addition to Excel on Windows and macOS. Integrates with VBA, Office Scripts and Office.js and supports custom functions on all platforms.
  • xlwings Reports: the flexible, template-based reporting system
  • xlwings Reader: A faster and more feature-rich alternative for pandas.read_excel() (no Excel installation required)
  • Easy deployment via 1-click installer and embedded code
  • See the full list of PRO features

xlwings PRO is source available and dual-licensed under one of the following licenses:

  • PolyForm Noncommercial License 1.0.0 (noncommercial use is free)
  • xlwings PRO License (commercial use requires a paid plan)

License Key

To use xlwings PRO, you need to install a license key on a Terminal/Command Prompt like so (alternatively, set the env var XLWINGS_LICENSE_KEY:

xlwings license update -k YOUR_LICENSE_KEY

See the docs for more details.

License key for noncommercial purpose:

  • To use xlwings PRO for free in a noncommercial context, use the following license key: noncommercial.

License key for commercial purpose:

  • To try xlwings PRO for free in a commercial context, request a trial license key: https://www.xlwings.org/trial
  • To use xlwings PRO in a commercial context beyond the trial, you need to enroll in a paid plan (they include additional services like support and the ability to create one-click installers): https://www.xlwings.org/pricing

xlwings PRO licenses are developer licenses, are verified offline (i.e., no telemetry/license server involved) and allow royalty-free deployments to unlimited internal and external end-users and servers for a hassle-free management. Deployments use deploy keys that don’t expire but instead are bound to a specific version of xlwings.

Links

  • Homepage: https://www.xlwings.org
  • Quickstart: https://docs.xlwings.org/en/stable/quickstart.html
  • Documentation: https://docs.xlwings.org
  • Book (O’Reilly, 2021): https://www.xlwings.org/book
  • Video Course: https://training.xlwings.org/p/xlwings
  • Source Code: https://github.com/xlwings/xlwings

xltrail

The Excel files are also tracked with xltrail. You can see the diffs
here.

Сегодня мы разберем как можно запускать скрипты Python напрямую из Excel, минуя какие либо промежуточные интерфейсы. Для этой задачи нам понадобится пакет Хlwings. Он входит в состав Anaconda, поэтому если Вы ее установили, то никаких дополнительных действий не требуется.

Интеграция Python в Excel при помощи Xlwings

Обращаю внимание, что инструкция относится для версии xlwings 0.16.0 и выше. Если у вас установлена версия ниже — обновите пожалуйста пакет.

1. Установка Excel аддона 

Первое, что надо сделать — это установить специальный аддон в Excel. Для этого запустите командную строку Anaconda и введите команду:

xlwings addin install

После того, как команда отработала, то запустите Excel и вы должны увидеть новую ленту xlwings:

Интеграция Python в Excel при помощи Xlwings

Далее запустите VBA редактор (Alt + F11), там в меню Tools выберите References…, в открывшемся меню активируйте xlwings:

Интеграция Python в Excel при помощи Xlwings

2. Настройка ленты xlwings в Excel

Далее необходимо прописать в ленте xlwings путь до Python, а также расположение директории, куда была установлена Anaconda и как называется используемое Виртуальное окружение (environment).

Итак в поле Interpreter указываем путь до файла python.exe, включая название файла. К примеру у меня адрес следующий: D:PythonAnaconda3envsworkpython.exe

В поле Conda Base указываем адрес, куда установлена Anaconda. К примеру у меня это D:PythonAnaconda3.

Далее в поле Conda Env указываем название виртуального окружения. У меня к примеру это work. Если Вы не знаете название вашего виртуального окружения, то запустите Anaconda Navigator, далее перейдите в пункт Environments и там увидите необходимое название.

3. Запуск Python скрипта из Excel

Для запуска скриптов есть два варианта:

3.1 Без использования VBA

Создайте Excel файл, сохраните его с любым названием, далее в этой же папке создайте python скрипт с таким же названием, как и Excel файл, в нем создайте функцию с названием main(). Эту функцию вы сможете вызвать из ленты xlwings нажав на кнопку «Run main». К примеру внесите в скрипт следующий код:

import xlwings as xw

def main():
    wb = xw.Book.caller()
    wb.sheets[0].range(‘A1’).value = ‘Hello World!’

Сохраните скрипт и запустите его, нажав на кнопку «Run main» в ленте xlwings. Если вы все сделали корректно, то в ячейке A1 Excel файла должен появиться текст «Hello World!».

3.2 С использованием VBA

Создайте Excel файл, сохраните его с любым названием

в формате с поддержкой макросов

, далее в этой же
папке создайте python скрипт с таким же названием, как и Excel файл. В скрипте создайте функцию с любым названием, к примеру:

import xlwings as xw

def hello():
    wb = xw.Book.caller()
    wb.sheets[0].range(‘A1’).value = ‘Привет мир!!!’

Далее запустите редактор VBA и в нем пропишите следующий код:


Sub HelloWorld()
    RunPython («import Excel_Xlwings; Excel_Xlwings.hello()»)
End Sub

Первая часть параметров функции (import Excel_Xlwings) указывает на название скрипта Python (Excel_Xlwings), а вторая Excel_Xlwings.hello() — на название функции в этом скрипте. Теперь выполните этот макрос, как и любой другой макрос VBA. Если сделали все правильно — то в результате в ячейке A1 Excel файла должен появиться текст «Привет мир!!!».

4. Создание пользовательских функций (UDF) в Excel при помощи Python

Как и в пункте 3.2 необходимо создать и сохранить Excel файл с поддержкой макросов, далее в той же папке, где расположен сохраненный эксель файл, создать скрипт Python и внести туда код пользовательской функции, к примеру:

import xlwings as xw

    @xw.func
def double_sum(x, y):
    «»»Возвращает сумму двух агрументов умноженную на 2″»»
    return 2 * (x + y)

Сохраняем скрипт, далее в ленте xlwings нажимаем кнопку Import Functions для загрузки созданной функции из Python в Excel. Теперь вы можете применять эту функцию, как и другие функции Excel:

Интеграция Python в Excel при помощи Xlwings

Отлично. На сегодня все. Есть вопросы — задавайте в комментариях ниже.

Improve Article

Save Article

Like Article

  • Read
  • Discuss
  • Improve Article

    Save Article

    Like Article

    Xlwings is a Python library that makes it easy to call Python from Excel and vice versa. It creates reading and writing to and from Excel using Python easily. It can also be modified to act as a Python Server for Excel to synchronously exchange data between Python and Excel. Xlwings makes automating Excel with Python easy and can be used for- generating an automatic report, creating Excel embedded functions, manipulating Excel or CSV databases etc.
     

    Installation:
    The virtual environment is used to separate a project environment (libraries, environment variables etc) etc from other project and from the global environment of the same machine. This step is optional as it isn’t always necessary to create a virtual environment for a project. We will be using a python package virtualenv for this purpose. 
     

    virtualenv env
    .envscriptsactivate

    And the virtual environment is ready.  

    pip install xlwings

     To start using Xlwings, there are certain basic steps which are to be done almost every time. This includes opening an Excel file, viewing the sheet available and then selecting a sheet. 
    Sheet 1 of data.xlsx file. 

    Excel used: Click here
     

    https://drive.google.com/file/d/1ZoT_y-SccAslpD6HWTgCn9N-iiKqw_pA/view?usp=sharing

    Below are some examples which depict how to perform various operations using Xlwings library:

    Example 1:

    Python3

    import xlwings as xw

    wb = xw.Book('data.xlsx')

    wks = xw.sheets

    print("Available sheets :n", wks)

    ws = wks[0]

    val = ws.range("A1").value

    print("A value in sheet1 :", val)

    Output: 

    Values can be selected from an Excel sheet by specifying a cell, row, column, or area. Selecting the entire row or column is not recommended as an entire row or column in Excel is quite long, so it would result in a long list of trailing None. Selecting a range of 2D data will result in a list of lists of data. 

    Example 2:

    Python3

    import xlwings as xw

    ws = xw.Book("data.xlsx").sheets['Sheet1']

    v1 = ws.range("A2").value

    v2 = ws.range("A3").value

    print("Result :", v1, v2)

    r = ws.range("4:4").value

    print("Row :", r)

    c = ws.range("C:C").value

    print("Column :", c)

    table = ws.range("A1:C4").value

    print("Table :", table)

    automatic = ws.range("A1").expand().value

    print("Automatic Table :", automatic)

    Output: 

    Xlwings can be used to insert data in an Excel file similarly that it reads from an Excel file. Data can be provided as a list or a single input to a certain cell or a selection of cells. 

    Example 3:

    Python3

    import xlwings as xw

    ws = xw.Book('data.xlsx').sheets("Sheet2")

    ws.range("A1").value = "geeks"

    ws.range("B1").value = ["for", "geeks"]

    ws.range("A2").value = [[1, 2, 3], ['a', 'b', 'c']]

    ws.range("A4:C4").value = ["This", "is", "awesome"]

    print("Table :n", ws.range("A1").expand().value)

    Output: 

    Excel Screenshot:

    Like Article

    Save Article

    Excel is very, very pervasive in today’s businesses. At Dataquest, we generally recommend working with code for quite a few reasons, and many of our data science courses are aimed at teaching efficient coding for data analysis and data science. But no matter how strongly you prefer working with Python, at the end of the day there is sometimes a need to present your findings or share your data using Excel.

    But that doesn’t mean can’t still enjoy some of the efficiencies of Python! In fact, using a library called xlwings, you can use Python to make working in Excel faster.

    In this xlwings tutorial, we’ll walk through how to use Python in Excel to execute and use some common operations like deleting rows based on certain criteria, using Excel functions and formulas, autofilling, creating sheets, charts, etc. In order to follow this post you should be familiar with basic Python concepts (objects, methods, attributes, functions) and Python’s syntax and have an intermediate knowledge of Excel and VBA.

    We will be working with a data set that contains information regarding the draws of an European lottery called EuroMillions. This data set was downloaded from this link and it contains all the EuroMillions draws up to, and including, the 20th of September. The data available at that link should be updated with the latest information up to whenever you’re reading this post, but in case it’s unavailable, here’s a CSV file with the data from that link as of September 20.

    Euromillions is a multinational lottery available in some European countries, specifically in Andorra, Austria, Belgium, France (including overseas regions and collectivities), Ireland, the Isle of Man, Liechtenstein, Luxembourg, Monaco, Portugal, Spain, Switzerland and the United Kingdom (source).

    As of this writing, the draw consists of five numbers from a pool of 50 numbers (numbered 1 through 50) and two numbers called lucky stars from a pool of 12 numbers. In order to win the jackpot, participants must correctly choose all drawn numbers and lucky stars. The largest jackpot ever won was €190 million. (Note, though, that our data set denominates winnings in Pounds, not Euros).

    In this tutorial, we’ll use Python and xlwings with Excel to clean up a data set and then generate some graphs to visualize which numbers win the EuroMillions most frequently.

    
    import pandas as pd
    import xlwings as xw
    df = pd.read_csv('euromillions.csv')
    df.sample(5)
    
    No. Day DD MMM YYYY N1 N2 N3 N4 N5 L1 L2 Jackpot Wins
    627 514 Fri 24 Aug 2012 6 5 19 37 12 7 3 37709047 1
    230 911 Tue 14 Jun 2016 13 50 42 39 34 11 9 11928000 0
    998 143 Fri 3 Nov 2006 13 11 44 24 49 9 3 88344099 0
    1071 70 Fri 10 Jun 2005 37 32 47 7 6 7 1 21734699 0
    522 619 Tue 27 Aug 2013 7 40 38 43 30 6 2 12931500 0

    The first column is the draw number, columns N1-L2 are the drawn numbers and lucky stars (by the order they were drawn), the Jackpot column is the jackpot in Euros and the Wins column tell us how many bets hit the jackpot.

    Meet xlwings

    xlwings is a Python library that makes some of the data analysis features of Python available in an Excel instance, including support for numpy arrays and pandas Series and DataFrames. Like any other Python library, it can be installed using common methods like pip or conda, but you can access the documentation for xlwings here if you need additional details.

    Note that you’ll need to have a version of Microsoft Excel installed on the computer you’re using to do this xlwings tutorial.

    xlwings objects

    In xlwings there are four main object types which are, in decreasing hierarchical order: App (which represents an Excel instance), Book, Sheet and Range. In addition to these we’ll also be dealing with Chart and Shape objects. You can find useful information regarding these and other objects in the official documentation, but we’ll be looking at each of these objects one at a time.

    Let’s start by creating a Book instance and naming it wb (workbook).

    
    wb = xw.Book() # wb = xw.Book(filename) would open an existing file
    

    When you run that code, it should look something like this.

    01.-New-book-1

    Notice that when the code cell is run in the Jupyter Notebook, Excel is launched automatically.

    By instantiating a Book object, an App object that belongs to our book object is created automatically. Here’s how we can check all opened Excel instances.

    Note: we’re not going to include gifs for every step of this tutorial, because we don’t want this page to be a hassle to load for people with slow or limited internet connections. However, subsequent code-running steps should look similar to what we can see above: when we run a cell in Juypter, the Excel spreadsheet is updated in accordance with whatever code we’ve run.

    
    print(xw.apps)
    
    
    Apps([<Excel App 9536>])
    

    The object xw.apps is an iterable. To check what workbooks belong to the unique instances in this iterable we can invoke the books method on it like so.

    
    print(xw.apps[0].books)
    
    
    Books([<Book [Book1]>])
    

    As expected the only instance of this iterable is the workbook wb. We check this fact below.

    
    print(xw.apps[0].books[0] == wb)
    
    
    True
    

    Similarly, we can check what sheets belong to this workbook:

    
    print(wb.sheets)
    
    
    Sheets([<Sheet [Book1]Sheet1>])
    

    We can also refer to sheets by their name:

    
    #creates a worksheet object assigns it to ws
    ws = wb.sheets["Sheet1"]
    #checks that wb.sheets[0] equals ws
    print(ws == wb.sheets[0])
    
    
    True
    

    Sheet objects have a name attribute that works as expected. Let us change the name of our only sheet.

    
    ws.name = "EuroMillions"
    

    We can move data from certain Python objects (e.g. lists and tuples) into Excel. Let’s move the data in our dataframe into the sheet EuroMillions. To do this, we’ll make use of range to create a range object that stores the data from our DataFrame in a range of cells in Excel, starting in this case with the cell A1:

    #ws.range("A1") is a Range object
    ws.range("A1").value = df
    

    Here’s how that will look:

    Python-excel-xlwings-make-excel-faster

    As we can see, the index column of df was also moved to Excel. Let’s clear the contents of this sheet and copy the data without the index.

    
    ws.clear_contents()
    ws.range("A1").options(index=False).value = df
    

    It will be useful to be able to tell where our table ends. More specifically, we’ll need the last row that has data in it. To this end, we can use the end method and the row attribute of Range objects.

    The row method, not surprisingly, returns the row of the Range object.

    The method end takes in as an argument a direction ("up" (or 1), "right" (or 2), "left" (or 3, "down" (or 4)) and returns another range object. It mimics the very common action in Excel CTRL+Shift+Arrow.

    
    last_row = ws.range(1,1).end('down').row
    print("The last row is {row}.".format(row=last_row))
    print("The DataFrame df has {rows} rows.".format(rows=df.shape[0]))
    
    
    The last row is 1142.
    The DataFrame df has 1141 rows.
    

    It checks out!

    The API property

    Not every Excel functionality is available as a native xlwings feature. Sometimes we’ll have to find workarounds to do what we want. Fortunately xlwings makes this very easy for us. From the Missing Features section in the official documentation:

    Workaround: in essence, xlwings is just a smart wrapper around pywin32 on Windows and appscript on Mac. You can access the underlying objects by calling the api property. The underlying objects will offer you pretty much everything you can do with VBA, using the syntax of pywin32 (which pretty much feels like VBA) and appscript (which doesn’t feel like VBA). But apart from looking ugly, keep in mind that it makes your code platform specific (!). Excel Visual Basic for Applications is a rich source of explanations for the various existing Excel objects.

    Sorting is one such functionality that is missing from xlwings. You may have noticed that the records are ordered from the most recent to the oldest draw. In the next few steps we’ll be reversing the order.

    The object ws.range("A2:N{row}".format(row=last_row)) is a Range object. Appending the api property to it yields a VBA Range object which in turn gives access to its VBA features.

    We’ll be using the Sort property of this VBA object. In its simplest application, Sort takes in two arguments: the column by which we want to order the table (as a VBA Range object), and the order type (whether we want to sort it in ascending or descending order). The second argument’s parameter’s documentation can be seen here. We’ll be sorting in ascending order.

    Putting all of that together looks like this:

    ws.range(
    "A2:N{row}".format(row=last_row)
    ).api.Sort(Key1=ws.range("A:A").api, Order1=1)
    
    True
    

    Here’s how it’ll look on your screen after running (note that the first column has changed, and it’s now sorted in ascending rather than descending order.

    python-excel-xlwings-make-excel-faster-2

    Analyzing Our Data

    One problem we’ll encounter in trying to analyze this data set is that the dates are scattered across three different columns. We’ll need to compress it into a single column. To do this, we’ll concatenate the columns appropriately in Excel, using Python. We begin by inserting a header in the empty adjacent column.

    ws.range("O1").value = "Date"
    

    Next, we can insert the Excel formula we want to use as a string. Note: the specifics of what argument separator you should use depends on your machine’s local regional settings. On mine, the argument separator is a comma and that’s what I’ve used in this tutorial, but on yours it might be a semicolon.

    ws.range("O2").value = "=C2&D2&RIGHT(E2, 2)"
    

    Having inserted the formula in the first cell, it’s second nature in the regular Excel workflow to autofill the rest of the cells through the end of the table. Autofill is a method of the VBA Range object. It takes as parameters the destination cells as a VBA Range object and the type of fill. We’re interested in the default one whose enumeration is 0.

    ws.range("O2").api.AutoFill(
    ws.range("O2:O{row}".format(row=last_row)).api,
    0
    )
    
    
    True
    

    Here’s roughly how the screen should look after this step; note the new «Date» column on the far right.

    08.-Autofill

    We can also use the named form of the type of fill we want. To do this we’ll need to retrieve it from the module xlwings.constants which contains named versions of the enumerated arguments of most VBA properties. Recall that you can always check the available attributes by printing dir(xlwings.constants).

    (If you’re not familiar with it, dir is a native Python function and can take several kinds of arguments (modules, classes and regular objects (like lists and strings). For example, if you print dir(some_list) it will give you all the methods and attributes that you can use with a list.)

    What we did above could also be achieved with the following code snippet.

    from xlwings.constants import AutoFillType
    ws.range("O2").api.AutoFill(
    ws.range("O2:O{row}".format(row=last_row)).api,
        AutoFillType.xlFillDefault
    )
    

    Since we’ll be using this often, we’ll create a function that applies the default fill, given:

    • a worksheet
    • a string representing a cell in the worksheet
    • a last row to fill.

    To do this we’ll introduce a new Range method called get_address. It takes in four Boolean arguments and returns a string that identifies the range with varying levels of detail. Here’s a hopefully enlightening illustration of this method.

    for arg4 in (0, 1):
    for arg3 in (0,1):
    for arg2 in (0,1):
    for arg1 in (0,1):
    print(ws.range("O2").get_address(arg1, arg2, arg3, arg4))
    
    
    O2
    O$2
    $O2
    $O$2
    EuroMillions!O2
    EuroMillions!O$2
    EuroMillions!$O2
    EuroMillions!$O$2
    [Book1]EuroMillions!O2
    [Book1]EuroMillions!O$2
    [Book1]EuroMillions!$O2
    [Book1]EuroMillions!$O$2
    [Book1]EuroMillions!O2
    [Book1]EuroMillions!O$2
    [Book1]EuroMillions!$O2
    [Book1]EuroMillions!$O$2
    

    And now we define our function.

    def autofill(worksheet, cell, last_row):
       rg_cell = worksheet.range(cell)
       to_fill = "{col}{top_row}:{col}{last_row}".format(
          col=rg_cell.get_address(0,0)[0],
          top_row=rg_cell.row,
          last_row=last_row
       )
       rg_cell.api.Autofill(worksheet.range(to_fill).api, 0)
    

    In order to save Excel from making unnecessary computations, we’ll replace the formulas we just inserted on column O with hard coded values. Before we do this let us take a moment to think about what kind of Python object is Range.value when Range is an array.

    print(type(ws.range("O2:O{row}".format(row=last_row)).value))
    
    
    <class 'list'>
    

    It’s a list! Let’s see its first ten elements.

    
    print(ws.range('O2:O{row}'.format(row=last_row)).value[:10])
    
    ['13Feb04', '20Feb04', '27Feb04', '5Mar04', '12Mar04', '19Mar04', '26Mar04', '2Apr04', '9Apr04', '16Apr04']
    

    If we insert this list into any range, it will place the values horizontally, which isn’t what we want. In order to place them vertically, we’ll need to use the options method of Range objects with the option transpose=True as a parameter, like this:

    ws.range('O2').options(transpose=True).value
    = ws.range('O2:O{row}'.format(row=last_row)).value
    

    And we can now delete columns C through E.

    ws.range('C:E').api.Delete()
    
    True
    

    EuroMillions format has suffered some mild modifications over the years, the last one happened on September 24, 2016.

    From September 24, 2016 the amount of lucky stars changed from a pool of 11 to a pool of 12 numbers. In order to make a meaningful analysis, we’ll only consider draws that occurred after the last modification. The next code snippet finds the last game that happened prior to the modification and names it to_delete.

    import datetime
    
    for day in ws.range('L2:L{}'.format(last_row)):
    # checks if day is not prior to the change of the rules
        if day.value <= datetime.datetime(2016, 9, 24, 0, 0):
            # since day is past the modification date,
            # the row we want is the previous one, hence minus 1
            to_delete = int(day.get_address(0, 0)[1:])-1
            # leave the for cycle
            break
    

    And we can now delete every row from the first game to to_delete.

    ws.range('2:{}'.format(to_delete)).api.Delete()
    
    True
    

    Here’s where we’re at, at this point:

    11.-Delete-rows

    Having finished preparing the data, we will now format this table. We’ll begin by setting the font of the first row to bold.

    ws.range('1:1').api.Font.Bold = True
    

    We can follow that by formatting the Jackpot column in millions. Note that the string format below depends on your machine’s local regional settings. If the format looks odd on your end, try swapping the commas with the dots. More on Excel custom formats here.

    ws.range('J:J').number_format = "£##.##0,,' M'"
    

    As an auxiliary step for what will follow, we’ll find the letter corresponding to the last column that has data.

    last_column = ws.range(1,1).end('right').get_address(0,0)[0]
    

    Let’s now add a border to the bottom of the header cells. Similarly to what we have been doing, we’ll use the api property. Additionally we are going to need the Border property of Range objects, the border orientation enumeration and the style of the border. We’ll be setting a double edged border (line style -4119) on the bottom of the header cells only (orientation 9).

    ws.range('A1:{}1'.format(last_column)).api.Borders(9).LineStyle = -4119
    

    Let us now autofit by both rows and columns.

    ws.autofit()
    

    xlwings-python-excel-faster-5

    Oops! This looks a bit squished, let us set the width of all columns to that of column J which seems to be the largest. Here is the ColumnWidth documentation that we are using just below.

    ws.range('A:L').api.ColumnWidth = ws.range('J:J').api.ColumnWidth
    

    That should look better. And we’re done with this sheet!

    Let us add a new blank sheet called Frequencies and let us assign it to the Python name frequencies.

    wb.sheets.add('Frequencies')
    frequencies = wb.sheets['Frequencies']
    

    We will be populating this sheet with the absolute frequencies of each number and each lucky star in the data set we just organized in the sheet EuroMillions.

    # add a header for the numbers
    frequencies.range('A1').value = 'Number'
    # populate the fifty cells immediately below with the numbers 1 through 50
    # since we're starting from the second row, we'll want to substract 1 from the row
    frequencies.range('A2:A51').value = '=ROW()-1'
    

    Below we’ll be inserting a header for the frequencies in cell B1 and in cell B2 we will input a formula that will count how many times the value in A2 occurs in the range C2:G201. In other words, we will count how many times 1 occurred in the columns N1-N5. After this we will autofill the rest of the cells on column B to do the same for their respective rows.

    # add a header for the frequencies
    frequencies.range('B1').value = 'Frequency'
    # insert on B2 the result of a standard Excel formula
    frequencies.range('B2').value = '=COUNTIF(Euromillions!$C$2:$G$201,Frequencies!A2)'
    autofill(frequencies, 'B2', 51)
    

    And we do the same for the lucky stars:

    frequencies.range('D1').value = 'Lucky Star'
    frequencies.range('E1').value = 'Frequency'
    frequencies.range('D2:D13').value = '=ROW()-1'
    frequencies.range('E2').value =
    '=COUNTIF(EuroMillions!$H$2:$I$201,Frequencies!D2)'
    autofill(frequencies, 'E2', 13)
    frequencies.autofit()
    

    Here’s how our new sheet should be looking at this point:

    xlwings-python-excel-6

    We are nearing our goal. Let’s create a sheet called Graphs.

    wb.sheets.add('Graphs')
    graphs = wb.sheets['Graphs']
    

    Now we’ll create a Chart object. This will only produce a blank white box, but don’t worry! We’re going to use that box to chart our data in a moment.

    nr_freq = xw.Chart()
    

    We can name our chart similarly to what we did for sheets. The method set_source_data allows us to define the data source for our chart by passing in a range object.

    nr_freq.name = 'Number Frequencies'
    nr_freq.set_source_data(frequencies.range('Frequencies!B1:B51'))
    

    Excel will try to guess what the x-axis should be, but we can force it to be the numbers we created on Frequencies by using the VBA Chart method FullSeriesCollection. We can edit the chart by using the object at index 1 of nr_freq.api:

    nr_freq.api[1].FullSeriesCollection(1).XValues = '=Frequencies!A2:A51'
    

    Excel is very good at guessing what kind of chart the user wants, but just in case it guesses incorrectly, we will force it to be a column chart. The various types of charts are listed here. Alas, the only documentation bridging these to the possible values of the chart_type attribute is the source code itself.

    nr_freq.chart_type = 'column_clustered'
    

    We will now define the height and the width of the chart. The measure unit will be points.

    nr_freq.height = 250
    nr_freq.width = 750
    

    Here’s what we should be seeing at this point:

    xlwings-chart

    The SetElement method together with the parameter 2 sets the title above the chart. See other arguments here.

    nr_freq.api[1].SetElement(2)  # Place chart title at the top
    nr_freq.api[1].ChartTitle.Text = 'Number Frequencies'
    

    And we add the final touches. We remove the legend using the HasLegend property.

    nr_freq.api[1].HasLegend = 0
    

    The xlCategory category passed in as the argument 1 to the Axes method, together with the property TickLabelSpacing set to 1, ensures that every element of our axis is displayed.

    nr_freq.api[1].Axes(1).TickLabelSpacing = 1
    

    To finish formatting this chart, we remove the outline by setting the property Visible of the Line object to 0.

    graphs.shapes.api('Number Frequencies').Line.Visible = 0
    

    And here’s what we’ll see:

    Below we do nearly the same thing for the lucky stars.

    ls_freq = xw.Chart()
    ls_freq.top = 250
    ls_freq.name = 'Lucky Star Frequencies'
    ls_freq.set_source_data(frequencies.range('Frequencies!E1:E13'))
    ls_freq.api[1].FullSeriesCollection(1).XValues = '=Frequencies!D2:D13'
    ls_freq.chart_type = 'column_clustered'
    ls_freq.height = 250
    ls_freq.width = 750
    ls_freq.api[1].SetElement(2)
    ls_freq.api[1].ChartTitle.Text = 'Lucky Star Frequencies'
    ls_freq.api[1].HasLegend = 0
    ls_freq.api[1].Axes(1).TickLabelSpacing = 1
    graphs.shapes.api('Lucky Star Frequencies').Line.Visible = 0
    

    29.-Lucky-stars-chart

    And to finalize we create a time series graph displaying the evolution of the jackpot.

    jackpot = xw.Chart()
    jackpot.top = 500
    jackpot.name = 'Jackpot'
    last_row = ws.range(1,1).end('down').row
    jackpot.set_source_data(ws.range('Euromillions!J2:J{}'.format(last_row)))
    jackpot.api[1].FullSeriesCollection(1).XValues
    = 'Euromillions!L2:L{}'.format(last_row)
    jackpot.chart_type = 'line'
    jackpot.height = 250
    jackpot.width = 750
    jackpot.api[1].SetElement(2)
    jackpot.api[1].ChartTitle.Text = 'Jackpot'
    jackpot.api[1].HasLegend = 0
    graphs.shapes.api('Jackpot').Line.Visible = 0
    

    And we fix the vertical axis’ labels’ format by setting the TickLabels property NumberFormat to the desired appearance.

    jackpot.api[1].Axes(2).TickLabels.NumberFormat = "£0,,' M'"
    

    30.-Jackpot-chart

    And we’re done! Now we save the file and exit our Excel instance.

    wb.save('EuroMillions.xlsx')
    xw.apps[0].quit()
    

    Hopefully, this xlwings tutorial has been helpful!

    Some useful resources for learning about xlwings are the official documentation, this formatting cheat sheet, the VBA for Excel documentation and the course xlwings: Python for Excel designed by Felix Zumstein himself, the developer of xlwings.

    Python и Excel — мощные инструменты для исследования и анализа данных. Они оба сильны, и тем более вместе. За последние несколько лет были созданы различные библиотеки для интеграции Excel и Python или наоборот. В этой статье мы их опишем, предоставим подробную информацию о том, как их приобрести и установить, и, наконец, краткие инструкции, которые помогут вам начать их использовать. Библиотеки перечислены ниже.

    Параметры интеграции Excel / Python

    1. Openpyxl
    2. Pyxll
    3. Xlrd
    4. Xlwt
    5. Xlutils
    6. Панды
    7. Pywin32
    8. Xlsxwriter

    1. Openpyxl

    Openpyxl — это библиотека с открытым исходным кодом, поддерживающая стандарт OOXML. Стандарты OOXML для расширяемого языка разметки открытого офиса. Openpyxl можно использовать с любой версией Excel, поддерживающей этот стандарт; означает Excel 2010 (2007) по настоящее время (в настоящее время Excel 2016). Я не пробовал и не тестировал Openpyxl с Office 365. Однако альтернативное приложение для работы с электронными таблицами, такое как Office Libre Calc или Open Office Calc, которое поддерживает стандарт OOXML, также может использовать библиотеку для работы с файлами xlsx.

    Openpyxl поддерживает большинство функций Excel или API-интерфейсов, включая чтение и запись в файлы, построение диаграмм, работу со сводными таблицами, синтаксический анализ формул, использование фильтров и сортировок, создание таблиц, стили и некоторые из наиболее часто используемых. Что касается обработки данных, библиотека работает как с большими, так и с маленькими наборами данных, однако вы увидите снижение производительности на очень больших наборах данных. Для работы с очень большими наборами данных вам понадобится API openpyxl.worksheet._read_only.ReadOnlyWorksheet.

    openpyxl.worksheet._read_only.ReadOnlyWorksheet доступен только для чтения

    В зависимости от доступной памяти вашего компьютера вы можете использовать эту функцию для загрузки больших наборов данных в память или в блокнот Anaconda или Jupyter для анализа данных или обработки данных. Вы не можете взаимодействовать с Excel напрямую или в интерактивном режиме.

    Чтобы записать обратно свой очень большой набор данных, вы используете API openpyxl.worksheet._write_only.WriteOnlyWorksheet, чтобы выгрузить данные обратно в Excel.

    Openpyxl можно установить в любой редактор поддержки Python или IDE, например Anaconda или IPython, Jupyter или любой другой, который вы используете в настоящее время. Openpyxl нельзя использовать непосредственно внутри Excel.

    Примечание: для этих примеров я использую Jupyter из пакета Anaconda, который можно загрузить и установить по этому адресу: https://www.anaconda.com/distribution/, или вы можете установить только редактор Jupyter с: https: // jupyter.org /

    Установка

    Для установки из командной строки (команда или PowerShell в Windows или Терминал в OSX):

    Пип установить openpyxl

    Создать книгу

    Чтобы использовать для создания книги и листа Excel:


    from openpyxl import Workbook #create workbook wb = Workbook() #create excel file xl_file = 'tut_openpyxl.xlsx' #get the active worksheet (e.g. sheet1) ws1 = wb.active #add content to the sheet for row in range(1, 40): ws1.append(range(600)) #save the file wb.save(filename = xl_file)

    • В приведенном выше коде мы начинаем с импорта объекта Workbook из библиотеки openpyxl.
    • Затем мы определяем объект книги
    • Затем мы создаем файл Excel для хранения наших данных
    • Из открытой рабочей книги Excel мы получаем дескриптор активного рабочего листа (ws1)
    • После этого добавьте контент, используя цикл «for».
    • И наконец сохраните файл.

    Два следующих снимка экрана показывают выполнение файла tut_openpyxl.py и сохранение.

    Рис 1: Код

    Рис2: Вывод в Excel

    Чтение данных из Excel

    В следующем примере будет продемонстрировано открытие и чтение данных из файла Excel.


    from openpyxl import load_workbook #get handle on existing file wk = load_workbook(filename='countries.xlsx') #get active worksheet or wk ws = wk.active #loop through range values for t in range(1,20): range = 'A'+str(t) print(ws.value)

    • Это базовый пример для чтения из файла Excel.
    • Импортируйте класс load_workbook из библиотеки openpyxl
    • Получите доступ к открытой книге
    • Получите активный рабочий лист или именованный рабочий лист с помощью книги
    • Наконец, прокрутите значения на листе

    Рис 3: Считывание данных

    2. Pyxll

    Пакет pyxll — это коммерческое предложение, которое можно добавить или интегрировать в Excel. Немного похоже на VBA. Пакет pyxll нельзя установить, как другие стандартные пакеты Python, поскольку pyxll является надстройкой Excel. Pyxll поддерживает версии Excel с 97-2003 по настоящее время.

    Установка

    Инструкция по установке находится здесь:

    Применение

    Веб-сайт pyxll содержит несколько примеров использования pyxll в Excel. Они используют декораторы и функции для взаимодействия с рабочим листом, меню и другими объектами в книге.

    3. Xlrd

    Еще одна библиотека — xlrd и ее спутник xlwt ниже. Xlrd используется для чтения данных из книги Excel. Xlrd был разработан для работы со старыми версиями Excel с расширением «xls».

    Установка

    Установка библиотеки xlrd выполняется с помощью pip как:


    pip install xlrd


    Import xlrd xlrd.open_workbook(excelFilePath) sheetNames = xlWorkbook.sheet_names() xlSheet = xlWorkbook.sheet_by_name(sheetNames) # Or grab the first sheet by index xlSheet = xlWorkbook.sheet_by_index(0) # Get the first row of data row = xlSheet.row(0) #to enumerate through all columns and rows #get the number of rows in the sheet numColumns = xlSheet.ncols for rowIdx in range(0, xlSheet.nrows): # Iterate through rows print ('Row: %s' % rowIdx) # Print the row number for colIdx in range(0, numColumns): # Iterate through the columns cell = xlSheet.cell(rowIdx, colIdx) # Get cell object by row, col print ('Column: cell: ' % (colIdx, cell))

    Применение

    Чтобы открыть книгу для чтения данных с листа, выполните следующие простые шаги, как показано в фрагменте кода ниже. Параметр excelFilePath — это путь к файлу Excel. Значение пути должно быть указано в двойных кавычках.

    Этот краткий пример охватывает только основной принцип открытия книги и чтения данных. Полную документацию можно найти здесь:

    Конечно, xlrd, как следует из названия, может считывать данные только из книги Excel. Библиотека не предоставляет API для записи в файл Excel. К счастью, у xlrd есть партнер по имени xlwt, который станет следующей библиотекой, которую следует обсудить.

    4. XLWT

    Xlwt разработан для работы с файлами Excel версий с 95 по 2003, которые были двоичным форматом до формата OOXML (Open Office XML), представленного в Excel 2007. Библиотека xlwt работает совместно с библиотекой xlrd dscus, описанной выше.

    Установка

    Процесс установки прост и понятен. Как и большинство других библиотек Python, вы можете установить с помощью утилиты pip следующим образом:


    pip install xlwt

    Применение

    Следующий фрагмент кода, адаптированный с сайта Read the Docs на xlwt, предоставляет базовые инструкции по записи данных на лист Excel, добавлению стиля и использованию формулы. За синтаксисом легко следить.


    import xlwt from datetime import datetime style0 = xlwt.easyxf('font: name Times New Roman, color-index red, bold on', num_format_str='#,##0.00') style1 = xlwt.easyxf(num_format_str='D-MMM-YY') wb = xlwt.Workbook() ws = wb.add_sheet('Hello world') ws.write(0, 0, 999.99, style0) ws.write(1, 0, datetime.now(), style1) ws.write(2, 0, 1) ws.write(2, 1, 1) ws.write(2, 2, xlwt.Formula("A3+B3")) wb.save(HW.xls')

    Функция записи write ( r , c , label = » , style =
    ), предоставляет основные возможности для записи содержимого в электронную таблицу Excel, при этом формулы являются альтернативным методом. Параметры «r» и «c» относятся к строке и столбцу соответственно.

    Полная документация по использованию этого пакета Python находится здесь: https://xlwt.readthedocs.io/en/latest/. Как я уже упоминал в первом абзаце, xlwt и xlrd в этом отношении предназначены для форматов xls Excel (95-2003). Для Excel OOXML следует использовать другие библиотеки, обсуждаемые в этой статье.

    5. Кслутилы

    Python xlutils является продолжением xlrd и xlwt. Пакет предоставляет более обширный набор API для работы с файлами Excel на основе xls. Документацию по пакету можно найти здесь: https://pypi.org/project/xlutils/. Чтобы использовать пакет, вам также необходимо установить пакеты xlrd и xlwt.

    Установка

    Пакет xlutils устанавливается с помощью pip:


    pip install xlutils

    6. Панды

    Pandas — очень мощная библиотека Python, используемая для анализа, обработки и исследования данных. Это один из столпов инженерии данных и науки о данных. Одним из основных инструментов или API в Pandas является DataFrame, представляющий собой таблицу данных в памяти. Pandas может выводить содержимое DataFrame в Excel, используя openpyxl или xlsxwriter для файлов OOXML и xlwt (см. Выше) для форматов файлов xls в качестве механизма записи. Эти пакеты необходимо установить для работы с Pandas. Вам не нужно импортировать их в свой скрипт Python, чтобы использовать их.

    Установка

    Чтобы установить pandas, выполните эту команду из окна интерфейса командной строки или терминала, если вы используете OSX:


    pip install xlsxwriterp pip install pandas

    Применение


    import pandas as pd # Create a Pandas dataframe from the data. df = pd.DataFrame({'Data': }) # Create a Pandas Excel writer using XlsxWriter as the engine or openpyxl and xlwt for older versions of Excel. writer = pd.ExcelWriter('pandas xl test.xlsx', engine='xlsxwriter') # Convert the dataframe to an XlsxWriter Excel object. df.to_excel(writer, sheet_name='Test') # Close the Pandas Excel writer and output the Excel file. writer.save()

    Вот снимок экрана сценария, выполнения VS Code и созданного в результате файла Excel.

    Рис 4: Скрипт Pandas в VS Code

    Рис 5: Вывод Pandas в Excel

    7. Xlsxwriter

    Пакет xlsxwriter поддерживает формат OOXML Excel, то есть начиная с 2007 года. Это полный пакет функций, включающий форматирование, манипуляции с ячейками, формулы, сводные таблицы, диаграммы, фильтры, проверку данных и раскрывающийся список, оптимизацию памяти и изображения в качестве дополнительных функций.

    Как упоминалось ранее, он также интегрирован с Pandas, что делает его опасной комбинацией.

    Полная документация находится на их сайте здесь:

    Установка


    pip install xlsxwriter

    Применение


    import xlsxwriter # create a Excel file xlWb = xlsxwriter.Workbook('simpleXl.xlsx') xlWks = xlWb.add_worksheet() # add some data groceries = (,,,,) row = 0 col = 0 # add groceries data to sheet for item, cost in (groceries): xlWks.write(row, col, item) xlWks.write(row, col + 1, cost) row += 1 # Write a total using a formula. xlWks.write(row, 0, 'Total') xlWks.write(row, 1, '=SUM(B1:B4)') xlWb.close() xlWb.close()

    Следующий сценарий начинается с импорта пакета xlsxwriter из репозитория PYPI с помощью pip. Затем определите и создайте книгу и файл Excel. Затем мы определяем объект рабочего листа, xlWks, и добавляем его в рабочую книгу.

    Для примера я определяю объект словаря, но это может быть что угодно, например список, фрейм данных Pandas, данные, импортированные из некоторого внешнего источника. Я добавляю данные в рабочий лист с помощью взаимодействия и добавляю простую формулу СУММ перед сохранением и закрытием файла.

    Следующий снимок экрана — результат в Excel.

    Рис 6: XLSXWriter в Excel

    8. Pywin32

    Этот последний пакет Python не предназначен специально для Excel. Скорее, это оболочка Python для Windows API, которая обеспечивает доступ к COM (Common Object Model). COM — это общий интерфейс для всех приложений Windows, включая Microsoft Office, включая Excel.

    Документация по пакету pywin32 находится здесь: https://github.com/mhammond/pywin32, а также здесь:

    Установка


    pip install pywin32

    Применение

    Это простой пример использования COM для автоматизации создания файла Excel, добавления рабочего листа и некоторых данных, а также добавления формулы и сохранения файла.


    import win32com.client as win32 excel = win32.gencache.EnsureDispatch('Excel.Application') wb = excel.Workbooks.Add() wks = wb.Sheets.Add() wks.Name = "test" groceries = (,,,,) row=1 col=1 for item, cost in (groceries): wks.Cells(row,col).Value = item wks.Cells(row,col+1).Value = cost row += 1 wks.Cells(row, 1).Value = "Total" wks.Cells(row, 2).Value = '=SUM(B1:B4)' wb.SaveAs('C:\Users\kevin\dev\pyInExcel\simplewin32.xlsx') excel.Application.Quit()

    Рис 7: Вывод Pywin32 в Excel

    Заключение

    Вот и все: восемь разных пакетов Python для взаимодействия с Excel.

    © 2020 Кевин Лангедок

    Last Updated on July 14, 2022 by

    In this tutorial, I will show you how to automate Excel with Python xlwings library. Excel is an awesome software with a simple and intuitive user interface, and Python is a powerful programming language that is very efficient at data analysis. xlwings is the glue that allows us to have the best of both worlds.

    The author of xlwings says the library “Make Excel Fly!”, and I couldn’t agree more. You can use xlwings + Python for the following tasks:

    1. Automate Excel with Python, such as producing reports
    2. Write macros in Python, and run from Excel by clicking on a button
    3. Write user-defined functions in Python, and call those function from Excel just like any Excel function

    Sounds exciting? Let’s get started!

    Part 1. Installing xlwings

    There are two parts to install xlwings: Python library and Excel add-in. Let’s start with getting the Python library first:

    pip install xlwings

    Then download the Excel add-in from xlwings’ official Github repository. It’s the xlwings.xlam file on the page, and feel free to grab the latest version. The link here is to v0.18.0.

    Put the xlwings.xlam file into your Excel add-in folder, which is:

    C:UsersxxxxAppDataRoamingMicrosoftAddIns

    The xxxx is your own user name on your computer.

    Then, open Excel, File -> Options -> Add-ins. Click on the “Go” button besides Manage: Excel Add-ins.

    Excel Options Add-ins

    When the Add-ins window pops up, click on “Browse”.

    Browse addin

    This will take you directly to the Addins folder, simply select the xlwings.xlam file from the folder, and hit “OK”. xlwings addin is now added to your Excel, this add-in will be automatically enabled whenever you launch the Excel app.

    xlwings add-in enabled

    Now, the xlwings tab should appear on your Excel ribbon.

    xlwings-tab

    xlwings tab

    The set up is done at this point, and now let’s have fun with automating Excel with Python!

    Part 2. Automating Excel

    Run the following Python script, which will open a new Excel instance.

    import xlwings as xw
    wb = xw.Book()

    Write data to Excel

    Here, wb refers to the new (and open) Excel file, and it’s also a Python object at the same time, which means we can manipulate it (the Excel file) in Python! Try the following code, which will allow you to input values from Python into Excel.

    sheet = wb.sheets['Sheet1']
    sheet.range('A1').value = "Hello Excel from Python"

    Hello Excel!

    We can also use the .range((x,y)) notation to refer to individual cells in Excel. x refers to row, and y refers to column. So .range((3, 2)) means cell B3.

    sheet.range((3,2)).value = 'x-axis'
    sheet.range((3,3)).value = 'y-axis'
    for i in range(5):
        sheet.range((i+4, 2)).value = i

    It’s also possible to write formulas in Excel using Python. Basically we are writing a string into the cell. Here, we want to calculate the exponential values of the x-axis in another column. In the below code, we are using an “f-string”, which is an improved string formatting syntax starting from Python 3.6.

    for i in range(5):
        sheet.range((i+4,3)).value = f'=exp(B{i+4})'

    Reading data from Excel

    Reading data from Excel is as easy, the following code reads Excel data into Python as a list.

    data = sheet.range('B3:C8').value

    Read Excel data into Python as a list

    Check out the following short code if you want to read Excel data into Python as a pandas Dataframe. .expand() automatically detects the dimension of the data, and .options() specifies that we want a pandas Dataframe. We reset the index at the end so the x-axis will be treated as a column instead of a dataframe index.

    import pandas as pd
    df = xw.Range('B3').expand().options(pd.DataFrame).value
    df.reset_index(inplace=True)

    Read Excel data into Python as a dataframe

    Now we have a table, what are we missing?… Yes, a graph! Since the data is already read into Python, we can generate a graph then put it into Excel file. For plotting the graph, we’ll use the matplotlib library.

    import matplotlib.pyplot as plt
    fig = plt.figure()
    plt.plot(df['x-axis'],df['y-axis'])
    plt.xlabel('x-axis')
    plt.ylabel('y-axis')
    sheet.pictures.add(fig, name='MyPlot', update=True)   #add the graph back into Excel

    Plot a graph into Excel

    Finally, as we do for every Excel spreadsheet, we gotta save our work and close the file! wb refers to the workbook here.

    wb.save('automate_excel_with_python.xlsx')
    wb.close()

    Part 3. Write a macro in Python and run in Excel

    Let me just clarify, the “macro” isn’t referring to the VBA Excel macros. These are Python programs, which can be executed from Excel. However, it requires a tiny bit of VBA to allow Excel to call a Python function.

    Python Script

    Let’s first write a simple Python function to generate 10 random numbers, and then place them in an Excel sheet cell A1. Note the xw.Book.caller() refers to the current workbook. Save the following script as “rand_10.py”.

    import numpy as np
    import xlwings as xw
    
    def generate():
        wb = xw.Book.caller()
        wb.sheets[0].range('A1').value = np.random.rand(10)

    Excel VBA & linking to the Python script

    Once we have the Python script, open up the VBA Editor, you can do this by pressing Alt + F11 inside the Excel app.

    In the VBA editor, go to Tools -> Reference, and check the “xlwings” checkbox. OK and save.

    vba-tools-references

    Enable xlwings in VBA Editor

    Next, in the VBAProject window, right click on your Excel file, and insert a module. In the new module window appears on the right-hand side, you can type the following VBA code.

    Excel VBA add module
    Sub Rand_10()
        RunPython ("import rand_10; rand_10.generate()")
    End Sub

    Some notes here: rand_10 is the Python script file name. i.e. we just saved the script as “rand_10.py”. The VBA code RunPython("import rand_10; rand_10.generate()") basically says: import the Python script called “rand_10”, then run the function generate() using Python.

    Next, save the VBA code, and now we want to create a button in Excel sheet. Going back into Excel, under the “Developer” tab. Insert -> Button. If you don’t have the Developer tab. Right click on your Excel ribbon, and “Customize the Ribbon”. Check the Developer checkbox, and then OK to save the change.

    Excel enable developer tab

    Once you have a button, right click on it, then Assign Macro to assign the button to the VBA macro named Rand_10(). Click on the button, and 10 random numbers will be populated from cells A1 to J1.

    Random numbers generated by Python

    Part 3. Write a user-defined function in Python and call it within Excel

    Advanced Excel users know that we can create user-defined functions in VBA. This feature is great, as not all built-in Excel functions fit our needs. However, VBA is 1) hard to use/learn, and 2) has very limited functionality. With xlwings, we can create our own user-defined functions in Python. All we need is a Python script, and a little bit setup in Excel to achieve this.

    Python script

    Let’s write a simple Python function that calculates the square of a number.

    import xlwings as xw
    
    @xw.func
    def square(x):
        return x ** 2

    Two things to note here:

    • @xw.func is a decorator. It must be added right before the def to let xlwings know this is a user-defined function.
    • The function must return something so the returned value can be passed into Excel.

    Excel setup

    The default settings expect that the Python code and the Excel file to be:

    • in the same directory
    • with the same name, but Python file ends with .py and the Excel file ends with .xlsm (or .xlsb)

    To illustrate, I’m going to name my files as “square.py” and “square.xlsb”. Open up square.xlsb in Excel, go to the xlwings tab, then click on Import Functions.

    xlwings-tab

    xlwings tab

    In some cases, you might get an “Automation error 440” pop up. automation-error-404

    We can fix this by taking the below steps:

    1. In Excel, click on File -> Options -> Trust Center -> Trust Center Settings… -> Macro Settings. Check “Trust access to the VBA project object model” box, and enable macros. OK to save changes.excel-macro-settings
    2. Go to VBA editor (press Alt + F11). Tools -> References, then check “xlwings” box. OK to save change.vba-tools-references

    Once you complete the above 2 steps, go back to Excel the xlwings tab, click on the Import Functions again. After a brief pause, if no error message pops up, it means the Python function was imported successfully, and we can start using the Python function sqaure() inside Excel sheets. Let’s now test it!

    You can type =square(A1) inside any cell, and notice that as you type out the function, square actually shows up in the function list! That’s a neat feature. Yep, you saw that – we can use this Python function just like an Excel function, and we can pass cell references into the function. Make no mistake here – it appears we are using an Excel function, but under the hood, Python is doing all the calculation, then only the result is displayed to the user via Excel. This means that, we can create really complex functions thanks to Python’s power. For example, a dynamic function that extract financial data from a website and display data in Excel.

    Excel function list

    Debugging

    Two common errors you might experience as a beginner are:

    1. Automation error 404. We talked about how to fix this error, make sure the Excel Macro setting is correct.
    2. When you type the user defined function, “Object Require” shows up in the cell. Make sure xlwings is checked in VBA Editor -> Tools -> References, and the change is saved for the appropriate Excel file. Sometimes, when we have multiple Excel sheets open, we might end up applying this change to another file unintentionally.

    Узнайте, как читать и импортировать файлы Excel в Python, как записывать данные в эти таблицы и какие библиотеки лучше всего подходят для этого.

    Известный вам инструмент для организации, анализа и хранения ваших данных в таблицах — Excel — применяется и в data science. В какой-то момент вам придется иметь дело с этими таблицами, но работать именно с ними вы будете не всегда. Вот почему разработчики Python реализовали способы чтения, записи и управления не только этими файлами, но и многими другими типами файлов.

    Из этого учебника узнаете, как можете работать с Excel и Python. Внутри найдете обзор библиотек, которые вы можете использовать для загрузки и записи этих таблиц в файлы с помощью Python. Вы узнаете, как работать с такими библиотеками, как pandas, openpyxl, xlrd, xlutils и pyexcel.

    Данные как ваша отправная точка

    Когда вы начинаете проект по data science, вам придется работать с данными, которые вы собрали по всему интернету, и с наборами данных, которые вы загрузили из других мест — Kaggle, Quandl и тд

    Но чаще всего вы также найдете данные в Google или в репозиториях, которые используются другими пользователями. Эти данные могут быть в файле Excel или сохранены в файл с расширением .csv … Возможности могут иногда казаться бесконечными, но когда у вас есть данные, в первую очередь вы должны убедиться, что они качественные.

    В случае с электронной таблицей вы можете не только проверить, могут ли эти данные ответить на вопрос исследования, который вы имеете в виду, но также и можете ли вы доверять данным, которые хранятся в электронной таблице.

    Проверяем качество таблицы

    • Представляет ли электронная таблица статические данные?
    • Смешивает ли она данные, расчеты и отчетность?
    • Являются ли данные в вашей электронной таблице полными и последовательными?
    • Имеет ли ваша таблица систематизированную структуру рабочего листа?
    • Проверяли ли вы действительные формулы в электронной таблице?

    Этот список вопросов поможет убедиться, что ваша таблица не грешит против лучших практик, принятых в отрасли. Конечно, этот список не исчерпывающий, но позволит провести базовую проверку таблицы.

    Лучшие практики для данных электронных таблиц

    Прежде чем приступить к чтению вашей электронной таблицы на Python, вы также должны подумать о том, чтобы настроить свой файл в соответствии с некоторыми основными принципами, такими как:

    • Первая строка таблицы обычно зарезервирована для заголовка, а первый столбец используется для идентификации единицы выборки;
    • Избегайте имен, значений или полей с пробелами. В противном случае каждое слово будет интерпретироваться как отдельная переменная, что приведет к ошибкам, связанным с количеством элементов на строку в вашем наборе данных. По возможности, используйте:
    • подчеркивания,
    • тире,
    • горбатый регистр, где первая буква каждого слова пишется с большой буквы
    • объединяющие слова
    • Короткие имена предпочтительнее длинных имен;
    • старайтесь не использовать имена, которые содержат символы ?, $,%, ^, &, *, (,), -, #,? ,,, <,>, /, |, , [,], {, и };
    • Удалите все комментарии, которые вы сделали в вашем файле, чтобы избежать добавления в ваш файл лишних столбцов или NA;
    • Убедитесь, что все пропущенные значения в вашем наборе данных обозначены как NA.

    Затем, после того, как вы внесли необходимые изменения или тщательно изучили свои данные, убедитесь, что вы сохранили внесенные изменения. Сделав это, вы можете вернуться к данным позже, чтобы отредактировать их, добавить дополнительные данные или изменить их, сохранив формулы, которые вы, возможно, использовали для расчета данных и т.д.

    Если вы работаете с Microsoft Excel, вы можете сохранить файл в разных форматах: помимо расширения по умолчанию .xls или .xlsx, вы можете перейти на вкладку «Файл», нажать «Сохранить как» и выбрать одно из расширений, которые указаны в качестве параметров «Сохранить как тип». Наиболее часто используемые расширения для сохранения наборов данных в data science — это .csv и .txt (в виде текстового файла с разделителями табуляции). В зависимости от выбранного варианта сохранения поля вашего набора данных разделяются вкладками или запятыми, которые образуют символы-разделители полей вашего набора данных.

    Теперь, когда вы проверили и сохранили ваши данные, вы можете начать с подготовки вашего рабочего окружения.

    Готовим рабочее окружение

    Как убедиться, что вы все делаете хорошо? Проверить рабочее окружение!

    Когда вы работаете в терминале, вы можете сначала перейти в каталог, в котором находится ваш файл, а затем запустить Python. Убедитесь, что файл лежит именно в том каталоге, к которому вы обратились.

    Возможно, вы уже начали сеанс Python и у вас нет подсказок о каталоге, в котором вы работаете. Тогда можно выполнить следующие команды:

    # Import `os` 
    import os
    
    # Retrieve current working directory (`cwd`)
    cwd = os.getcwd()
    cwd
    
    # Change directory 
    os.chdir("/path/to/your/folder")
    
    # List all files and directories in current directory
    os.listdir('.')

    Круто, да?

    Вы увидите, что эти команды очень важны не только для загрузки ваших данных, но и для дальнейшего анализа. А пока давайте продолжим: вы прошли все проверки, вы сохранили свои данные и подготовили рабочее окружение.

    Можете ли вы начать с чтения данных в Python?

    Установите библиотеки для чтения и записи файлов Excel

    Даже если вы еще не знаете, какие библиотеки вам понадобятся для импорта ваших данных, вы должны убедиться, что у вас есть все, что нужно для установки этих библиотек, когда придет время.

    Подготовка к дополнительной рабочей области: pip

    Вот почему вам нужно установить pip и setuptools. Если у вас установлен Python2 ⩾ 2.7.9 или Python3  ⩾ 3.4, то можно не беспокоиться — просто убедитесь, что вы обновились до последней версии.

    Для этого выполните следующую команду в своем терминале:

    # Для Linux/OS X
    pip install -U pip setuptools
    
    # Для Windows
    python -m pip install -U pip setuptools

    Если вы еще не установили pip, запустите скрипт python get-pip.py, который вы можете найти здесь. Следуйте инструкциям по установке.

    Установка Anaconda

    Другой вариант для работы в data science — установить дистрибутив Anaconda Python. Сделав это, вы получите простой и быстрый способ начать заниматься data science, потому что вам не нужно беспокоиться об установке отдельных библиотек, необходимых для работы.

    Это особенно удобно, если вы новичок, но даже для более опытных разработчиков это способ быстро протестировать некоторые вещи без необходимости устанавливать каждую библиотеку отдельно.

    Anaconda включает в себя 100 самых популярных библиотек Python, R и Scala для науки о данных и несколько сред разработки с открытым исходным кодом, таких как Jupyter и Spyder.

    Установить Anaconda можно здесь. Следуйте инструкциям по установке, и вы готовы начать!

    Загрузить файлы Excel в виде фреймов Pandas

    Все, среда настроена, вы готовы начать импорт ваших файлов.

    Один из способов, который вы часто используете для импорта ваших файлов для обработки данных, — с помощью библиотеки Pandas. Она основана на NumPy и предоставляет простые в использовании структуры данных и инструменты анализа данных Python.

    Эта мощная и гибкая библиотека очень часто используется дата-инженерами для передачи своих данных в структуры данных, очень выразительных для их анализа.

    Если у вас уже есть Pandas, доступные через Anaconda, вы можете просто загрузить свои файлы в Pandas DataFrames с помощью pd.Excelfile():

    # импорт библиотеки pandas
    import pandas as pd
    
    # Загружаем ваш файл в переменную `file` / вместо 'example' укажите название свого файла из текущей директории
    file = 'example.xlsx'
    
    # Загружаем spreadsheet в объект pandas
    xl = pd.ExcelFile(file)
    
    # Печатаем название листов в данном файле
    print(xl.sheet_names)
    
    # Загрузить лист в DataFrame по его имени: df1
    df1 = xl.parse('Sheet1')

    Если вы не установили Anaconda, просто выполните pip install pandas, чтобы установить библиотеку Pandas в вашей среде, а затем выполните команды, которые включены в фрагмент кода выше.

    Проще простого, да?

    Для чтения в файлах .csv у вас есть аналогичная функция для загрузки данных в DataFrame: read_csv(). Вот пример того, как вы можете использовать эту функцию:

    # Импорт библиотеки pandas
    import pandas as pd
    
    # Загрузить csv файл
    df = pd.read_csv("example.csv") 

    Разделитель, который будет учитывать эта функция, по умолчанию является запятой, но вы можете указать альтернативный разделитель, если хотите. Перейдите к документации, чтобы узнать, какие другие аргументы вы можете указать для успешного импорта!

    Обратите внимание, что есть также функции read_table() и read_fwf() для чтения файлов и таблиц с фиксированной шириной в формате DataFrames с общим разделителем. Для первой функции разделителем по умолчанию является вкладка, но вы можете снова переопределить это, а также указать альтернативный символ-разделитель. Более того, есть и другие функции, которые вы можете использовать для получения данных в DataFrames: вы можете найти их здесь.

    Как записать Pandas DataFrames в файлы Excel

    Допустим, что после анализа данных вы хотите записать данные обратно в новый файл. Есть также способ записать ваши Pandas DataFrames обратно в файлы с помощью функции to_excel().

    Но, прежде чем использовать эту функцию, убедитесь, что у вас установлен XlsxWriter, если вы хотите записать свои данные в несколько листов в файле .xlsx:

    # Установим `XlsxWriter` 
    pip install XlsxWriter
    
    # Указать writer библиотеки
    writer = pd.ExcelWriter('example.xlsx', engine='xlsxwriter')
    
    # Записать ваш DataFrame в файл     
    yourData.to_excel(writer, 'Sheet1')
    
    # Сохраним результат 
    writer.save()

    Обратите внимание, что в приведенном выше фрагменте кода вы используете объект ExcelWriter для вывода DataFrame.

    Иными словами, вы передаете переменную Writer в функцию to_excel() и также указываете имя листа. Таким образом, вы добавляете лист с данными в существующую рабочую книгу: вы можете использовать ExcelWriter для сохранения нескольких (немного) разных DataFrames в одной рабочей книге.

    Все это означает, что если вы просто хотите сохранить один DataFrame в файл, вы также можете обойтись без установки пакета XlsxWriter. Затем вы просто не указываете аргумент движка, который вы передаете в функцию pd.ExcelWriter(). Остальные шаги остаются прежними.

    Аналогично функциям, которые вы использовали для чтения в файлах .csv, у вас также есть функция to_csv() для записи результатов обратно в файл, разделенный запятыми. Он снова работает так же, как когда вы использовали его для чтения в файле:

    # Запишите DataFrame в csv
    df.to_csv("example.csv")

    Если вы хотите иметь файл, разделенный табуляцией, вы также можете передать t аргументу sep. Обратите внимание, что есть другие функции, которые вы можете использовать для вывода ваших файлов. Вы можете найти их все здесь.

    Пакеты для разбора файлов Excel и обратной записи с помощью Python

    Помимо библиотеки Pandas, который вы будете использовать очень часто для загрузки своих данных, вы также можете использовать другие библиотеки для получения ваших данных в Python. Наш обзор основан на этой странице со списком доступных библиотек, которые вы можете использовать для работы с файлами Excel в Python.

    Далее вы увидите, как использовать эти библиотеки с помощью некоторых реальных, но упрощенных примеров.

    Использование виртуальных сред

    Общий совет для установки — делать это в Python virtualenv без системных пакетов. Вы можете использовать virtualenv для создания изолированных сред Python: он создает папку, содержащую все необходимые исполняемые файлы для использования пакетов, которые потребуются проекту Python.

    Чтобы начать работать с virtualenv, вам сначала нужно установить его. Затем перейдите в каталог, в который вы хотите поместить свой проект. Создайте virtualenv в этой папке и загрузите в определенную версию Python, если вам это нужно. Затем вы активируете виртуальную среду. После этого вы можете начать загрузку в другие библиотеки, начать работать с ними и т. д.

    Совет: не забудьте деактивировать среду, когда закончите!

    # Install virtualenv
    $ pip install virtualenv
    
    # Go to the folder of your project
    $ cd my_folder
    
    # Create a virtual environment `venv`
    $ virtualenv venv
    
    # Indicate the Python interpreter to use for `venv`
    $ virtualenv -p /usr/bin/python2.7 venv
    
    # Activate `venv`
    $ source venv/bin/activate
    
    # Deactivate `venv`
    $ deactivate

    Обратите внимание, что виртуальная среда может показаться немного проблемной на первый взгляд, когда вы только начинаете работать с данными с Python. И, особенно если у вас есть только один проект, вы можете не понять, зачем вам вообще нужна виртуальная среда.

    С ней будет гораздо легче, когда у вас одновременно запущено несколько проектов, и вы не хотите, чтобы они использовали одну и ту же установку Python. Или когда ваши проекты имеют противоречащие друг другу требования, виртуальная среда пригодится!

    Теперь вы можете, наконец, начать установку и импорт библиотек, о которых вы читали, и загрузить их в таблицу.

    Как читать и записывать файлы Excel с openpyxl

    Этот пакет обычно рекомендуется, если вы хотите читать и записывать файлы .xlsx, xlsm, xltx и xltm.

    Установите openpyxl с помощью pip: вы видели, как это сделать в предыдущем разделе.

    Общий совет для установки этой библиотеки — делать это в виртуальной среде Python без системных библиотек. Вы можете использовать виртуальную среду для создания изолированных сред Python: она создает папку, которая содержит все необходимые исполняемые файлы для использования библиотек, которые потребуются проекту Python.

    Перейдите в каталог, в котором находится ваш проект, и повторно активируйте виртуальную среду venv. Затем продолжите установку openpyxl с pip, чтобы убедиться, что вы можете читать и записывать файлы с ним:

    # Активируйте virtualenv
    $ source activate venv
    
    # Установим `openpyxl` в `venv`
    $ pip install openpyxl

    Теперь, когда вы установили openpyxl, вы можете загружать данные. Но что это за данные?

    Доспутим Excel с данными, которые вы пытаетесь загрузить в Python, содержит следующие листы:

    Функция load_workbook() принимает имя файла в качестве аргумента и возвращает объект рабочей книги, который представляет файл. Вы можете проверить это, запустив type (wb). Убедитесь, что вы находитесь в том каталоге, где находится ваша таблица, иначе вы получите error при импорте.

    # Import `load_workbook` module from `openpyxl`
    from openpyxl import load_workbook
    
    # Load in the workbook
    wb = load_workbook('./test.xlsx')
    
    # Get sheet names
    print(wb.get_sheet_names())

    Помните, что вы можете изменить рабочий каталог с помощью os.chdir().

    Вы видите, что фрагмент кода выше возвращает имена листов книги, загруженной в Python.Можете использовать эту информацию, чтобы также получить отдельные листы рабочей книги.

    Вы также можете проверить, какой лист в настоящее время активен с wb.active. Как видно из кода ниже, вы можете использовать его для загрузки другого листа из вашей книги:

    # Get a sheet by name 
    sheet = wb.get_sheet_by_name('Sheet3')
    
    # Print the sheet title 
    sheet.title
    
    # Get currently active sheet
    anotherSheet = wb.active
    
    # Check `anotherSheet` 
    anotherSheet

    На первый взгляд, с этими объектами рабочего листа вы не сможете многое сделать.. Однако вы можете извлечь значения из определенных ячеек на листе вашей книги, используя квадратные скобки [], в которые вы передаете точную ячейку, из которой вы хотите получить значение.

    Обратите внимание, что это похоже на выбор, получение и индексирование массивов NumPy и Pandas DataFrames, но это не все, что вам нужно сделать, чтобы получить значение. Вам нужно добавить атрибут value:

    # Retrieve the value of a certain cell
    sheet['A1'].value
    
    # Select element 'B2' of your sheet 
    c = sheet['B2']
    
    # Retrieve the row number of your element
    c.row
    
    # Retrieve the column letter of your element
    c.column
    
    # Retrieve the coordinates of the cell 
    c.coordinate

    Как вы можете видеть, помимо значения, есть и другие атрибуты, которые вы можете использовать для проверки вашей ячейки, а именно: row, column и coordinate.

    Атрибут row вернет 2;

    Добавление атрибута column к c даст вам ‘B’

    coordinate вернет ‘B2’.

    Вы также можете получить значения ячеек с помощью функции cell(). Передайте row и column, добавьте к этим аргументам значения, соответствующие значениям ячейки, которую вы хотите получить, и, конечно же, не забудьте добавить атрибут value:

    # Retrieve cell value 
    sheet.cell(row=1, column=2).value
    
    # Print out values in column 2 
    for i in range(1, 4):
         print(i, sheet.cell(row=i, column=2).value)

    Обратите внимание, что если вы не укажете атрибут value, вы получите <Cell Sheet3.B1>, который ничего не говорит о значении, которое содержится в этой конкретной ячейке.

    Вы видите, что вы используете цикл for с помощью функции range(), чтобы помочь вам распечатать значения строк, имеющих значения в столбце 2. Если эти конкретные ячейки пусты, вы просто вернете None. Если вы хотите узнать больше о циклах for, пройдите наш курс Intermediate Python для Data Science.

    Есть специальные функции, которые вы можете вызывать для получения некоторых других значений, например, get_column_letter() и column_index_from_string.

    Две функции указывают примерно то, что вы можете получить, используя их, но лучше сделать их четче: хотя вы можете извлечь букву столбца с предшествующего, вы можете сделать обратное или получить адрес столбца, когда вы задаёте букву последнему. Вы можете увидеть, как это работает ниже:

    # Импорт необходимых модулей из  `openpyxl.utils`
    from openpyxl.utils import get_column_letter, column_index_from_string
    
    # Вывод 'A'
    get_column_letter(1)
    
    # Return '1'
    column_index_from_string('A')

    Вы уже получили значения для строк, которые имеют значения в определенном столбце, но что вам нужно сделать, если вы хотите распечатать строки вашего файла, не сосредотачиваясь только на одном столбце? Использовать другой цикл, конечно!

    Например, вы говорите, что хотите сфокусироваться на области между «А1» и «С3», где первая указывает на левый верхний угол, а вторая — на правый нижний угол области, на которой вы хотите сфокусироваться. ,

    Эта область будет так называемым cellObj, который вы видите в первой строке кода ниже. Затем вы говорите, что для каждой ячейки, которая находится в этой области, вы печатаете координату и значение, которое содержится в этой ячейке. После конца каждой строки вы печатаете сообщение, которое указывает, что строка этой области cellObj напечатана.

    # Напечатать строчку за строчкой
    for cellObj in sheet['A1':'C3']:
          for cell in cellObj:
                  print(cells.coordinate, cells.value)
          print('--- END ---')

    Еще раз обратите внимание, что выбор области очень похож на выбор, получение и индексирование списка и элементов массива NumPy, где вы также используете [] и : для указания области, значения которой вы хотите получить. Кроме того, вышеприведенный цикл также хорошо использует атрибуты ячейки!

    Чтобы сделать вышеприведенное объяснение и код наглядным, вы можете проверить результат, который вы получите после завершения цикла:

    ('A1', u'M')
    ('B1', u'N')
    ('C1', u'O')
    --- END ---
    ('A2', 10L)
    ('B2', 11L)
    ('C2', 12L)
    --- END ---
    ('A3', 14L)
    ('B3', 15L)
    ('C3', 16L)
    --- END ---

    Наконец, есть некоторые атрибуты, которые вы можете использовать для проверки результата вашего импорта, а именно max_row и max_column. Эти атрибуты, конечно, и так  — общие способы проверки правильности загрузки данных, но они все равно полезны.

    # Вывести максимальное количество строк 
    sheet.max_row
    
    # Вывести максимальное количество колонок 
    sheet.max_column

    Наверное, вы думаете, что такой способ работы с этими файлами сложноват, особенно если вы еще хотите манипулировать данными.

    Должно быть что-то попроще, верно? Так и есть!

    openpyxl поддерживает Pandas DataFrames! Вы можете использовать функцию DataFrame() из библиотеки Pandas, чтобы поместить значения листа в DataFrame:

    # Import `pandas` 
    import pandas as pd
    
    # конвертировать Лист в DataFrame
    df = pd.DataFrame(sheet.values)

    Если вы хотите указать заголовки и индексы, вам нужно добавить немного больше кода:

    # Put the sheet values in `data`
    data = sheet.values
    
    # Indicate the columns in the sheet values
    cols = next(data)[1:]
    
    # Convert your data to a list
    data = list(data)
    
    # Read in the data at index 0 for the indices
    idx = [r[0] for r in data]
    
    # Slice the data at index 1 
    data = (islice(r, 1, None) for r in data)
    
    # Make your DataFrame
    df = pd.DataFrame(data, index=idx, columns=cols)

    Затем вы можете начать манипулировать данными со всеми функциями, которые предлагает библиотека Pandas. Но помните, что вы находитесь в виртуальной среде, поэтому, если библиотека еще не представлена, вам нужно будет установить ее снова через pip.

    Чтобы записать ваши Pandas DataFrames обратно в файл Excel, вы можете легко использовать функцию dataframe_to_rows() из модуля utils:

    # Import `dataframe_to_rows`
    from openpyxl.utils.dataframe import dataframe_to_rows
    
    # Initialize a workbook 
    wb = Workbook()
    
    # Get the worksheet in the active workbook
    ws = wb.active
    
    # Append the rows of the DataFrame to your worksheet
    for r in dataframe_to_rows(df, index=True, header=True):
        ws.append(r)

    Но это точно не все! Библиотека openpyxl предлагает вам высокую гибкость при записи ваших данных обратно в файлы Excel, изменении стилей ячеек или использовании режима write-only. Эту библиотеку обязательно нужно знать, когда вы часто работаете с электронными таблицами ,

    Совет: читайте больше о том, как вы можете изменить стили ячеек, перейти в режим write-only или как библиотека работает с NumPy здесь.

    Теперь давайте также рассмотрим некоторые другие библиотеки, которые вы можете использовать для получения данных вашей электронной таблицы в Python.

    Прежде чем закрыть этот раздел, не забудьте отключить виртуальную среду, когда закончите!

    Чтение и форматирование Excel-файлов: xlrd

    Эта библиотека идеально подходит для чтения и форматирования данных из Excel с расширением xls или xlsx.

    # Import `xlrd`
    import xlrd
    
    # Open a workbook 
    workbook = xlrd.open_workbook('example.xls')
    
    # Loads only current sheets to memory
    workbook = xlrd.open_workbook('example.xls', on_demand = True)

    Когда вам не нужны данные из всей Excel-книги, вы можете использовать функции sheet_by_name() или sheet_by_index() для получения листов, которые вы хотите получить в своём анализе

    # Load a specific sheet by name
    worksheet = workbook.sheet_by_name('Sheet1')
    
    # Load a specific sheet by index 
    worksheet = workbook.sheet_by_index(0)
    
    # Retrieve the value from cell at indices (0,0) 
    sheet.cell(0, 0).value

    Также можно получить значение в определённых ячейках с вашего листа.

    Перейдите к xlwt и xlutils, чтобы узнать больше о том, как они относятся к библиотеке xlrd.

    Запись данных в Excel-файлы с xlwt

    Если вы хотите создать таблицу со своими данными, вы можете использовать не только библиотеку XlsWriter, но и xlwt. xlwt идеально подходит для записи данных и форматирования информации в файлах с расширением .xls

    Когда вы вручную создаёте файл:

    # Import `xlwt` 
    import xlwt
    
    # Initialize a workbook 
    book = xlwt.Workbook(encoding="utf-8")
    
    # Add a sheet to the workbook 
    sheet1 = book.add_sheet("Python Sheet 1") 
    
    # Write to the sheet of the workbook 
    sheet1.write(0, 0, "This is the First Cell of the First Sheet") 
    
    # Save the workbook 
    book.save("spreadsheet.xls")

    Если вы хотите записать данные в файл, но не хотите делать все самостоятельно, вы всегда можете прибегнуть к циклу for, чтобы автоматизировать весь процесс. Составьте сценарий, в котором вы создаёте книгу и в которую добавляете лист. Укажите список со столбцами и один со значениями, которые будут заполнены на листе.

    Далее у вас есть цикл for, который гарантирует, что все значения попадают в файл: вы говорите, что для каждого элемента в диапазоне от 0 до 4 (5 не включительно) вы собираетесь что-то делать. Вы будете заполнять значения построчно. Для этого вы указываете элемент строки, который появляется в каждом цикле. Далее у вас есть еще один цикл for, который будет проходить по столбцам вашего листа. Вы говорите, что для каждой строки на листе, вы будете смотреть на столбцы, которые идут с ним, и вы будете заполнять значение для каждого столбца в строке. Заполнив все столбцы строки значениями, вы перейдете к следующей строке, пока не останется строк.

    # Initialize a workbook
    book = xlwt.Workbook()
    
    # Add a sheet to the workbook
    sheet1 = book.add_sheet("Sheet1")
    
    # The data
    cols = ["A", "B", "C", "D", "E"]
    txt = [0,1,2,3,4]
    
    # Loop over the rows and columns and fill in the values
    for num in range(5):
          row = sheet1.row(num)
          for index, col in enumerate(cols):
              value = txt[index] + num
              row.write(index, value)
    
    # Save the result
    book.save("test.xls")

    На скриншоте ниже представлен результат выполнения этого кода:

    Теперь, когда вы увидели, как xlrd и xlwt работают друг с другом, пришло время взглянуть на библиотеку, которая тесно связана с этими двумя: xlutils.

    Сборник утилит: xlutils

    Эта библиотека — сборник утилит, для которого требуются и xlrd и xlwt, и которая может копировать, изменять и фильтровать существующие данные. О том, как пользоваться этими командами рассказано в разделе по openpyxl.

    Вернитесь в раздел openpyxl, чтобы получить больше информации о том, как использовать этот пакет для получения данных в Python.

    Использование pyexcel для чтения .xls или .xlsx файлов

    Еще одна библиотека, которую можно использовать для чтения данных электронных таблиц в Python — это pyexcel; Python Wrapper, который предоставляет один API для чтения, записи и работы с данными в файлах .csv, .ods, .xls, .xlsx и .xlsm. Конечно, для этого урока вы просто сосредоточитесь на файлах .xls и .xls.

    Чтобы получить ваши данные в массиве, вы можете использовать функцию get_array(), которая содержится в пакете pyexcel:

    # Import `pyexcel`
    import pyexcel
    
    # Get an array from the data
    my_array = pyexcel.get_array(file_name="test.xls")

    Вы также можете получить свои данные в упорядоченном словаре списков. Вы можете использовать функцию get_dict():

    # Import `OrderedDict` module 
    from pyexcel._compact import OrderedDict
    
    # Get your data in an ordered dictionary of lists
    my_dict = pyexcel.get_dict(file_name="test.xls", name_columns_by_row=0)
    
    # Get your data in a dictionary of 2D arrays
    book_dict = pyexcel.get_book_dict(file_name="test.xls")

    Здесь видно, что если вы хотите получить словарь двумерных массивов или получить все листы рабочей книги в одном словаре, вы можете прибегнуть к get_book_dict().

    Помните, что эти две структуры данных, которые были упомянуты выше, массивы и словари вашей таблицы, позволяют вам создавать DataFrames ваших данных с помощью pd.DataFrame(). Это облегчит обработку данных.

    Кроме того, вы можете просто получить записи из таблицы с помощью pyexcel благодаря функции get_records(). Просто передайте аргумент file_name в функцию, и вы получите список словарей:

    # Retrieve the records of the file
    records = pyexcel.get_records(file_name="test.xls")

    Чтобы узнать, как управлять списками Python, ознакомьтесь с примерами из документации о списках Python.

    Запись в файл с pyexcel

    С помощью этой библиотеки можно не только загружать данные в массивы, вы также можете экспортировать свои массивы обратно в таблицу. Используйте функцию save_as() и передайте массив и имя файла назначения в аргумент dest_file_name:

    # Get the data
    data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
    
    # Save the array to a file
    pyexcel.save_as(array=data, dest_file_name="array_data.xls")

    Обратите внимание, что если вы хотите указать разделитель, вы можете добавить аргумент dest_delimiter и передать символ, который вы хотите использовать в качестве разделителя между «».

    Однако если у вас есть словарь, вам нужно использовать функцию save_book_as(). Передайте двумерный словарь в bookdict и укажите имя файла:

    # The data
    2d_array_dictionary = {'Sheet 1': [
                                       ['ID', 'AGE', 'SCORE']
                                       [1, 22, 5],
                                       [2, 15, 6],
                                       [3, 28, 9]
                                      ],
                           'Sheet 2': [
                                        ['X', 'Y', 'Z'],
                                        [1, 2, 3],
                                        [4, 5, 6]
                                        [7, 8, 9]
                                      ],
                           'Sheet 3': [
                                        ['M', 'N', 'O', 'P'],
                                        [10, 11, 12, 13],
                                        [14, 15, 16, 17]
                                        [18, 19, 20, 21]
                                       ]}
    
    # Save the data to a file                        
    pyexcel.save_book_as(bookdict=2d_array_dictionary, dest_file_name="2d_array_data.xls")

    При использовании кода, напечатанного в приведенном выше примере, важно помнить, что порядок ваших данных в словаре не будет сохранен. Если вы не хотите этого, вам нужно сделать небольшой обход. Вы можете прочитать все об этом здесь.

    Чтение и запись .csv файлов

    Если вы все еще ищете библиотеки, которые позволяют загружать и записывать данные в файлы .csv, кроме Pandas, лучше всего использовать пакет csv:

    # import `csv`
    import csv
    
    # Read in csv file 
    for row in csv.reader(open('data.csv'), delimiter=','):
          print(row)
          
    # Write csv file
    data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
    outfile = open('data.csv', 'w')
    writer = csv.writer(outfile, delimiter=';', quotechar='"')
    writer.writerows(data)
    outfile.close()

    Обратите внимание, что в пакете NumPy есть функция genfromtxt(), которая позволяет загружать данные, содержащиеся в файлах .csv, в массивы, которые затем можно поместить в DataFrames.

    Финальная проверка данных

    Когда у вас есть данные, не забудьте последний шаг: проверить, правильно ли загружены данные. Если вы поместили свои данные в DataFrame, вы можете легко и быстро проверить, был ли импорт успешным, выполнив следующие команды:

    # Check the first entries of the DataFrame
    df1.head()
    
    # Check the last entries of the DataFrame
    df1.tail()

    Если у вас есть данные в массиве, вы можете проверить их, используя следующие атрибуты массива: shape, ndim, dtype и т.д .:

    # Inspect the shape 
    data.shape
    
    # Inspect the number of dimensions
    data.ndim
    
    # Inspect the data type
    data.dtype
    

    Что дальше?

    Поздравляем! Вы успешно прошли наш урок и научились читать файлы Excel на Python.

    Если вы хотите продолжить работу над этой темой, попробуйте воспользоваться PyXll, который позволяет писать функции в Python и вызывать их в Excel.

    Понравилась статья? Поделить с друзьями:
  • Надстройка в excel для цифр прописью
  • Надстройка powerpoint для excel
  • Надстройка в excel 2010 анализ данных
  • Надстройка powerpivot для excel 2016 скачать
  • Надстройка анализ данных в excel 2016