Задача переноса данных из таблицы в PDF-файле на лист Microsoft Excel — это всегда «весело». Особенно если у вас нет дорогих программ распознавания типа FineReader или чего-то подобного. Прямое копирование обычно ни к чему хорошему не приводит, т.к. после вставки скопированных данных на лист, они, скорее всего, «слипнутся» в один столбец. Так что их потом придется кропотливо разделять с помощью инструмента Текст по столбцам с вкладки Данные (Data — Text to Columns).
И само-собой, копирование возможно только для тех PDF-файлов, где есть текстовый слой, т.е. с только что отсканированным с бумаги в PDF документом это не сработает в принципе.
Но все не так грустно, на самом деле
Если у вас Office 2013 или 2016, то за пару минут без дополнительных программ вполне можно реализовать перенос данных из PDF в Microsoft Excel. А помогут нам в этом Word и Power Query.
Для примера, давайте возьмем вот такой PDF-отчет с кучей текста, формул и таблиц с сайта Европейской Экономической Комиссии:
… и попробуем вытащить из него в Excel, скажем первую таблицу:
Поехали!
Шаг 1. Открываем PDF в Word
Почему-то мало кто знает, но начиная с 2013 года Microsoft Word научился открывать и распознавать PDF файлы (даже отсканированные, т.е. без текстового слоя!). Делается это совершенно стандартным образом: открываем Word, жмем Файл — Открыть (File — Open) и уточняем PDF-формат в выпадающем списке в правом нижнем углу окна.
Затем выбираем нужный нам PDF-файл и жмем Открыть (Open). Word сообщает нам, что собирается запустить распознавание этого документа в текст:
Соглашаемся и через несколько секунд увидим наш PDF открытым для редактирования уже в Word:
Само-собой, у документа частично слетит дизайн, стили, шрифты, колонтитулы и т.п., но для нас это не важно — нам нужны только данные из таблиц. В принципе, на этом этапе уже возникает соблазн дальше просто скопировать таблицу из распознанного документа в Word и просто вставить ее в Excel. Иногда это срабатывает, но чаще приводит ко всевозможным искажениям данных — например числа могут превратиться в даты или остаться текстом, как в нашем случае, т.к. в PDF используется не российские разделители:
Так что давайте не будем срезать углы, а сделаем все чуть сложнее, но правильно.
Этап 2. Сохраняем документ как веб-страницу
Чтобы потом загрузить полученные данные в Excel (через Power Query), наш документ в Word нужно сохранить в формате веб-страницы — этот формат является, в данном случае, неким общим знаменателем между Word’ом и Excel’ем.
Для этого идем в меню Файл — Сохранить как (File — Save As) или жмем клавишу F12 на клавиатуре и в открывшемся окне выбираем тип файла Веб-страница в одном файле (Webpage — Single file):
После сохранения должен получиться файл с расширением mhtml (если у вас в Проводнике видны расширения файлов).
Этап 3. Загружаем файл в Excel через Power Query
Можно открыть созданный MHTML-файл в Excel напрямую, но тогда мы получим, во-первых сразу все содержимое PDF вместе текстом и кучей ненужных таблиц, а, во-вторых, опять потеряем данные из-за неправильных разделителей. Поэтому импорт в Excel мы будем делать через надстройку Power Query. Это совершенно бесплатная надстройка, с помощью которой можно загружать в Excel данные практически из любых источников (файлов, папок, баз данных, ERP-систем) и всячески затем полученные данные трансформировать, придавая им нужную форму.
Если у вас Excel 2010-2013, то скачать Power Query можно с официального сайта Microsoft — после установки у вас появится вкладка Power Query. Если у вас Excel 2016 или новее, то качать ничего не нужно — весь функционал уже встроен в Excel по-умолчанию и находится на вкладке Данные (Data) в группе Загрузить и преобразовать (Get & Transform).
Так что идем либо на вкладку Данные, либо на вкладку Power Query и выбираем команду Получить данные или Создать запрос — Из файла — Из XML. Чтобы были видны не только XML-файлы — меняем в выпадающем списке в правом нижнем углу окна фильтры на Все файлы (All files) и указываем наш MHTML-файл:
Обратите внимание, что импорт успешно не завершится, т.к. Power Query ждет от нас XML, а у нас, на самом деле, HTML-формат. Поэтому в следующем появившемся окне нужно будет щелкнуть правой кнопкой мыши по непонятному для Power Query файлу и уточнить его формат:
После этого файл будет корректно распознан и мы увидим список всех таблиц, которые в нем есть:
Посмотреть содержимое таблиц можно, если щелкать левой кнопкой мыши в белый фон (не в слово Table!) ячеек в столбце Data.
Когда нужная таблица определена, щелкните по зеленому слову Table — и вы «провалитесь» в её содержимое:
Останется проделать несколько простых действий, чтобы «причесать» ее содержимое, а именно:
- удалить ненужные столбцы (правой кнопкой мыши по заголовку столбца — Удалить)
- заменить точки на запятые (выделить столбцы, щелкнуть правой — Замена значений)
- удалить знаки равно в шапке (выделить столбцы, щелкнуть правой — Замена значений)
- удалить верхнюю строку (Главная — Удалить строки — Удаление верхних строк)
- удалить пустые строки (Главная — Удалить строки — Удаление пустых строк)
- поднять первую строку в шапку таблицы (Главная — Использовать первую строку в качестве заголовков)
- отфильтровать лишние данные с помощью фильтра
Когда таблица будет приведена в нормальный вид, ее можно выгрузить на лист командой Закрыть и загрузить (Close & Load) на Главной вкладке. И мы получим вот такую красоту, с которой уже можно работать:
Ссылки по теме
- Трансформация столбца в таблицу с помощью Power Query
- Разделение слипшегося текста по столбцам
Download Article
Download Article
There are many ways to convert an entire PDF to an Excel document, but extracting only a certain section of data is a little harder. Thankfully, there are still a few different ways to do so, including manually copying and pasting the data, using free online tools like Docparser, and using paid tools like Adobe Acrobat Pro DC and PanaForma. This wikiHow article will teach you how to export specific data in a PDF to Excel.
-
1
Open the PDF in your PDF reader. Double-clicking the PDF file will automatically open it in your default PDF reader, such as Preview for macOS or Edge for Windows.
-
2
Select the data you would like to extract from a PDF. You can select the data by clicking and dragging from the top left of a section to the bottom right. The section should now be highlighted.
Advertisement
-
3
Copy the data to your clipboard. Right-click the highlighted section and select Copy.
- Alternatively, you can copy the data by pressing Command + C on Mac or Control + C on Windows.
-
4
Open an Excel document and select a number of cells. As before, to quickly select multiple cells, click and drag your mouse from the upper-leftmost cell to the lower-rightmost cell.
- Be sure to select enough cells to fit your data. Otherwise, you will only be able to paste part of the data.
-
5
Paste the data into the Excel document. Right-click one of the highlighted cells and select Paste. While you will likely have to do some reformatting, you should have data from your PDF in an Excel file!
- If it does not paste effectively as a group, try copying and pasting it line by line into the desired cell(s).
- You can also paste your data by pressing Command + V on Mac or Control + V on Windows.
Advertisement
-
1
Sign up for an account at https://app.docparser.com/account/signup. Docparser has a variety of plans, including a free plan that allows you to parse 30 documents per month.
- You can choose to sign up with an existing Google or Microsoft account or create a new Docparser-specific account.
-
2
Click Create Document Parser. This blue button is located in the bottom middle of your screen.
-
3
Type in a name and select a template. If the document you would like to parse does not fit one of the presets, select the Custom option in the middle of the top row.
- Docparser’s templates will all come with a set of premade rules tailored to that document type, while creating a custom template requires you to set your own rules.
-
4
Upload a PDF and click Continue. You can choose to either drag and drop a PDF file into the site or click the upload box, then select a file on your computer. Once you have uploaded your PDF(s), click the green button at the top right of the screen.
- If you would like to convert multiple PDFs with the same rules, continue uploading more files.
-
5
Watch or skip the parsing rules video. Parsing rules allow you to choose how Docparser reads and converts your PDF. If you would rather not watch the tutorial video, click the “X” at the top right of the pop-up window.
- The video is barely over a minute and a half in length, so consider watching it to get a better sense of how you can customize the parsing of your PDFs.
-
6
Follow the tips as they appear on screen. Docparser will start by having you pick the Text Variable Position rule preset, then naming your rule. It will then explain the data that was parsed, where to add filters and narrow that data down, and how to see a preview of your filtered data.
-
7
Add text filters and adjust each using the “Filtered Result” boxes below. Each box includes a dropdown menu for revising its corresponding filter as well as a preview of your data.
- To select a specific piece of data, click Add Text Filter, then hover over Crop From Start & End and set a start and end point for the parsing of your document.
-
8
Click Save Parsing Rule. This green button is in the bottom right of the screen and has a small white check mark icon.
-
9
Make another parsing rule or leave the editor. If you are done creating rules, click the gray Leave Parsing Editor button. Otherwise, click the blue Create Another Parsing Rule button and continue making rules, then leave the editor and move to the next step.
-
10
Click the checkbox next to your document’s name. A black check mark should appear.
-
11
Select Move To Parse Queue from the Perform Action dropdown menu. The dropdown menu can be found at the top left of your screen, directly above the name of your document.
-
12
Click Ok, wait a minute, and refresh the page. If you do not see your document, it is likely still parsing. Try waiting another minute and switching between tabs in the document parser.
-
13
Press the file name. This button is on the left side of the page and has an arrow pointing down into technology as its icon.
-
14
Click Excel Download. You should now have an Excel document containing the selected data from your PDF!
- You may have to allow downloads on the site before your file begins downloading.
Advertisement
-
1
Open the desired PDF with Acrobat. If Acrobat is not your default PDF reader, you can use it by right-clicking the file, then selecting Acrobat from the Open With menu.
- You may have to search for Acrobat in the Open With menu by clicking Other… for Mac or Choose another app for Windows.
-
2
Select the data you would like to extract. You can select the data by clicking and dragging from the top left of a section to the bottom right. The section should now be highlighted.
-
3
Right-click your selection and choose Export Selection As…. A new window should appear with a variety of options for exporting the chosen portion of your PDF.[1]
-
4
Select the XLSX format from the Save As Type list and click Save. You should now have an Excel spreadsheet with specific data from your PDF!
Advertisement
PanaForma is useful when you have many documents in the same format from which you want to extract data.
-
1
Download and install the PanaForma app (Windows only) — PanaForma has a one-month free trial, and there’s no obligation to continue with a paid plan.
-
2
Open the PanaForma app, and click Add Folder. This button is located in the top left corner of the app window. In the folder picker, choose the folder on your computer where your PDF files are stored.
-
3
With the folder added, expand the folder tree to locate the first PDF file you will extract data from. Click the file name in the tree to open the file. You will use this file to create a Template that you will apply to extract data from all the PDFs that share the same format.
-
4
In the right-hand panel of the app, give your new Template a name, and click Create.
-
5
Using the mouse, drag a selection box around each data field on the page that you want to extract. In this example, five data fields have been selected.
-
6
Once you’ve selected all the data fields in your Template, give each field a distinctive name in the right-hand panel.
-
7
Now apply you Template to all the required PDFs. To do this, select each PDF in the left-hand panel file tree, then select your Template in the «Apply existing Template» drop-down on the right-hand panel, and click Ok. After applying the Template, you can move or resize each field on the page if required, or make manual edits to the extracted data values in the right-hand panel.
-
8
When you’ve applied your Template to all required PDFs, go to the «Data Extracts» screen using the navigation button on the left side of the app. Click Export Data in the top-left tool bar. If you don’t have a subscription yet, you will need to begin a free trial. The trial lasts one month, and if you cancel during the trial period you will not proceed to a paid plan when the trial ends. In the export dialog, there are a number of options to control the rows/columns exported, and the file format. Choose the options you need, and click Export. In the file dialog, choose a location to save the output file. Open the file in Excel to review the extracted data.
Advertisement
Ask a Question
200 characters left
Include your email address to get a message when this question is answered.
Submit
Advertisement
References
About This Article
Article SummaryX
1. Copy and paste the data from a PDF into an Excel document.
2. Set up a Docparser account and click Create Document Parser.
3. Create a name and select a template, then upload a PDF(s) and select Continue.
4. Follow the prompts that appear onscreen and create parsing rules as desired for your document.
5. Click the checkbox next to your document’s name and select Move to Parse Queue under Perform Action.
6. Wait for the file to finish re-parsing, refresh the page, click the document name, and select Excel Download.
7. On Adobe Acrobat Pro DC, select the text you would like to extract, then right-click it and choose Export Selection As….
8. Choose the XLSX format from the Save As Type list and click Save.
Did this summary help you?
Thanks to all authors for creating a page that has been read 15,664 times.
Is this article up to date?
Есть необходимость парсить данные из pdf документа. Сам документ состоит из таблицы с тремя колонками, перед таблицей немного ненужного текста. По сути нужна только таблица. Она на несколько страниц. В таблице по мимо текстовой информации есть гиперссылки, которые тоже нужно спарсить.
Чем можно эффективно выдернут все данные из этой таблицы, чтобы в последствии с простотой оперировать ими? Я думал на json. Но не знаю в верном направлении ли я смотрю.
Язык программирования не важен. Лишь бы была библиотека, которая может это реализовать.
-
Вопрос заданболее двух лет назад
-
1189 просмотров
Пригласить эксперта
какое отношение json имеет к парсингу?
pdf вещь такая, что там таблица может быть и картинкой, и тогда только распознавать.
Если pdf — не картинка, если в открытом adobe reader-ом файле pdf можно выделить и скопировать текст, то для того, чтобы вытащить оттуда таблицу, надо открыть pdf при помощи word. Затем из Word таблицу можно копипастить в excel.
Соответственно, автоматизировать этот процесс проще на основе MS office и VBA.
Чем можно эффективно выдернут все данные из этой таблицы, чтобы в последствии с простотой оперировать ими?
— если нужно извлекать отдельную таблицу, вроде только свой парсер писать (или на фриланс сходить), если просто извлечь весь текст, то popler-utils (можно постранично извлекать) использовать и потом уже парсите извлеченный текст, только нужно будет определить где начало таблицы где конец.
-
Показать ещё
Загружается…
16 апр. 2023, в 23:43
500 руб./за проект
16 апр. 2023, в 23:03
10000 руб./за проект
16 апр. 2023, в 22:52
7000 руб./за проект
Минуточку внимания
Парсер умеет извлекать данные из файлов формата PDF (ПДФ)
Очень важно: для парсинга подходят только файлы с «текстовым слоем» и без защиты, — т.е. такие, где текст можно ВЫДЕЛИТЬ и СКОПИРОВАТЬ. Если же ваши файлы содержат сканы документов (по сути, фотографии, с которых текст не скопировать), то такие файлы обработать не получится. Если файл PDF с «текстовым слоем» и с защитой от копирования, то придется предварительно ВРУЧНУЮ снять эту защиту (например, используя специализированные онлайн-сервисы)
Для извлечения информации из файлов PDF используется стандартный алгоритм парсера файлов, со следующими особенностями:
- Для чтения файла используется действие «Скопировать содержимое PDF файла через IE»:
Действие Параметр Значение Скопировать содержимое PDF файла через IE Время ожидания после открытия, сек. 1 Время ожидания копирования, сек. 0 Количество попыток копирования 1 Извлекаемый формат из буфера обмена Rich Text Format Скачивать файл перед открытием да Сохранять файл под именем Сохранять в кеше под именем - ВАЖНО: Для работы парсера требуется, чтобы браузер Internet Explorer умел открывать файлы ПДФ
Если Internet Explorer не умеет открывать файлы PDF, то необходимо установить расширение Adobe Acrobat Reader для браузеров. Скачать это расширение можно по ссылке: https://get.adobe.com/ru/reader/
- Данные из PDF можно скопировать как в виде текста, так и с разметкой — в формате RTF (Rich Text Format)
Обычно из буфера обмена берется содержимое в формате Rich Text Format, и следующим действием преобразуется в HTML при помощи действия «Преобразовать RTF в HTML»
- Для больших файлов ПДФ (десятки страниц) обязательно увеличивайте таймауты (первые 2 параметра действия), потому что выделение текста и его последующее копирование могут занимать МНОГО времени.
Время ожидания копирования можно увеличить до 2-3 секунд (в некоторых случаях надо ждать еще дольше, 5-10-30 секунд)
- Для огромных ПДФ файлов, время считывания информации может измеряться минутами.
Например, мне попался файл PDF весом 300 мегабайтов (30 тысяч записей, 1000 страниц, — выгрузка переписки из программы Мобильный криминалист), где только выделение текста (после нажатия Ctrl + A) занимало 2-3 минуты, а копирование информации в буфер обмена (Ctrl + C) длилось около 15 минут. Для таких файлов правильнее будет ВРУЧНУЮ копировать информацию в текстовый файл, и потом уже парсить текст из файла.
Примеры настройки парсера PDF файлов можно найти в каталоге парсеров файлов:
- парсер файлов ПДФ + видеоинструкция
Преобразуйте PDF в Excel онлайн
бесплатно в любом месте
Универсальный конвертер PDF в Excel
Всё просто. Загрузите PDF-документ с жёсткого диска / из облачного хранилища или перетащите в поле загрузки.
Загрузите PDF-файл и выберите формат электронной таблицы Microsoft Excel из выпадающего меню. Доступно два варианта: XLS и XLSX.
Затем нажмите «Начать», а PDF-конвертер позаботится об остальном.
Онлайн-конвертер PDF в Excel
Вам не надо скачивать приложение или устанавливать программу. PDF2Go работает онлайн в любом браузере. Просто подключитесь к сети и зайдите на PDF2Go.com.
Никаких вирусов и вредоносных программ. Просто скачайте готовую таблицу Excel.
Зачем конвертировать PDF в Excel?
Формат PDF универсален, но его сложно редактировать. Если вам надо извлечь и отредактировать таблицу, преобразуйте PDF в формат Excel.
Оптическое распознавание символов (OCR) позволяет редактировать даже отсканированные книги. Не тратьте время, чтобы скопировать текст вручную, мы обо всём позаботимся!
Безопасный конвертер PDF в Excel
Преобразуйте PDF-документ в Microsoft Excel на сайте PDF2Go и не беспокойтесь о безопасности файла.
SSL-шифрование, регулярная очистка сервера, безопасность загрузки и скачивания файлов. Все права на документы остаются за вами.
Для получения дополнительной информации ознакомьтесь с Политикой конфиденциальности.
В какой формат можно преобразовать?
С помощью PDF-конвертера вы можете преобразовать PDF в Excel, в частности, Microsoft XLS и XLSX. Преобразовать PDF-файл в другие форматы тоже можно!
Например:
XLS, XLSX
Мобильный конвертер PDF-файлов
Конвертируйте PDF-файлы на компьютере, смартфоне или планшете!
PDF2Go работает везде — в поезде и в автобусе, дома и в офисе. Хотите преобразовать PDF в Excel? Просто подключитесь к интернету!
Извлекайте таблицы из PDF, а затем сохраняйте в форматах CSV, HTML, JSON, XML и Docx.
Загрузка PDF-редактора, пожалуйста, подождите …
Что это Извлечь таблицы из PDF ?
Извлечение таблиц из PDF — это бесплатный онлайн-инструмент, который извлекает табличные данные из файла PDF, а затем экспортирует их в форматы CSV, HTML, JSON, XML и Docx. Когда вы нажмете кнопку: автоматическое обнаружение таблиц, инструмент попытается распознать таблицы и пометить каждую таблицу прямоугольником. Если в обнаружении таблицы есть ошибка, вы можете исправить ее, добавив, удалив или расширив одну или несколько таблиц. Если вы хотите извлечь таблицу PDF или извлечь данные из PDF в Excel, то это ваш инструмент. С помощью этого сервиса извлечения таблиц из PDF в CSV вы можете быстро и легко разблокировать табличные данные из PDF.
0 / 0 / 0 Регистрация: 27.04.2022 Сообщений: 28 |
|
1 |
|
20.12.2022, 11:46. Показов 531. Ответов 10
Добрый день!
0 |
Programming Эксперт 94731 / 64177 / 26122 Регистрация: 12.04.2006 Сообщений: 116,782 |
20.12.2022, 11:46 |
10 |
195 / 134 / 64 Регистрация: 21.09.2016 Сообщений: 530 |
|
20.12.2022, 13:10 |
3 |
ПДФ они разные бывают. Есть те из которых можно вытащить текст, а есть которые содержат только картинку, и ее еще нужно преобразовать в нормальный текст
0 |
0 / 0 / 0 Регистрация: 27.04.2022 Сообщений: 28 |
|
20.12.2022, 13:42 [ТС] |
4 |
Есть те из которых можно вытащить текст, а есть которые содержат только картинку, и ее еще нужно преобразовать в нормальный текст Понимаю, допустим у меня pdf который содержит именно текст. Могу ли я из таких pdf получать данные, с помощью лишь одного Excel? я понимаю, что существует различные программы сторонние, но хотелось бы делать все в одной среде, т.к. дальнейшая обработка данных будет происходить тоже в excel.
0 |
195 / 134 / 64 Регистрация: 21.09.2016 Сообщений: 530 |
|
20.12.2022, 14:28 |
5 |
Я не работаю с MSO, но насколько знаю Word открывает pdf файлы, и через power query грузить в excel. Так же новые офисы позволяют напрямую работать excel с pdf через Pdf.Tables( File.Contents( Path ) )
0 |
ᴁ® 3070 / 1736 / 361 Регистрация: 13.12.2016 Сообщений: 5,940 Записей в блоге: 4 |
|
20.12.2022, 14:49 |
6 |
Могу ли я из таких pdf получать данные, с помощью лишь одного Excel? скорее всего нет. Но установить конвертор и автоматизировать парсинг именно из экселя думаю, что возможно.
0 |
11482 / 3773 / 677 Регистрация: 13.02.2009 Сообщений: 11,147 |
|
20.12.2022, 16:41 |
7 |
Могу ли я из таких pdf получать данные, с помощью лишь одного Excel В принципе можно
0 |
531 / 164 / 27 Регистрация: 10.05.2021 Сообщений: 535 Записей в блоге: 7 |
|
20.12.2022, 16:56 |
8 |
программно нажать Ctrl+A, Ctrl+C и потом из буфера вставить в текстовой файл с большими PDF не прокатит. Приказы по строительной сфере с данными (таблица-справочник) на 5к+ страниц просто ОООООЧЕНЬ долго будет выделяться и копироваться, а потом вывалится в ошибку. Тестировал на ADOBE Reader
0 |
Модератор 11343 / 4661 / 749 Регистрация: 07.08.2010 Сообщений: 13,512 Записей в блоге: 4 |
|
20.12.2022, 17:33 |
9 |
с большими PDF не прокатит. да и с маленькими не всегда — очень часто при сохранении в текст встречала следующее многие ПДФ-ки являются сканами и вообще не сохраняются в текст
1 |
531 / 164 / 27 Регистрация: 10.05.2021 Сообщений: 535 Записей в блоге: 7 |
|
20.12.2022, 17:45 |
10 |
многие ПДФ-ки являются сканами ну тут, я полагаю, речь идёт всё-таки о текстовом слое, иначе нужно отдельно разбирать варианты OCR. Хотя, при открытии PDF в Word он пытается разпознать картинки, но не всегда удачно, конечно, если сравнивать с FineReader и прочими, заточенными под то программами.
0 |
11482 / 3773 / 677 Регистрация: 13.02.2009 Сообщений: 11,147 |
|
20.12.2022, 18:27 |
11 |
— таблицы — в столбик, объединенные ячейки еще хитрее Да с таким сталкивался
0 |
IT_Exp Эксперт 87844 / 49110 / 22898 Регистрация: 17.06.2006 Сообщений: 92,604 |
20.12.2022, 18:27 |
11 |
Guaranteed security
PDFgear won’t and never has saved your files forever. Your files will be deleted once you shut or refresh the browser, which means you need to make sure you have downloaded them already. More detailed information of the files privacy care, you can find from our Privacy Policy.
High-speed PDF conversion
With our new technique for high-precision extraction measurements, PDFgear provides no lag or delay when extracting PDF files to Excel document format.
No download and installation
You don’t need to download or install software on your computer. PDFgear online tools provide the best conversion service to convert PDF files to Excel document format.
Convert files anytime anywhere
Our PDFgear online toolkits support working on Linux, Windows, and Mac browsers. That means you can convert PDF to EXCEL documents format on any device at any time.
Users-friendly UI
A simplified and direct main interface design allows you to find the exact function you need while working with PDF files. It will be a perfect match for the needs when you PDF.
More than PDF to Excel
Not only can you use PDFgear to convert PDF files to Excel, but also more online PDF tools are provided to convert Word to PDF, extract PDFs to Excel, merge PDF files, editing PDF, etc. which will make your document work easier.