Распознавание текста в microsoft excel

Aspose.OCR

С помощью функции распознавания текста Excel можно автоматически загружать извлеченные данные в файлы Microsoft Excel. Оптическое распознавание символов позволяет распознавать текст на изображениях. Excel OCR также поддерживает обнаружение и извлечение таблиц из изображений и преобразование их в электронную таблицу или Microsoft Excel в виде электронной таблицы. Лучше всего то, что он устраняет необходимость вручную вводить данные из изображения в электронную таблицу. Это также помогает хранить данные в редактируемом формате, чтобы вы могли изменять их в любое время.

Наша передовая технология OCR позволяет извлекать текстовые данные из отсканированного документа. Если вы загрузите отсканированный PDF-файл, механизм преобразования распознает его и запустит на нем технологию OCR. Все, что вам нужно сделать, это загрузить отсканированный PDF-файл, а все остальное оставить на усмотрение нашей технологии. Как только преобразование будет завершено, вы можете загрузить преобразованный файл в формате .xlsx и редактировать его дальше в Excel.

Это бесплатное приложение предоставлено
 Aspose.OCR


ScanImage video

Как распознать Excel по изображению таблицы

Step 1 icon

Шаг 1

Загрузите свое изображение

Щелкните внутри области размещения файла, чтобы загрузить файл таблицы, или перетащите файл таблицы.

Step 2 icon

Шаг 2

Начать процесс распознавания

Нажмите кнопку «Начать распознавание текста», чтобы извлечь Excel из табличного файла.

Step 3 icon

Шаг 3

Подожди несколько секунд

Результаты распознавания будут отображаться сразу после завершения процесса распознавания текста.

Step 4 icon

Шаг 4

Получить результат

Сохраните извлеченный xls или отправьте ссылку на полученный файл на свой адрес электронной почты.

Часто задаваемые вопросы

Можем ли мы преобразовать PNG в Excel?

Щелкните внутри области размещения файла, чтобы загрузить файл PNG, или перетащите файл PNG. Щелкните по кнопке Convert. Ваши файлы PNG будут загружены и преобразованы в формат результата XLS. Вы также можете отправить ссылку на файл XLS на свой адрес электронной почты.

Что такое OCR?

OCR (оптическое распознавание символов) — это технология, используемая для оцифровки документов и изображений, то есть преобразования изображений в текст. Наше бесплатное приложение для преобразования таблиц в текст использует движок Aspose.OCR для извлечения текста из загруженных файлов таблиц.

Является ли Aspose Excel OCR бесплатным?

Наши приложения для оптического распознавания текста абсолютно бесплатны. Не стесняйтесь использовать его столько, сколько хотите.

Могу ли я распознавать таблицы в Linux, Mac OS или Android?

Excel OCR работает онлайн и не требует установки программного обеспечения.

Зачем нужно OCR?

Технология оптического распознавания символов (OCR) — это бизнес-решение для автоматизации извлечения данных из печатного или письменного текста из отсканированного документа или файла изображения с последующим преобразованием текста в машиночитаемую форму, которая будет использоваться для обработки данных, такой как редактирование или поиск.

Может ли OCR читать Excel?

Основная идея заключается в том, что вы можете использовать камеру устройства, чтобы сфотографировать документ, например квитанцию, а затем использовать оптическое распознавание текста для извлечения данных из фотографии. Затем эти данные можно прочитать в электронную таблицу Excel.

Функции, которые вам понравятся

Быстрое и простое распознавание текста

Быстрое и простое распознавание текста

Загрузите изображения и нажмите кнопку «Pапустить OCR», чтобы преобразовать изображения в текст. Вы получите результат, как только будет выполнено распознавание текста.

Выполняйте распознавание текста из любого места

Выполняйте распознавание текста из любого места

Он работает на всех платформах, включая Windows, Mac, Android и iOS. Все файлы обрабатываются на наших серверах. Вам не требуются плагины, установка программного обеспечения или аппаратные ресурсы.

Высокое качество распознавания

Высокое качество распознавания

Все файлы обрабатываются с использованием API Aspose, которые используются многими компаниями из списка Fortune 100 в 114 странах.

Автоматическое определение макета документа

Автоматическое определение макета документа

Вам не нужно беспокоиться о ручной настройке расположения текстовых областей. Наш алгоритм автоматического определения макета документа работает автоматически.

Расширенная коррекция перекоса и улучшение изображения

Расширенная коррекция перекоса и улучшение изображения

OCR может успешно считывать сканы низкого качества и выполнять автоматическую предварительную обработку изображений для исправления низкого разрешения, низкой контрастности, шума и перекоса.

Высокая скорость без ресурсов

Высокая скорость без ресурсов

Не беспокойтесь об оборудовании, все вычислительные операции выполняются на нашей стороне. Мы используем высоконадежные и высокопроизводительные серверы на базе графических процессоров для размещения нашего ядра, построенного на новейших быстрых нейронных сетях.

Содержание

  1. Как отсканировать документ в excel
  2. Распознавание текста (OCR). Онлайн и бесплатно
  3. Преобразование отсканированных документов и изображений в редактируемые форматы Word, Pdf, Excel и Txt (простой текст)
  4. Доступно страниц: 10 (Вы уже использовали 0 страниц)
  5. Как распознать текст с изображения?
  6. Загрузите изображения или PDF-файлы
  7. Язык и формат
  8. Конвертируйте и скачивайте
  9. Как сканировать документы в Excel — Вокруг-Дом — 2021
  10. Начальное сканирование документов Word
  11. Внешний Конвертер
  12. Сканирование в Excel
  13. Как сфотографировать электронную таблицу и импортировать ее в Excel
  14. Как отсканировать таблицу в документ Excel:
  15. Как перенести таблицу из бумажного документа на компьютер?
  16. Как перенести сложный документ на компьютер в цифровом виде?
  17. Простейший способ перенести документ в «Эксель»
  18. Где скачать приложение Excel?
  19. Какой телефон потребуется?
  20. Что нужно сделать ещё?
  21. Инструкция, как перенести таблицы с бумаги в цифру
  22. Способ перенести много документов на компьютер
  23. Как конвертировать PDF-изображение в Excel
  24. Инструкция по конвертированию PDF-изображений в Excel
  25. Шаг 1. Импорт PDF-файла
  26. Шаг 2. Включение функции распознавания текста
  27. Шаг 3. Настройка распознавания текста
  28. Шаг 4. Конвертирование PDF-изображения в Excel
  29. Видео о том, как конвертировать PDF-изображение в Excel с помощью PDFelement
  30. Способ 2: Конвертирование PDF-изображений в Excel с помощью PDF Converter Pro
  31. Шаг 1. Загрузите PDF-изображение.
  32. Шаг 2. Выберите Excel в качестве выходного формата
  33. Шаг 3. Конвертирование PDF-изображения в таблицу Excel

Как отсканировать документ в excel

Распознавание текста (OCR). Онлайн и бесплатно

Преобразование отсканированных документов и изображений в редактируемые форматы Word, Pdf, Excel и Txt (простой текст)

Доступно страниц: 10 (Вы уже использовали 0 страниц)

Если вам нужно распознать больше страниц, пожалуйста, зарегистрируйтесь

Поддерживаемые форматы файлов:

pdf, jpg, bmp, gif, jp2, jpeg, pbm, pcx, pgm, png, ppm, tga, tiff, wbmp

  • Китайский OCR
  • Немецкий OCR
  • Нидерландский OCR
  • Английский OCR
  • Французский OCR
  • Итальянский OCR
Выберите все языки, используемые в документе
Формат и настройки выбора

Как распознать текст с изображения?

Загрузите изображения или PDF-файлы

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу

Язык и формат

Выберите все языки, используемые в документе. Кроме того, выберите .doc или любой другой формат, который вам нужен в результате (поддерживается больше 10 текстовых форматов)

Конвертируйте и скачивайте

Нажмите «Распознать», и вы можете сразу загрузить распознанный текстовый файл

Как сканировать документы в Excel — Вокруг-Дом — 2021

Table of Contents:

В таблицах Excel подробно описываются поля и то, как они заполняются данными. Сканирование документов в Excel возможно, и в некоторых случаях вы даже можете конвертировать PDF в Excel. Тем не менее, не все типы документов конвертируются в электронную таблицу Excel. Вам также может быть сложно сканировать данные в документ точно. Для некоторых полей могут потребоваться ручные настройки для правильной работы. Сканирование экономит значительное время, потому что ваши данные не требуют ручного ввода, но вам нужно вставить любые соответствующие формулы после сканирования информации.

кредит: anyaberkut / iStock / GettyImages

Начальное сканирование документов Word

Сканирование документа в Microsoft Word перед его передачей в Excel является хорошей практикой. Вы также можете использовать OneNote. Внедрение данных в документ Word позволяет копировать и вставлять определенные строки и столбцы в Excel. Метод ввода занимает немного больше времени, чем прямой импорт в Excel, но он позволяет вам работать с данными и следить за тем, чтобы они входили в Excel, как предполагалось. В ситуации прямого сканирования в Excel данные могут не выравниваться по строкам и столбцам должным образом. Внести необходимые коррективы после факта сложнее, чем начать с новой электронной таблицы и извлечь содержимое из Word.

Внешний Конвертер

Конвертеры документов не являются верным выбором, но в Интернете есть бесплатные версии, и они могут работать. Отсканируйте документ, который вы хотите конвертировать, и сохраните его в формате PDF. Затем найдите бесплатный конвертер документов. Многочисленные варианты легко доступны. Загрузите PDF в конвертер, и программа выполнит конвертацию. Большинство бесплатных конвертеров работают в веб-браузере и генерируют электронную таблицу для загрузки. Другие просят вас загрузить программное обеспечение. Хотя эта опция не обязательно плохая, работа в браузере экономит место на диске и является лучшим маршрутом.

Сканирование в Excel

Вы также можете сканировать в Excel напрямую через Microsoft. Получите доступ к инструментам Microsoft Office и откройте Microsoft Office Document Imaging. Нажмите «Файл» и «Открыть», а затем выберите документ. Посмотрите на правый нижний угол экрана и найдите значок глазного яблока. Наведите указатель мыши на этот значок, и он должен отобразить «OCR» или «Оптическое распознавание символов». Нажмите на значок, чтобы запустить сканирование через процесс распознавания символов. Затем выделите весь документ, скопируйте его и вставьте в Excel. Вы все еще можете вставить результаты в документ Word, чтобы сначала обработать данные, прежде чем вводить их в Excel.

Источник

Как сфотографировать электронную таблицу и импортировать ее в Excel

Microsoft реализовали функцию в Office 365, которую мы ждали много лет. Теперь при помощи мобильного приложения Excel можно сфотографировать таблицу и распознать её с возможностью внести изменения .

UPD: сначала функция была доступна только в приложении для Android, однако, теперь она есть и на iOS. Функционал простой и показан на видео, отсканированную таблицу можно легко редактировать в Excel.

Инструмент доступен только владельцам подписки Office 365.

Как отсканировать таблицу в документ Excel:

  • Скачать последнюю версию приложения Office 365 Microsoft Excel. В нём создать новую таблицу или открыть существующую.
  • На панели инструментов на нижней части экрана нажать на значок таблицы с камерой.
  • Приложение запустит камеру смартфона. Нужно сделать снимок таблицы или загрузить её фото из памяти устройства, а затем выделить нужную область.
  • После этого откроется окно проверки данных: в верхней части экрана будет предварительный просмотр электронной версии таблицы, а под ним — снимок оригинальной таблицы.
  • Excel предупредит, если заподозрит наличие ошибок. Пользователь сможет исправить их самостоятельно.

CNBC отмечает, что инструмент отлично справляется с небольшими таблицами, в которых несколько столбцов, но при оцифровке больших таблиц в электронном документе будут «сотни ошибок», которые придётся исправить вручную. Тем не менее технология помогает экономить время, избавляя от необходимости переносить всё вручную, указывает издание.

Источник

Как перенести таблицу из бумажного документа на компьютер?

Обычно предприятия и офисы квитанции или ведомости на бумажных документах переносят на компьютер в «Эксель» или Access вручную.

Ручная обработка сотни таблиц (в разных стилях и форматах) силами сотрудников занимает весь рабочтий день (до 10 часов труда), и вы платите им за это зарплату!

Можно ли автоматизировать и распознать таблицу онлайн, например? Ведь живые сотрудники куда нужнее в других более важных делах!

Как перенести сложный документ на компьютер в цифровом виде?

В большинстве случаев вам подойдёт самый простой вариант с использованием смартфона. Приложение Microsoft Excel для Android и iOS с недавних пор умеет распознавать таблицы онлайн, из бумажных документов через камеру или даже ПДФ-таблицы. Программа устанавливается на телефон и анализирует изображение, а затем импортирует данные в цифровом виде.

Хотя это не единственный метод. Если вы столкнулись с проблемой оцифровки документов, то предлагаем узнать два основных способа, как это сделать за минимальное время.

Простейший способ перенести документ в «Эксель»

Для переноса данных бумажной квитанции, ведомости или любых данных, отпечатанных в виде таблицы на бумаге в цифровой вид также структурировано предлагаем использовать новую возможность мобильного приложения Microsoft Excel.

Где скачать приложение Excel?

Внутри мобильного приложения есть платная подписка на Office 365, которая в нашей задаче не требуется. Она даёт только следующие улучшенные функции:

  • кастомизация визуальной части таблиц;
  • больше инструментов по фигурам;
  • расширенные функции форматирования;
  • карты данных;
  • кастомизация диаграмм;
  • объекты SmartArt;
  • работа с форматом защиты IRM.

Какой телефон потребуется?

Для быстрого результата лучше всего использовать самый современный смартфон или планшет, которым вы располагаете на предприятии.

Чем более мощный чипсет, чем больше оперативной памяти и чем лучше (а главное светочувствительнее) камера, тем быстрее будет процесс оцифровки и тем меньше он будет зависеть от смазанных снимков и задумчивости аппаратной части при обработке кадров.

Также потребуется свободное место во внутренней файловой системе устройства.

Что нужно сделать ещё?

Идеально, если у вас в офисе настроен Wi-Fi. Передача графических файлов между телефоном и компьютером по мобильной Cellular-сети выльется в дополнительные затраты на трафик и будет происходить дольше.

Инструкция, как перенести таблицы с бумаги в цифру

Запустите приложение Microsoft Excel, разрешив ему все необходимые действия (доступ к файловой системе и к камере).

Выберите «Вставка данных из рисунка».

Сделайте фотографию ведомости так, чтобы появилась красная рамка вокруг данных.

Прямо на экране определяйте область размещения таблицы (автоматика не всегда корректно выбирает размеры).

Основанный на машинном обучении искусственный интеллект Microsoft Excel автоматически обработает фотографию и «перегонит» данные в таблицу.

При импорте данных любые проблемы с распознаванием выводятся для ручной коррекции — отредактируйте ошибки через кнопку «Правка», а если их нет, то выберите «Пропустить».

Чтобы минимизировать количество ошибок, держите телефон ровно (или разместите его на специальном креплении — штативе) и включите весь свет, который возможен в помещении.

Как только работа с импортом будет завершена, выберите кнопку «Вставить».

Это финальный этап распознавания. Как только будут готовы все Excel-таблицы, переносите их на компьютер. Далее просто копируйте структурированные данные из Excel и вставляйте в Access (или другой софт, которым вы пользуетесь для редактирования ведомостей и документов).

Способ перенести много документов на компьютер

Второй способ подходит к крупным предприятиям и заключается в автоматизации распознавания текста и таблиц на изображении с некоторыми гарантиями результата. Для этого приобретается мощный софт (например, ABBY FineReader, у него есть также бесплатная версия — Screenshot Reader) или нанимается разработчик (штатный или на ИТ-аутсорсинге).

Для автоматизации процесса с большим количеством таблиц на бумажных носителях помимо самого софта потребуется участие программиста, который подготовит скриптовую часть.

Разработкой таких решений могут заняться фрилансеры или специалисты ИТ-аутсорсинговой компании. Напишите нам в ZEL-Услуги, если вас интересуют такого рода задачи, чтобы снизить затраты на рутину — подготовим коммерческое предложение под особенности и условия вашего бизнеса.

Источник

Как конвертировать PDF-изображение в Excel

Вам нужно извлечь данные из отсканированного PDF-отчета? Если это так, то, вероятно, вам будет полезно узнать, как конвертировать PDF-изображение в Excel. Благодаря функции распознавания оптических символов (OCR) это возможно! При сканировании документа в формат PDF-файла его содержимое будет автоматически сохранено в виде изображения. Для извлечения содержащихся в нем данных вам нужно будет выполнить распознавание текста. Не во всех PDF-конвертерах есть функция распознавания текста (OCR). При ее отсутствии вам придется преобразовать отсканированный PDF-файл в электронную таблицу Excel. Но, к счастью, в PDFelement есть функция распознавания текста. Это один из лучших конвертеров PDF-изображений в Excel из представленных на рынке, поэтому с его помощью вы можете легко конвертировать PDF-изображение в Excel.

Инструкция по конвертированию PDF-изображений в Excel

PDFelement предлагает вам самый простой способ для успешного преобразования отсканированного PDF-изображения в Excel. Благодаря встроенной функции оптического распознавания символов (OCR) вы можете преобразовать изображение в формате PDF в редактируемый PDF-файл, который затем можно преобразовать в редактируемый файл excel.

Шаг 1. Импорт PDF-файла

После запуска PDFelement перетащите отсканированный PDF-файл в окно программы, чтобы открыть его, или нажмите кнопку «Открыть файл . », чтобы выбрать файл на вашем компьютере.

Шаг 2. Включение функции распознавания текста

После открытия отсканированного PDF-документа в верхней части экрана появится панель с рекомендацией выполнить распознавание текста (OCR). Вы можете либо нажать кнопку «Выполнить распознавание текста» на панели уведомлений, либо перейти на вкладку «Редактировать» и нажать кнопку «Распознавание текста».

Шаг 3. Настройка распознавания текста

Затем вы увидите всплывающее окно распознавания текста. Выберите параметр «Редактируемый текст» и нажмите кнопку «Изменить язык», чтобы выбрать язык в соответствии с содержанием вашего PDF. Также вы можете нажать кнопку «Настроить страницы», чтобы указать диапазон страниц вашего PDF-изображения, на которых необходимо выполнить распознавание текста (OCR).

Шаг 4. Конвертирование PDF-изображения в Excel

Редактируемый PDF-документ будет открыт в программе автоматически после завершения процесса распознавания. Вы можете сохранить его. Перейдите на вкладку «Главная» и нажмите кнопку «В Excel» для конвертирования файла. Вы также можете выбрать папку для сохранения преобразованного файла. После завершения конвертирования вы можете открыть преобразованный файл excel для непосредственного использования или извлечения данных.

PDFelement – один из лучших инструментов для конвертирования PDF-изображений в Excel из представленных на рынке. Вы можете конвертировать отсканированное PDF-изображение в excel легко и быстро. Есть масса преимуществ в использовании этой программы для преобразования отсканированного PDF-изображения в файл Excel.

Вот эти преимущества:

  • Работа на различных платформах, включая iOS, Mac и Windows 10/8/7.
  • Отличное разрешение даже при распознавании символов в больших файлах.
  • Более 100 языков распознавания текста (OCR).
  • Плагин распознавания текста (OCR) хорошо понимает символы клавиатуры, что делает эту программу лучшим решением для преобразования PDF в Excel.
  • Более высокая скорость конвертирования и возможность пакетной обработки файлов для повышения эффективности.

Видео о том, как конвертировать PDF-изображение в Excel с помощью PDFelement

Способ 2: Конвертирование PDF-изображений в Excel с помощью PDF Converter Pro

Для преобразования PDF-изображений в Excel вы также можете использовать PDF Converter Pro. Это один из лучших конвертеров PDF-изображений в Excel, предназначенный для преобразования PDF в различные форматы с помощью функции распознавания текста (OCR). Нажмите ниже, чтобы бесплатно загрузить конвертер PDF-изображений в Excel.

PDF Converter Pro – это еще одна программа для конвертирования отсканированных PDF-изображений в Excel с помощью функции распознавания текста (OCR), с помощью которой вы можете преобразовывать в Excel файлы изображений. Использование этой программы позволит сделать вашу работу эффективнее и проще.

Шаг 1. Загрузите PDF-изображение.

После запуска Wondershare PDF Converter Pro перетащите в нее файлы изображений в формате PDF. Программа также поддерживает пакетное преобразование файлов, поэтому вы можете добавить несколько PDF-изображений одновременно. После загрузки отсканированных PDF-файлов в программу появится всплывающее диалоговое окно с просьбой выбрать язык для распознавания ваших PDF-документов. Установите флажок и нажмите кнопку «Включить распознавание текста».

Шаг 2. Выберите Excel в качестве выходного формата

В раскрывающегося списка справа от окна конвертера PDF-изображений в excel выберите Microsoft Excel в качестве выходного формата файла.

Шаг 3. Конвертирование PDF-изображения в таблицу Excel

Нажмите кнопку «Конвертировать», чтобы начать процесс преобразования PDF-изображения в Excel. Процесс распознавания текста может занять несколько минут. Вот и все! Через несколько минут вы преобразованные редактируемые документы excel появятся в выходной папке. Готово! Загрузите Wondershare PDF Converter Pro для конвертирования PDF-изображений в Excel!

Источник

Преобразование отсканированных документов и изображений в редактируемые форматы Word, Pdf, Excel и Txt (простой текст)

Доступно страниц: 10 (Вы уже использовали 0 страниц)

Если вам нужно распознать больше страниц, пожалуйста, зарегистрируйтесь

Загрузите файлы для распознавания или перетащите их на эту страницу

Поддерживаемые форматы файлов:

pdf, jpg, bmp, gif, jp2, jpeg, pbm, pcx, pgm, png, ppm, tga, tiff, wbmp

  • Китайский OCR
  • Немецкий OCR
  • Нидерландский OCR
  • Английский OCR
  • Французский OCR
  • Итальянский OCR

Как распознать текст с изображения?

Шаг 1

Загрузите изображения или PDF-файлы

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу

Шаг 2

Язык и формат

Выберите все языки, используемые в документе. Кроме того, выберите .doc или любой другой формат, который вам нужен в результате (поддерживается больше 10 текстовых форматов)

Шаг 3

Конвертируйте и скачивайте

Нажмите «Распознать», и вы можете сразу загрузить распознанный текстовый файл

 

bedvit

Пользователь

Сообщений: 2477
Регистрация: 02.04.2015

Виталий

Всем привет!
Нужно распознать

простой текст

по ссылке.
Кто чем пользуется?

Статью

Игоря читал — не взлетает такое решение.

«Бритва Оккама» или «Принцип Калашникова»?

 

PooHkrd

Пользователь

Сообщений: 6602
Регистрация: 22.02.2017

Excel x64 О365 / 2016 / Online / Power BI

#2

02.03.2020 17:37:50

А в какой версии Экселя оно должно работать? А то я видел что в OneNote 2010+ есть встроенный OCR, может к этому функционалу

как-то можно обратиться

через объектную модель в VBA? Я по ссылке особо не лазил, но возможно почерпнете себе что-то полезное.
З.Ы. Вашу картинку распознал примерно так:  :D Так что я теперь даже и не знаю, советовать ли такое.

Скрытый текст

Изменено: PooHkrd02.03.2020 17:53:49

Вот горшок пустой, он предмет простой…

 

bedvit

Пользователь

Сообщений: 2477
Регистрация: 02.04.2015

Виталий

Версии 2010-2016х64. Смотрю, нули он не любит )
Вообщем, мне нужны цифры. Буквы не важны.

«Бритва Оккама» или «Принцип Калашникова»?

 

Андрей_26

Пользователь

Сообщений: 647
Регистрация: 30.01.2018

Попробуйте

здесь

. Единственное без регистрации доступно только 10 страниц. Результат сохраняет в Word, потом можно скопировать данные и вставить в excel. Но главное все цифры правильно определились.

 

PooHkrd

Пользователь

Сообщений: 6602
Регистрация: 22.02.2017

Excel x64 О365 / 2016 / Online / Power BI

bedvit, всегда интересно когда вижу такие задачки: это просто такая хотелка заказчика, или в сети реально больше нет нормальных источников для получения этих котировок без танцев с бубном?

Вот горшок пустой, он предмет простой…

 

БМВ

Модератор

Сообщений: 21385
Регистрация: 28.12.2016

Excel 2013, 2016

bedvit, Виталий, может надо взглянуть на систему более тщательно?

https://docs.microsoft.com/en-us/uwp/api/windows.media.ocr

MS туда чего только не запихнул.

Изменено: БМВ02.03.2020 19:22:38

По вопросам из тем форума, личку не читаю.

 

Kuzmich

Пользователь

Сообщений: 7998
Регистрация: 21.12.2012

#7

02.03.2020 19:36:46

Цитата
Вообщем, мне нужны цифры.

Использую ABBYY PDF Transformer + , выпуск 12.0.104.225, артикул 1132.27
Загрузил картинку
Выделил нужный диапазон
Расставил горизонтальные и вертикальные разделители.
Скопировал таблицу и вставил в Excel

Прикрепленные файлы

  • распознавание текста с картинки_TID=126248.xls (13.5 КБ)

 

bedvit

Пользователь

Сообщений: 2477
Регистрация: 02.04.2015

Виталий

PooHkrd, для данных в реальном времени — перерыл разные источники не нашел, возможно это платные API на биржевых платформах, а платить никто не хочет.
Михаил, посмотрю, есть у меня мысли, завтра оформлю, если успею
Kuzmich, все здорово, только это нужно автоматически, несколько раз в день, без Homo.
Андрей_26, да, в онлайне можно, но надо постоянно несколько раз в день снимать показания.

«Бритва Оккама» или «Принцип Калашникова»?

 

БМВ

Модератор

Сообщений: 21385
Регистрация: 28.12.2016

Excel 2013, 2016

а вот так word
картинку в ворд на лист и запись в PDF. Открыть PDF вордом.

Прикрепленные файлы

  • kitconn.pdf (178.67 КБ)
  • KitCon.docx (17.16 КБ)

По вопросам из тем форума, личку не читаю.

 

Андрей_26

Пользователь

Сообщений: 647
Регистрация: 30.01.2018

#10

03.03.2020 11:23:26

Цитата
bedvit написал:
да, в онлайне можно, но надо постоянно несколько раз в день снимать показания.

Там вроде API есть

 

Jack Famous

Пользователь

Сообщений: 10852
Регистрация: 07.11.2014

OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome

#11

03.03.2020 11:49:06

Цитата
bedvit: нужно автоматически, несколько раз в день, без Homo

совсем без человека туфта получиться — НЕТ ещё таких надёжных технологий оптического распознавания…

Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄

 

БМВ

Модератор

Сообщений: 21385
Регистрация: 28.12.2016

Excel 2013, 2016

#12

03.03.2020 13:16:10

Цитата
Jack Famous написал:
НЕТ ещё таких надёжных технологий оптического распознавания…

Алексей, контрастность повыше и от 400 dpi и машинный текст ра познается давно очень четко. Друкое дело что на примере есть проблемы и с тем и с другим

По вопросам из тем форума, личку не читаю.

 

doober

Пользователь

Сообщений: 2204
Регистрация: 09.04.2013

bedvit  попробуйте

Puma.NE

Для Вас не составит труда приспособить под свои нужды, есть пример на шарпе.
Я пользуюсь этой OCR, если надо установщик, я сброшу Вам.

 

Jack Famous

Пользователь

Сообщений: 10852
Регистрация: 07.11.2014

OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome

#14

03.03.2020 14:50:54

Цитата
БМВ: контрастность повыше и от 400 dpi и машинный текст распознается давно очень четко

а как же обстоят дела со спецификациями типа Насос Dunfoss ME456FS Ду125 PE (выдуманная строка для демонстрации смешанного текста)?  :)
Там потом надо дополнительно прогонять по алгоритму символы «чужого» языка среди «родных»

Это я не говорю про распознавание таблиц из отсканированных PDF со сдвигами и прочими «радостями» — ограничился только примером
Я уже «наелся» этими распознаваниями и периодически «перекусываю»  :D

Цитата
bedvit: Кто чем пользуется?

Aiseesoft PDF Converter Ultimate, т.к. показал себя несколько лучше FineReader на тестах, но это такой холивар, который сильно зависит от исходных данных

Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄

 

БМВ

Модератор

Сообщений: 21385
Регистрация: 28.12.2016

Excel 2013, 2016

Jack Famous,  Алексей,
OCR — optical characters recognition  , character — символ иенроглиф
символ распознан правильно — задача выполнена, а то что за этим символом стоит другая буква — это уже optical text recognition.

По вопросам из тем форума, личку не читаю.

 

Jack Famous

Пользователь

Сообщений: 10852
Регистрация: 07.11.2014

OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome

#16

03.03.2020 15:07:19

Цитата
БМВ: символ распознан правильно

по-моему вы рака за камень заводите  :D
Распознать форму чёрных пикселей и связать её с наиболее похожим символом (из списка) — оно, конечно, хорошо, но, если на выходе распознанный текст не идеинтичен оригинальному, то я считаю ,что точность распознавания недостаточная (хоть и технически можно объявить виноватой интерпритацию)  :)

Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄

 

БМВ

Модератор

Сообщений: 21385
Регистрация: 28.12.2016

Excel 2013, 2016

Off
Алексей, а кто сказал что в оригинале именно те буквы что вы ожидаете?
Какие буквы разрешены в гос номерах автомобилях и почему? ? точнее для чего? Были ж раньше ЛГ, ЛД….

По вопросам из тем форума, личку не читаю.

 

Jack Famous

Пользователь

Сообщений: 10852
Регистрация: 07.11.2014

OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome

#18

03.03.2020 15:33:26

Цитата
БМВ: кто сказал что в оригинале именно те буквы что вы ожидаете?

здравый смысл: все слова есть в словарях или известны, как употребимые, но пока не закреплённые. Торговые марки, конкретные модели и прочее также проверяются по списку — что это вообще за вопрос такой?))

Цитата
БМВ: Какие буквы разрешены в гос номерах автомобилях и почему?

те, которые имеют аналог написания в латинице, чтобы все менты прочитать могли в любой стране.
Хороший интерактивчик, только к чему вы ведёте?)))

Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄

 

БМВ

Модератор

Сообщений: 21385
Регистрация: 28.12.2016

Excel 2013, 2016

off
Я к тому что ВОТ <> BOT хотя и в русском есть предлог и в Eng слово. и  — игровой вот R2D2 читается и там и там, а уж смысл  — это не задача OCR.

По вопросам из тем форума, личку не читаю.

 

Jack Famous

Пользователь

Сообщений: 10852
Регистрация: 07.11.2014

OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome

#20

03.03.2020 16:08:09

БМВ, ну а писать в слове «поcадка» латинскую ЦЭ уж можно?))) иногда и такие ляпы бывают…
А так я же как раз и говорил, что

Цитата
Jack Famous: совсем без человека туфта получиться

Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄

 

bedvit

Пользователь

Сообщений: 2477
Регистрация: 02.04.2015

Виталий

#21

03.03.2020 19:45:47

Цитата
БМВ написал:
картинку в ворд на лист и запись в PDF. Открыть PDF вордом.

Интересный механизм, к сожалению ошибается.

Цитата
Андрей_26 написал:
Там вроде API есть

есть, но я так понял есть определенные ограничения, плюс это нестабильный источник, завтра может закрыться, вся обработка отвалится.

Цитата
doober написал:
попробуйте  Puma.NE

интересный продукт, почитаю внимательнее про него.
с .NET можно перейти на C++ (проще в свою библиотеку положить, при необходимости)
Хочу попробовать

Tesseract OCR

и

здесь можно скачать в собранном виде

Изменено: bedvit03.03.2020 19:50:51

«Бритва Оккама» или «Принцип Калашникова»?

 

bedvit

Пользователь

Сообщений: 2477
Регистрация: 02.04.2015

Виталий

#22

03.03.2020 19:56:37

Цитата
Jack Famous написал:
без человека туфта получиться

смотря какие задачи стоят. Для моей — вполне, даже необходимо. С проверкой на ошибки.

Цитата
Jack Famous написал:
Aiseesoft PDF Converter Ultimate,

бесплатная версия есть, ограничения, API?

«Бритва Оккама» или «Принцип Калашникова»?

 

БМВ

Модератор

Сообщений: 21385
Регистрация: 28.12.2016

Excel 2013, 2016

#23

03.03.2020 20:00:02

Цитата
bedvit написал:
Интересный механизм, к сожалению ошибается.

а так уже меньше

Прикрепленные файлы

  • KitCon4.docx (15.42 КБ)
  • KitCon4.pdf (179.45 КБ)

По вопросам из тем форума, личку не читаю.

 

bedvit

Пользователь

Сообщений: 2477
Регистрация: 02.04.2015

Виталий

doober, на странице Puma.NE, почему-то не удалось посмотреть исходники. Есть собранная библиотека?

«Бритва Оккама» или «Принцип Калашникова»?

 

doober

Пользователь

Сообщений: 2204
Регистрация: 09.04.2013

После установки в папке программы есть папка примеры
Залил на

яндекс

установщик

 

Jack Famous

Пользователь

Сообщений: 10852
Регистрация: 07.11.2014

OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome

#26

04.03.2020 08:52:21

Цитата
bedvit: бесплатная версия есть, ограничения, API?

тут не подскажу. Использовал полную и без взаимодействия с API

Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄

 

Tesseract бесплатный и работает.
Если есть деньги, лучше довериться enterprise решениям. Мне нравится (не реклама!):

https://www.abbyy.com/ru-ru/ocr-sdk/
https://docs.microsoft.com/ru-ru/azure/cognitive-services/computer-vision/

С уважением,
Федор/Все_просто

 

bedvit

Пользователь

Сообщений: 2477
Регистрация: 02.04.2015

Виталий

Сегодня по быстрому попытался систематизировать выше предоставленные данные.
Делал на двух примерах:

раз

,

два

1.OneNote 2016 — некоторые символы не распознаны

2.  

https://docs.microsoft.com/en-us/uwp/api/windows.media.ocr

MS — к сожалению написано, что

требуется

win10

3.»ABBYY PDF Transformer + , выпуск 12.0.104.225, артикул 1132.27″ — не пробовал в силу отсутствия данного продукта и необходимых ручных действий (возможно ли автоматизировать?)

4.»картинку в ворд на лист и запись в PDF. Открыть PDF вордом»- в Word2016 — один из рисунков не распознался совсем

5.Puma.NE — быстро не взлетело

6.

Tesseract

с настройками по умолчанию («Это просто позор какой-то» (с) т. Швондер.) — в одном из рисунков большая часть данных вообще не попала в итог.
Делал через командную строку итог выполнения программы

7. Первый попавшийся

онлайн-конвертер

, который работал по ссылке — первую распознал, вторую нет

Изменено: bedvit04.03.2020 20:11:38

«Бритва Оккама» или «Принцип Калашникова»?

 

bedvit

Пользователь

Сообщений: 2477
Регистрация: 02.04.2015

Виталий

doober, сможете Puma.NE протестировать? Разбирать код некогда (библы подключил, Студия 2017, проект запускал в папке Sample). Если результат будет, тогда гляну в чем там засада (если получится)

Изменено: bedvit04.03.2020 20:22:25

«Бритва Оккама» или «Принцип Калашникова»?

 

БМВ

Модератор

Сообщений: 21385
Регистрация: 28.12.2016

Excel 2013, 2016

#30

04.03.2020 20:23:13

Цитата
bedvit написал:
4.»картинку в ворд на лист и запись в PDF. Открыть PDF вордом»- в Word2016 — один из рисунков не распознался совсем

Виталий, не хватает контрастности для второго примера. Если повысить то распознается, а повысить не так и сложно

По вопросам из тем форума, личку не читаю.

При загрузке данных в Excel с веб-страниц порой оказывается, что некоторая необходимая нам информация (например, адреса электронной почты) представлена в графическом виде (текст на картинке).
Нам же, в таблице Excel, необходимо получить ту же информацию, но в текстовом виде, — т.е. каким-то образом распознать текст, изображенный на картинке.

Для этих целей существуют специальные OCR-программы (например, ABBYY FineReader, CuneiForm и т.д.), а также онлайн-сервисы (платные и бесплатные)

Поскольку нам в макросе надо распознать лишь несколько простеньких изображений, не имеет смысла устанавливать на компьютер специализированную программу OCR, — особенно с учётом того, что она стоит много денег.

Поэтому для нашей задачи мы воспользуемся бесплатным онлайн-сервисом newocr.com

Итак, изначально у нас имеется ссылка вида «http://site.ru/filename.jpeg«, по которой доступна для загрузки картинка с необходимым нам текстом.

Воспользуемся функцией newOCR, чтобы получить текст с этой картинки:

Sub testOCR()
    link$ = "http://autotransinfo.ru/img/46e0afd12df90e69efdc931c504f24e416135037.jpeg"
    Text$ = newOCR(link$)
    MsgBox "Результат: " & Text$
End Sub

Код функции newOCR:

Function newOCR(ByVal link As String) As String
    On Error Resume Next
    Set IE = CreateObject("InternetExplorer.Application")
    IE.Navigate "http://www.newocr.com/"
    While IE.Busy Or (IE.readyState <> 4): DoEvents: Wend
    Set IEdoc = IE.document
    IE.document.getElementById("url").value = link ' вставляем ссылку на изображение
    IE.document.getElementById("language").value = "eng" ' выбираем язык распознавания
    IE.document.getElementById("preview").Click ' нажимаем предпросмотр
    While IE.Busy Or (IE.readyState <> 4): DoEvents: Wend
 
    Err.Raise 555: Dim n As Long
    While Err > 0 And n < 10000 ' ждём, пока не появится кнопка ЩСК
        Err.Clear: DoEvents: n = n + 1
        IE.document.getElementById("ocr").Click ' жмём кнопку OCR
    Wend
    While IE.Busy Or (IE.readyState <> 4): DoEvents: Wend
 
    Err.Raise 555: n = 0
    While Err > 0 And n < 100000 ' ждём, пока не появится результат распознавания
        Err.Clear: DoEvents: n = n + 1
        newOCR = IE.document.getElementById("textarea").value ' читаем результат
    Wend
    IE.Quit
End Function

PS: Функция тестировалась на картинках, содержащих адреса почты.
Пример такой картинки:


Второй вариант функции — с использованием онлайн сервиса sciweavers.org

(кстати, функция onlineOCR работает быстрее предыдущей, но, увы, ошибок распознавания вроде бы больше)

Sub test_onlineOCR()
    link$ = "http://autotransinfo.ru/img/46e0afd12df90e69efdc931c504f24e416135037.jpeg"
    Text$ = onlineOCR(link$)
    Debug.Print "Результат: " & Text$
End Sub
 
Function onlineOCR(ByVal link As String) As String
    On Error Resume Next
    Set xmlhttp = CreateObject("Microsoft.XMLHTTP")
    xmlhttp.Open "POST", "http://www.sciweavers.org/process_form_i2ocr", "False"
    xmlhttp.setRequestHeader "If-Modified-Since", "Sat, 1 Jan 2000 00:00:00 GMT"    ' чтобы избежать кеширования
    Dim POST() As Byte, PostData$
    PostData = PostData & "i2ocr_options=" & RussianStringToURLEncode("url")
    PostData = PostData & "&i2ocr_uploadedfile=" & RussianStringToURLEncode(link)
    PostData = PostData & "&i2ocr_url=" & RussianStringToURLEncode(link)
    PostData = PostData & "&i2ocr_languages=" & RussianStringToURLEncode("gb")
    POST = StrConv(PostData, vbFromUnicode)
    xmlhttp.setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
    xmlhttp.send (POST): DoEvents
    If Val(xmlhttp.Status) <> 200 Then Exit Function
    URL2$ = Split(xmlhttp.responsetext, "$.get(""/")(1)
    URL2$ = "http://www.sciweavers.org/" & Split(URL2$, """, function")(0)
    xmlhttp.Open "GET", URL2$, "False":    xmlhttp.send: DoEvents
    If Val(xmlhttp.Status) = 200 Then onlineOCR = xmlhttp.responsetext
    Set xmlhttp = Nothing
End Function

Как выяснилось в результате тестирования функции onlineOCR (а тестирование проводилось на сотнях картинок типа вышеприведённой),
она хоть и работает значительно быстрее и стабильнее, но результат распознавания нельзя назвать удовлетворительным.
OnlineOCR путает такие символы, как 1, l, I, | (единица, строчная L, прописная i, вертикальная черта)

В то же время, функция newOCR работает медленно, и порой прекращает работать после нескольких распознаваний.
(требуется доработка кода — судя по всему, обращения выполняются слишком часто, и сервер даёт отказ, предлагая подождать несколько секунд)

Сделал сравнение результатов работы 2 этих онлайн-сервисов OCR:

сравнение работы онлайн-сервисов OCR

На скриншоте зеленым помечены правильно распознанные адреса электронной почты, красным — распознанные с ошибками.
Обратите внимание — первый адрес оба сервиса распознали ошибочно (поставили ноль вместо буквы O)

  • 46396 просмотров

Не получается применить макрос? Не удаётся изменить код под свои нужды?

Оформите заказ у нас на сайте, не забыв прикрепить примеры файлов, и описать, что и как должно работать.

Понравилась статья? Поделить с друзьями:
  • Распознавание текста pdf в word с возможностью редактирования
  • Распознавание страниц pdf в word
  • Распознавание скана в word онлайн
  • Распознавание скана pdf в word
  • Распознавание рисунка в текст word