Aspose.OCR
С помощью функции распознавания текста Excel можно автоматически загружать извлеченные данные в файлы Microsoft Excel. Оптическое распознавание символов позволяет распознавать текст на изображениях. Excel OCR также поддерживает обнаружение и извлечение таблиц из изображений и преобразование их в электронную таблицу или Microsoft Excel в виде электронной таблицы. Лучше всего то, что он устраняет необходимость вручную вводить данные из изображения в электронную таблицу. Это также помогает хранить данные в редактируемом формате, чтобы вы могли изменять их в любое время.
Наша передовая технология OCR позволяет извлекать текстовые данные из отсканированного документа. Если вы загрузите отсканированный PDF-файл, механизм преобразования распознает его и запустит на нем технологию OCR. Все, что вам нужно сделать, это загрузить отсканированный PDF-файл, а все остальное оставить на усмотрение нашей технологии. Как только преобразование будет завершено, вы можете загрузить преобразованный файл в формате .xlsx и редактировать его дальше в Excel.
Это бесплатное приложение предоставлено
Aspose.OCR
Как распознать Excel по изображению таблицы
Шаг 1
Загрузите свое изображение
Щелкните внутри области размещения файла, чтобы загрузить файл таблицы, или перетащите файл таблицы.
Шаг 2
Начать процесс распознавания
Нажмите кнопку «Начать распознавание текста», чтобы извлечь Excel из табличного файла.
Шаг 3
Подожди несколько секунд
Результаты распознавания будут отображаться сразу после завершения процесса распознавания текста.
Шаг 4
Получить результат
Сохраните извлеченный xls или отправьте ссылку на полученный файл на свой адрес электронной почты.
Часто задаваемые вопросы
Можем ли мы преобразовать PNG в Excel?
Щелкните внутри области размещения файла, чтобы загрузить файл PNG, или перетащите файл PNG. Щелкните по кнопке Convert. Ваши файлы PNG будут загружены и преобразованы в формат результата XLS. Вы также можете отправить ссылку на файл XLS на свой адрес электронной почты.
Что такое OCR?
OCR (оптическое распознавание символов) — это технология, используемая для оцифровки документов и изображений, то есть преобразования изображений в текст. Наше бесплатное приложение для преобразования таблиц в текст использует движок Aspose.OCR для извлечения текста из загруженных файлов таблиц.
Является ли Aspose Excel OCR бесплатным?
Наши приложения для оптического распознавания текста абсолютно бесплатны. Не стесняйтесь использовать его столько, сколько хотите.
Могу ли я распознавать таблицы в Linux, Mac OS или Android?
Excel OCR работает онлайн и не требует установки программного обеспечения.
Зачем нужно OCR?
Технология оптического распознавания символов (OCR) — это бизнес-решение для автоматизации извлечения данных из печатного или письменного текста из отсканированного документа или файла изображения с последующим преобразованием текста в машиночитаемую форму, которая будет использоваться для обработки данных, такой как редактирование или поиск.
Может ли OCR читать Excel?
Основная идея заключается в том, что вы можете использовать камеру устройства, чтобы сфотографировать документ, например квитанцию, а затем использовать оптическое распознавание текста для извлечения данных из фотографии. Затем эти данные можно прочитать в электронную таблицу Excel.
Функции, которые вам понравятся
Быстрое и простое распознавание текста
Загрузите изображения и нажмите кнопку «Pапустить OCR», чтобы преобразовать изображения в текст. Вы получите результат, как только будет выполнено распознавание текста.
Выполняйте распознавание текста из любого места
Он работает на всех платформах, включая Windows, Mac, Android и iOS. Все файлы обрабатываются на наших серверах. Вам не требуются плагины, установка программного обеспечения или аппаратные ресурсы.
Высокое качество распознавания
Все файлы обрабатываются с использованием API Aspose, которые используются многими компаниями из списка Fortune 100 в 114 странах.
Автоматическое определение макета документа
Вам не нужно беспокоиться о ручной настройке расположения текстовых областей. Наш алгоритм автоматического определения макета документа работает автоматически.
Расширенная коррекция перекоса и улучшение изображения
OCR может успешно считывать сканы низкого качества и выполнять автоматическую предварительную обработку изображений для исправления низкого разрешения, низкой контрастности, шума и перекоса.
Высокая скорость без ресурсов
Не беспокойтесь об оборудовании, все вычислительные операции выполняются на нашей стороне. Мы используем высоконадежные и высокопроизводительные серверы на базе графических процессоров для размещения нашего ядра, построенного на новейших быстрых нейронных сетях.
Содержание
- Как отсканировать документ в excel
- Распознавание текста (OCR). Онлайн и бесплатно
- Преобразование отсканированных документов и изображений в редактируемые форматы Word, Pdf, Excel и Txt (простой текст)
- Доступно страниц: 10 (Вы уже использовали 0 страниц)
- Как распознать текст с изображения?
- Загрузите изображения или PDF-файлы
- Язык и формат
- Конвертируйте и скачивайте
- Как сканировать документы в Excel — Вокруг-Дом — 2021
- Начальное сканирование документов Word
- Внешний Конвертер
- Сканирование в Excel
- Как сфотографировать электронную таблицу и импортировать ее в Excel
- Как отсканировать таблицу в документ Excel:
- Как перенести таблицу из бумажного документа на компьютер?
- Как перенести сложный документ на компьютер в цифровом виде?
- Простейший способ перенести документ в «Эксель»
- Где скачать приложение Excel?
- Какой телефон потребуется?
- Что нужно сделать ещё?
- Инструкция, как перенести таблицы с бумаги в цифру
- Способ перенести много документов на компьютер
- Как конвертировать PDF-изображение в Excel
- Инструкция по конвертированию PDF-изображений в Excel
- Шаг 1. Импорт PDF-файла
- Шаг 2. Включение функции распознавания текста
- Шаг 3. Настройка распознавания текста
- Шаг 4. Конвертирование PDF-изображения в Excel
- Видео о том, как конвертировать PDF-изображение в Excel с помощью PDFelement
- Способ 2: Конвертирование PDF-изображений в Excel с помощью PDF Converter Pro
- Шаг 1. Загрузите PDF-изображение.
- Шаг 2. Выберите Excel в качестве выходного формата
- Шаг 3. Конвертирование PDF-изображения в таблицу Excel
Как отсканировать документ в excel
Распознавание текста (OCR). Онлайн и бесплатно
Преобразование отсканированных документов и изображений в редактируемые форматы Word, Pdf, Excel и Txt (простой текст)
Доступно страниц: 10 (Вы уже использовали 0 страниц)
Если вам нужно распознать больше страниц, пожалуйста, зарегистрируйтесь
Поддерживаемые форматы файлов:
pdf, jpg, bmp, gif, jp2, jpeg, pbm, pcx, pgm, png, ppm, tga, tiff, wbmp
- Китайский OCR
- Немецкий OCR
- Нидерландский OCR
- Английский OCR
- Французский OCR
- Итальянский OCR
Выберите все языки, используемые в документе
Формат и настройки выбора
Как распознать текст с изображения?
Загрузите изображения или PDF-файлы
Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу
Язык и формат
Выберите все языки, используемые в документе. Кроме того, выберите .doc или любой другой формат, который вам нужен в результате (поддерживается больше 10 текстовых форматов)
Конвертируйте и скачивайте
Нажмите «Распознать», и вы можете сразу загрузить распознанный текстовый файл
Как сканировать документы в Excel — Вокруг-Дом — 2021
Table of Contents:
В таблицах Excel подробно описываются поля и то, как они заполняются данными. Сканирование документов в Excel возможно, и в некоторых случаях вы даже можете конвертировать PDF в Excel. Тем не менее, не все типы документов конвертируются в электронную таблицу Excel. Вам также может быть сложно сканировать данные в документ точно. Для некоторых полей могут потребоваться ручные настройки для правильной работы. Сканирование экономит значительное время, потому что ваши данные не требуют ручного ввода, но вам нужно вставить любые соответствующие формулы после сканирования информации.
кредит: anyaberkut / iStock / GettyImages
Начальное сканирование документов Word
Сканирование документа в Microsoft Word перед его передачей в Excel является хорошей практикой. Вы также можете использовать OneNote. Внедрение данных в документ Word позволяет копировать и вставлять определенные строки и столбцы в Excel. Метод ввода занимает немного больше времени, чем прямой импорт в Excel, но он позволяет вам работать с данными и следить за тем, чтобы они входили в Excel, как предполагалось. В ситуации прямого сканирования в Excel данные могут не выравниваться по строкам и столбцам должным образом. Внести необходимые коррективы после факта сложнее, чем начать с новой электронной таблицы и извлечь содержимое из Word.
Внешний Конвертер
Конвертеры документов не являются верным выбором, но в Интернете есть бесплатные версии, и они могут работать. Отсканируйте документ, который вы хотите конвертировать, и сохраните его в формате PDF. Затем найдите бесплатный конвертер документов. Многочисленные варианты легко доступны. Загрузите PDF в конвертер, и программа выполнит конвертацию. Большинство бесплатных конвертеров работают в веб-браузере и генерируют электронную таблицу для загрузки. Другие просят вас загрузить программное обеспечение. Хотя эта опция не обязательно плохая, работа в браузере экономит место на диске и является лучшим маршрутом.
Сканирование в Excel
Вы также можете сканировать в Excel напрямую через Microsoft. Получите доступ к инструментам Microsoft Office и откройте Microsoft Office Document Imaging. Нажмите «Файл» и «Открыть», а затем выберите документ. Посмотрите на правый нижний угол экрана и найдите значок глазного яблока. Наведите указатель мыши на этот значок, и он должен отобразить «OCR» или «Оптическое распознавание символов». Нажмите на значок, чтобы запустить сканирование через процесс распознавания символов. Затем выделите весь документ, скопируйте его и вставьте в Excel. Вы все еще можете вставить результаты в документ Word, чтобы сначала обработать данные, прежде чем вводить их в Excel.
Источник
Как сфотографировать электронную таблицу и импортировать ее в Excel
Microsoft реализовали функцию в Office 365, которую мы ждали много лет. Теперь при помощи мобильного приложения Excel можно сфотографировать таблицу и распознать её с возможностью внести изменения .
UPD: сначала функция была доступна только в приложении для Android, однако, теперь она есть и на iOS. Функционал простой и показан на видео, отсканированную таблицу можно легко редактировать в Excel.
Инструмент доступен только владельцам подписки Office 365.
Как отсканировать таблицу в документ Excel:
- Скачать последнюю версию приложения Office 365 Microsoft Excel. В нём создать новую таблицу или открыть существующую.
- На панели инструментов на нижней части экрана нажать на значок таблицы с камерой.
- Приложение запустит камеру смартфона. Нужно сделать снимок таблицы или загрузить её фото из памяти устройства, а затем выделить нужную область.
- После этого откроется окно проверки данных: в верхней части экрана будет предварительный просмотр электронной версии таблицы, а под ним — снимок оригинальной таблицы.
- Excel предупредит, если заподозрит наличие ошибок. Пользователь сможет исправить их самостоятельно.
CNBC отмечает, что инструмент отлично справляется с небольшими таблицами, в которых несколько столбцов, но при оцифровке больших таблиц в электронном документе будут «сотни ошибок», которые придётся исправить вручную. Тем не менее технология помогает экономить время, избавляя от необходимости переносить всё вручную, указывает издание.
Источник
Как перенести таблицу из бумажного документа на компьютер?
Обычно предприятия и офисы квитанции или ведомости на бумажных документах переносят на компьютер в «Эксель» или Access вручную.
Ручная обработка сотни таблиц (в разных стилях и форматах) силами сотрудников занимает весь рабочтий день (до 10 часов труда), и вы платите им за это зарплату!
Можно ли автоматизировать и распознать таблицу онлайн, например? Ведь живые сотрудники куда нужнее в других более важных делах!
Как перенести сложный документ на компьютер в цифровом виде?
В большинстве случаев вам подойдёт самый простой вариант с использованием смартфона. Приложение Microsoft Excel для Android и iOS с недавних пор умеет распознавать таблицы онлайн, из бумажных документов через камеру или даже ПДФ-таблицы. Программа устанавливается на телефон и анализирует изображение, а затем импортирует данные в цифровом виде.
Хотя это не единственный метод. Если вы столкнулись с проблемой оцифровки документов, то предлагаем узнать два основных способа, как это сделать за минимальное время.
Простейший способ перенести документ в «Эксель»
Для переноса данных бумажной квитанции, ведомости или любых данных, отпечатанных в виде таблицы на бумаге в цифровой вид также структурировано предлагаем использовать новую возможность мобильного приложения Microsoft Excel.
Где скачать приложение Excel?
Внутри мобильного приложения есть платная подписка на Office 365, которая в нашей задаче не требуется. Она даёт только следующие улучшенные функции:
- кастомизация визуальной части таблиц;
- больше инструментов по фигурам;
- расширенные функции форматирования;
- карты данных;
- кастомизация диаграмм;
- объекты SmartArt;
- работа с форматом защиты IRM.
Какой телефон потребуется?
Для быстрого результата лучше всего использовать самый современный смартфон или планшет, которым вы располагаете на предприятии.
Чем более мощный чипсет, чем больше оперативной памяти и чем лучше (а главное светочувствительнее) камера, тем быстрее будет процесс оцифровки и тем меньше он будет зависеть от смазанных снимков и задумчивости аппаратной части при обработке кадров.
Также потребуется свободное место во внутренней файловой системе устройства.
Что нужно сделать ещё?
Идеально, если у вас в офисе настроен Wi-Fi. Передача графических файлов между телефоном и компьютером по мобильной Cellular-сети выльется в дополнительные затраты на трафик и будет происходить дольше.
Инструкция, как перенести таблицы с бумаги в цифру
Запустите приложение Microsoft Excel, разрешив ему все необходимые действия (доступ к файловой системе и к камере).
Выберите «Вставка данных из рисунка».
Сделайте фотографию ведомости так, чтобы появилась красная рамка вокруг данных.
Прямо на экране определяйте область размещения таблицы (автоматика не всегда корректно выбирает размеры).
Основанный на машинном обучении искусственный интеллект Microsoft Excel автоматически обработает фотографию и «перегонит» данные в таблицу.
При импорте данных любые проблемы с распознаванием выводятся для ручной коррекции — отредактируйте ошибки через кнопку «Правка», а если их нет, то выберите «Пропустить».
Чтобы минимизировать количество ошибок, держите телефон ровно (или разместите его на специальном креплении — штативе) и включите весь свет, который возможен в помещении.
Как только работа с импортом будет завершена, выберите кнопку «Вставить».
Это финальный этап распознавания. Как только будут готовы все Excel-таблицы, переносите их на компьютер. Далее просто копируйте структурированные данные из Excel и вставляйте в Access (или другой софт, которым вы пользуетесь для редактирования ведомостей и документов).
Способ перенести много документов на компьютер
Второй способ подходит к крупным предприятиям и заключается в автоматизации распознавания текста и таблиц на изображении с некоторыми гарантиями результата. Для этого приобретается мощный софт (например, ABBY FineReader, у него есть также бесплатная версия — Screenshot Reader) или нанимается разработчик (штатный или на ИТ-аутсорсинге).
Для автоматизации процесса с большим количеством таблиц на бумажных носителях помимо самого софта потребуется участие программиста, который подготовит скриптовую часть.
Разработкой таких решений могут заняться фрилансеры или специалисты ИТ-аутсорсинговой компании. Напишите нам в ZEL-Услуги, если вас интересуют такого рода задачи, чтобы снизить затраты на рутину — подготовим коммерческое предложение под особенности и условия вашего бизнеса.
Источник
Как конвертировать PDF-изображение в Excel
Вам нужно извлечь данные из отсканированного PDF-отчета? Если это так, то, вероятно, вам будет полезно узнать, как конвертировать PDF-изображение в Excel. Благодаря функции распознавания оптических символов (OCR) это возможно! При сканировании документа в формат PDF-файла его содержимое будет автоматически сохранено в виде изображения. Для извлечения содержащихся в нем данных вам нужно будет выполнить распознавание текста. Не во всех PDF-конвертерах есть функция распознавания текста (OCR). При ее отсутствии вам придется преобразовать отсканированный PDF-файл в электронную таблицу Excel. Но, к счастью, в PDFelement есть функция распознавания текста. Это один из лучших конвертеров PDF-изображений в Excel из представленных на рынке, поэтому с его помощью вы можете легко конвертировать PDF-изображение в Excel.
Инструкция по конвертированию PDF-изображений в Excel
PDFelement предлагает вам самый простой способ для успешного преобразования отсканированного PDF-изображения в Excel. Благодаря встроенной функции оптического распознавания символов (OCR) вы можете преобразовать изображение в формате PDF в редактируемый PDF-файл, который затем можно преобразовать в редактируемый файл excel.
Шаг 1. Импорт PDF-файла
После запуска PDFelement перетащите отсканированный PDF-файл в окно программы, чтобы открыть его, или нажмите кнопку «Открыть файл . », чтобы выбрать файл на вашем компьютере.
Шаг 2. Включение функции распознавания текста
После открытия отсканированного PDF-документа в верхней части экрана появится панель с рекомендацией выполнить распознавание текста (OCR). Вы можете либо нажать кнопку «Выполнить распознавание текста» на панели уведомлений, либо перейти на вкладку «Редактировать» и нажать кнопку «Распознавание текста».
Шаг 3. Настройка распознавания текста
Затем вы увидите всплывающее окно распознавания текста. Выберите параметр «Редактируемый текст» и нажмите кнопку «Изменить язык», чтобы выбрать язык в соответствии с содержанием вашего PDF. Также вы можете нажать кнопку «Настроить страницы», чтобы указать диапазон страниц вашего PDF-изображения, на которых необходимо выполнить распознавание текста (OCR).
Шаг 4. Конвертирование PDF-изображения в Excel
Редактируемый PDF-документ будет открыт в программе автоматически после завершения процесса распознавания. Вы можете сохранить его. Перейдите на вкладку «Главная» и нажмите кнопку «В Excel» для конвертирования файла. Вы также можете выбрать папку для сохранения преобразованного файла. После завершения конвертирования вы можете открыть преобразованный файл excel для непосредственного использования или извлечения данных.
PDFelement – один из лучших инструментов для конвертирования PDF-изображений в Excel из представленных на рынке. Вы можете конвертировать отсканированное PDF-изображение в excel легко и быстро. Есть масса преимуществ в использовании этой программы для преобразования отсканированного PDF-изображения в файл Excel.
Вот эти преимущества:
- Работа на различных платформах, включая iOS, Mac и Windows 10/8/7.
- Отличное разрешение даже при распознавании символов в больших файлах.
- Более 100 языков распознавания текста (OCR).
- Плагин распознавания текста (OCR) хорошо понимает символы клавиатуры, что делает эту программу лучшим решением для преобразования PDF в Excel.
- Более высокая скорость конвертирования и возможность пакетной обработки файлов для повышения эффективности.
Видео о том, как конвертировать PDF-изображение в Excel с помощью PDFelement
Способ 2: Конвертирование PDF-изображений в Excel с помощью PDF Converter Pro
Для преобразования PDF-изображений в Excel вы также можете использовать PDF Converter Pro. Это один из лучших конвертеров PDF-изображений в Excel, предназначенный для преобразования PDF в различные форматы с помощью функции распознавания текста (OCR). Нажмите ниже, чтобы бесплатно загрузить конвертер PDF-изображений в Excel.
PDF Converter Pro – это еще одна программа для конвертирования отсканированных PDF-изображений в Excel с помощью функции распознавания текста (OCR), с помощью которой вы можете преобразовывать в Excel файлы изображений. Использование этой программы позволит сделать вашу работу эффективнее и проще.
Шаг 1. Загрузите PDF-изображение.
После запуска Wondershare PDF Converter Pro перетащите в нее файлы изображений в формате PDF. Программа также поддерживает пакетное преобразование файлов, поэтому вы можете добавить несколько PDF-изображений одновременно. После загрузки отсканированных PDF-файлов в программу появится всплывающее диалоговое окно с просьбой выбрать язык для распознавания ваших PDF-документов. Установите флажок и нажмите кнопку «Включить распознавание текста».
Шаг 2. Выберите Excel в качестве выходного формата
В раскрывающегося списка справа от окна конвертера PDF-изображений в excel выберите Microsoft Excel в качестве выходного формата файла.
Шаг 3. Конвертирование PDF-изображения в таблицу Excel
Нажмите кнопку «Конвертировать», чтобы начать процесс преобразования PDF-изображения в Excel. Процесс распознавания текста может занять несколько минут. Вот и все! Через несколько минут вы преобразованные редактируемые документы excel появятся в выходной папке. Готово! Загрузите Wondershare PDF Converter Pro для конвертирования PDF-изображений в Excel!
Источник
Преобразование отсканированных документов и изображений в редактируемые форматы Word, Pdf, Excel и Txt (простой текст)
Доступно страниц: 10 (Вы уже использовали 0 страниц)
Если вам нужно распознать больше страниц, пожалуйста, зарегистрируйтесь
Загрузите файлы для распознавания или перетащите их на эту страницу
Поддерживаемые форматы файлов:
pdf, jpg, bmp, gif, jp2, jpeg, pbm, pcx, pgm, png, ppm, tga, tiff, wbmp
- Китайский OCR
- Немецкий OCR
- Нидерландский OCR
- Английский OCR
- Французский OCR
- Итальянский OCR
Как распознать текст с изображения?
Шаг 1
Загрузите изображения или PDF-файлы
Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу
Шаг 2
Язык и формат
Выберите все языки, используемые в документе. Кроме того, выберите .doc или любой другой формат, который вам нужен в результате (поддерживается больше 10 текстовых форматов)
Шаг 3
Конвертируйте и скачивайте
Нажмите «Распознать», и вы можете сразу загрузить распознанный текстовый файл
bedvit Пользователь Сообщений: 2477 Виталий |
Всем привет! простой текст по ссылке. Статью Игоря читал — не взлетает такое решение. «Бритва Оккама» или «Принцип Калашникова»? |
PooHkrd Пользователь Сообщений: 6602 Excel x64 О365 / 2016 / Online / Power BI |
#2 02.03.2020 17:37:50 А в какой версии Экселя оно должно работать? А то я видел что в OneNote 2010+ есть встроенный OCR, может к этому функционалу как-то можно обратиться через объектную модель в VBA? Я по ссылке особо не лазил, но возможно почерпнете себе что-то полезное.
Изменено: PooHkrd — 02.03.2020 17:53:49 Вот горшок пустой, он предмет простой… |
|
bedvit Пользователь Сообщений: 2477 Виталий |
Версии 2010-2016х64. Смотрю, нули он не любит ) «Бритва Оккама» или «Принцип Калашникова»? |
Андрей_26 Пользователь Сообщений: 647 |
Попробуйте здесь . Единственное без регистрации доступно только 10 страниц. Результат сохраняет в Word, потом можно скопировать данные и вставить в excel. Но главное все цифры правильно определились. |
PooHkrd Пользователь Сообщений: 6602 Excel x64 О365 / 2016 / Online / Power BI |
bedvit, всегда интересно когда вижу такие задачки: это просто такая хотелка заказчика, или в сети реально больше нет нормальных источников для получения этих котировок без танцев с бубном? Вот горшок пустой, он предмет простой… |
БМВ Модератор Сообщений: 21385 Excel 2013, 2016 |
bedvit, Виталий, может надо взглянуть на систему более тщательно? https://docs.microsoft.com/en-us/uwp/api/windows.media.ocr MS туда чего только не запихнул. Изменено: БМВ — 02.03.2020 19:22:38 По вопросам из тем форума, личку не читаю. |
Kuzmich Пользователь Сообщений: 7998 |
#7 02.03.2020 19:36:46
Использую ABBYY PDF Transformer + , выпуск 12.0.104.225, артикул 1132.27 Прикрепленные файлы
|
||
bedvit Пользователь Сообщений: 2477 Виталий |
PooHkrd, для данных в реальном времени — перерыл разные источники не нашел, возможно это платные API на биржевых платформах, а платить никто не хочет. «Бритва Оккама» или «Принцип Калашникова»? |
БМВ Модератор Сообщений: 21385 Excel 2013, 2016 |
а вот так word Прикрепленные файлы
По вопросам из тем форума, личку не читаю. |
Андрей_26 Пользователь Сообщений: 647 |
#10 03.03.2020 11:23:26
Там вроде API есть |
||
Jack Famous Пользователь Сообщений: 10852 OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome |
#11 03.03.2020 11:49:06
совсем без человека туфта получиться — НЕТ ещё таких надёжных технологий оптического распознавания… Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄ |
||
БМВ Модератор Сообщений: 21385 Excel 2013, 2016 |
#12 03.03.2020 13:16:10
Алексей, контрастность повыше и от 400 dpi и машинный текст ра познается давно очень четко. Друкое дело что на примере есть проблемы и с тем и с другим По вопросам из тем форума, личку не читаю. |
||
doober Пользователь Сообщений: 2204 |
bedvit попробуйте Puma.NE Для Вас не составит труда приспособить под свои нужды, есть пример на шарпе. |
Jack Famous Пользователь Сообщений: 10852 OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome |
#14 03.03.2020 14:50:54
а как же обстоят дела со спецификациями типа Насос Dunfoss ME456FS Ду125 PE (выдуманная строка для демонстрации смешанного текста)? Это я не говорю про распознавание таблиц из отсканированных PDF со сдвигами и прочими «радостями» — ограничился только примером
Aiseesoft PDF Converter Ultimate, т.к. показал себя несколько лучше FineReader на тестах, но это такой холивар, который сильно зависит от исходных данных Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄ |
||||
БМВ Модератор Сообщений: 21385 Excel 2013, 2016 |
Jack Famous, Алексей, По вопросам из тем форума, личку не читаю. |
Jack Famous Пользователь Сообщений: 10852 OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome |
#16 03.03.2020 15:07:19
по-моему вы рака за камень заводите Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄ |
||
БМВ Модератор Сообщений: 21385 Excel 2013, 2016 |
Off По вопросам из тем форума, личку не читаю. |
Jack Famous Пользователь Сообщений: 10852 OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome |
#18 03.03.2020 15:33:26
здравый смысл: все слова есть в словарях или известны, как употребимые, но пока не закреплённые. Торговые марки, конкретные модели и прочее также проверяются по списку — что это вообще за вопрос такой?))
те, которые имеют аналог написания в латинице, чтобы все менты прочитать могли в любой стране. Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄ |
||||
БМВ Модератор Сообщений: 21385 Excel 2013, 2016 |
off По вопросам из тем форума, личку не читаю. |
Jack Famous Пользователь Сообщений: 10852 OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome |
#20 03.03.2020 16:08:09 БМВ, ну а писать в слове «поcадка» латинскую ЦЭ уж можно?))) иногда и такие ляпы бывают…
Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄ |
||
bedvit Пользователь Сообщений: 2477 Виталий |
#21 03.03.2020 19:45:47
Интересный механизм, к сожалению ошибается.
есть, но я так понял есть определенные ограничения, плюс это нестабильный источник, завтра может закрыться, вся обработка отвалится.
интересный продукт, почитаю внимательнее про него. Tesseract OCR и здесь можно скачать в собранном виде Изменено: bedvit — 03.03.2020 19:50:51 «Бритва Оккама» или «Принцип Калашникова»? |
||||||
bedvit Пользователь Сообщений: 2477 Виталий |
#22 03.03.2020 19:56:37
смотря какие задачи стоят. Для моей — вполне, даже необходимо. С проверкой на ошибки.
бесплатная версия есть, ограничения, API? «Бритва Оккама» или «Принцип Калашникова»? |
||||
БМВ Модератор Сообщений: 21385 Excel 2013, 2016 |
#23 03.03.2020 20:00:02
а так уже меньше Прикрепленные файлы
По вопросам из тем форума, личку не читаю. |
||
bedvit Пользователь Сообщений: 2477 Виталий |
doober, на странице Puma.NE, почему-то не удалось посмотреть исходники. Есть собранная библиотека? «Бритва Оккама» или «Принцип Калашникова»? |
doober Пользователь Сообщений: 2204 |
После установки в папке программы есть папка примеры яндекс установщик |
Jack Famous Пользователь Сообщений: 10852 OS: Win 8.1 Корп. x64 | Excel 2016 x64: | Browser: Chrome |
#26 04.03.2020 08:52:21
тут не подскажу. Использовал полную и без взаимодействия с API Во всех делах очень полезно периодически ставить знак вопроса к тому, что вы с давних пор считали не требующим доказательств (Бертран Рассел) ►Благодарности сюда◄ |
||
Tesseract бесплатный и работает. https://www.abbyy.com/ru-ru/ocr-sdk/ С уважением, |
|
bedvit Пользователь Сообщений: 2477 Виталий |
Сегодня по быстрому попытался систематизировать выше предоставленные данные. раз , два 1.OneNote 2016 — некоторые символы не распознаны 2. https://docs.microsoft.com/en-us/uwp/api/windows.media.ocr MS — к сожалению написано, что требуется win10 3.»ABBYY PDF Transformer + , выпуск 12.0.104.225, артикул 1132.27″ — не пробовал в силу отсутствия данного продукта и необходимых ручных действий (возможно ли автоматизировать?) 4.»картинку в ворд на лист и запись в PDF. Открыть PDF вордом»- в Word2016 — один из рисунков не распознался совсем 5.Puma.NE — быстро не взлетело 6. Tesseract с настройками по умолчанию («Это просто позор какой-то» (с) т. Швондер.) — в одном из рисунков большая часть данных вообще не попала в итог. 7. Первый попавшийся онлайн-конвертер , который работал по ссылке — первую распознал, вторую нет Изменено: bedvit — 04.03.2020 20:11:38 «Бритва Оккама» или «Принцип Калашникова»? |
bedvit Пользователь Сообщений: 2477 Виталий |
doober, сможете Puma.NE протестировать? Разбирать код некогда (библы подключил, Студия 2017, проект запускал в папке Sample). Если результат будет, тогда гляну в чем там засада (если получится) Изменено: bedvit — 04.03.2020 20:22:25 «Бритва Оккама» или «Принцип Калашникова»? |
БМВ Модератор Сообщений: 21385 Excel 2013, 2016 |
#30 04.03.2020 20:23:13
Виталий, не хватает контрастности для второго примера. Если повысить то распознается, а повысить не так и сложно По вопросам из тем форума, личку не читаю. |
||
При загрузке данных в Excel с веб-страниц порой оказывается, что некоторая необходимая нам информация (например, адреса электронной почты) представлена в графическом виде (текст на картинке).
Нам же, в таблице Excel, необходимо получить ту же информацию, но в текстовом виде, — т.е. каким-то образом распознать текст, изображенный на картинке.
Для этих целей существуют специальные OCR-программы (например, ABBYY FineReader, CuneiForm и т.д.), а также онлайн-сервисы (платные и бесплатные)
Поскольку нам в макросе надо распознать лишь несколько простеньких изображений, не имеет смысла устанавливать на компьютер специализированную программу OCR, — особенно с учётом того, что она стоит много денег.
Поэтому для нашей задачи мы воспользуемся бесплатным онлайн-сервисом newocr.com
Итак, изначально у нас имеется ссылка вида «http://site.ru/filename.jpeg«, по которой доступна для загрузки картинка с необходимым нам текстом.
Воспользуемся функцией newOCR, чтобы получить текст с этой картинки:
Sub testOCR() link$ = "http://autotransinfo.ru/img/46e0afd12df90e69efdc931c504f24e416135037.jpeg" Text$ = newOCR(link$) MsgBox "Результат: " & Text$ End Sub
Код функции newOCR:
Function newOCR(ByVal link As String) As String On Error Resume Next Set IE = CreateObject("InternetExplorer.Application") IE.Navigate "http://www.newocr.com/" While IE.Busy Or (IE.readyState <> 4): DoEvents: Wend Set IEdoc = IE.document IE.document.getElementById("url").value = link ' вставляем ссылку на изображение IE.document.getElementById("language").value = "eng" ' выбираем язык распознавания IE.document.getElementById("preview").Click ' нажимаем предпросмотр While IE.Busy Or (IE.readyState <> 4): DoEvents: Wend Err.Raise 555: Dim n As Long While Err > 0 And n < 10000 ' ждём, пока не появится кнопка ЩСК Err.Clear: DoEvents: n = n + 1 IE.document.getElementById("ocr").Click ' жмём кнопку OCR Wend While IE.Busy Or (IE.readyState <> 4): DoEvents: Wend Err.Raise 555: n = 0 While Err > 0 And n < 100000 ' ждём, пока не появится результат распознавания Err.Clear: DoEvents: n = n + 1 newOCR = IE.document.getElementById("textarea").value ' читаем результат Wend IE.Quit End Function
PS: Функция тестировалась на картинках, содержащих адреса почты.
Пример такой картинки:
Второй вариант функции — с использованием онлайн сервиса sciweavers.org
(кстати, функция onlineOCR работает быстрее предыдущей, но, увы, ошибок распознавания вроде бы больше)
Sub test_onlineOCR() link$ = "http://autotransinfo.ru/img/46e0afd12df90e69efdc931c504f24e416135037.jpeg" Text$ = onlineOCR(link$) Debug.Print "Результат: " & Text$ End Sub Function onlineOCR(ByVal link As String) As String On Error Resume Next Set xmlhttp = CreateObject("Microsoft.XMLHTTP") xmlhttp.Open "POST", "http://www.sciweavers.org/process_form_i2ocr", "False" xmlhttp.setRequestHeader "If-Modified-Since", "Sat, 1 Jan 2000 00:00:00 GMT" ' чтобы избежать кеширования Dim POST() As Byte, PostData$ PostData = PostData & "i2ocr_options=" & RussianStringToURLEncode("url") PostData = PostData & "&i2ocr_uploadedfile=" & RussianStringToURLEncode(link) PostData = PostData & "&i2ocr_url=" & RussianStringToURLEncode(link) PostData = PostData & "&i2ocr_languages=" & RussianStringToURLEncode("gb") POST = StrConv(PostData, vbFromUnicode) xmlhttp.setRequestHeader "Content-Type", "application/x-www-form-urlencoded" xmlhttp.send (POST): DoEvents If Val(xmlhttp.Status) <> 200 Then Exit Function URL2$ = Split(xmlhttp.responsetext, "$.get(""/")(1) URL2$ = "http://www.sciweavers.org/" & Split(URL2$, """, function")(0) xmlhttp.Open "GET", URL2$, "False": xmlhttp.send: DoEvents If Val(xmlhttp.Status) = 200 Then onlineOCR = xmlhttp.responsetext Set xmlhttp = Nothing End Function
Как выяснилось в результате тестирования функции onlineOCR (а тестирование проводилось на сотнях картинок типа вышеприведённой),
она хоть и работает значительно быстрее и стабильнее, но результат распознавания нельзя назвать удовлетворительным.
OnlineOCR путает такие символы, как 1, l, I, | (единица, строчная L, прописная i, вертикальная черта)
В то же время, функция newOCR работает медленно, и порой прекращает работать после нескольких распознаваний.
(требуется доработка кода — судя по всему, обращения выполняются слишком часто, и сервер даёт отказ, предлагая подождать несколько секунд)
Сделал сравнение результатов работы 2 этих онлайн-сервисов OCR:
На скриншоте зеленым помечены правильно распознанные адреса электронной почты, красным — распознанные с ошибками.
Обратите внимание — первый адрес оба сервиса распознали ошибочно (поставили ноль вместо буквы O)
- 46396 просмотров
Не получается применить макрос? Не удаётся изменить код под свои нужды?
Оформите заказ у нас на сайте, не забыв прикрепить примеры файлов, и описать, что и как должно работать.