Парсер баз данных excel

Парсинг нетабличных данных с сайтов

Проблема с нетабличными данными

С загрузкой в Excel табличных данных из интернета проблем нет. Надстройка Power Query в Excel легко позволяет реализовать эту задачу буквально за секунды. Достаточно выбрать на вкладке Данные команду Из интернета (Data — From internet), вставить адрес нужной веб-страницы (например, ключевых показателей ЦБ) и нажать ОК:

Импорт данных с веб-страницы через Power Query

Power Query автоматически распознает все имеющиеся на веб-странице таблицы и выведет их список в окне Навигатора:

Выбираем таблицу на сайте для импорта

Дальше останется выбрать нужную таблицу методом тыка и загрузить её в Power Query для дальнейшей обработки (кнопка Преобразовать данные) или сразу на лист Excel (кнопка Загрузить).

Если с нужного вам сайта данные грузятся по вышеописанному сценарию — считайте, что вам повезло.

К сожалению, сплошь и рядом встречаются сайты, где при попытке такой загрузки Power Query «не видит» таблиц с нужными данными, т.е. в окне Навигатора попросту нет этих Table 0,1,2… или же среди них нет таблицы с нужной нам информацией. Причин для этого может быть несколько, но чаще всего это происходит потому, что веб-дизайнер при создании таблицы использовал в HTML-коде страницы не стандартную конструкцию с тегом <TABLE>, а её аналог — вложенные друг в друга теги-контейнеры <DIV>. Это весьма распространённая техника при вёрстке веб-сайтов, но, к сожалению, Power Query пока не умеет распознавать такую разметку и загружать такие данные в Excel.

Тем не менее, есть способ обойти это ограничение ;)

В качестве тренировки, давайте попробуем загрузить цены и описания товаров с маркетплейса Wildberries — например, книг из раздела Детективы:

Детективы на Wildberries

Загружаем HTML-код вместо веб-страницы

Сначала используем всё тот же подход — выбираем команду Из интернета на вкладке Данные (Data — From internet) и вводим адрес нужной нам страницы:

https://www.wildberries.ru/catalog/knigi/hudozhestvennaya-literatura/detektivy

После нажатия на ОК появится окно Навигатора, где мы уже не увидим никаких полезных таблиц, кроме непонятной Document:

Навигатор без таблиц

Дальше начинается самое интересное. Жмём на кнопку Преобразовать данные (Transform Data), чтобы всё-таки загрузить содержимое таблицы Document в редактор запросов Power Query. В открывшемся окне удаляем шаг Навигация (Navigation) красным крестом:

Удаляем ненужный шаг Навигация

… и затем щёлкаем по значку шестерёнки справа от шага Источник (Source), чтобы открыть его параметры:

Меняем тип файла

В выпадающием списке Открыть файл как (Open file as) вместо выбранной там по-умолчанию HTML-страницы выбираем Текстовый файл (Text file). Это заставит Power Query интерпретировать загружаемые данные не как веб-страницу, а как простой текст, т.е. Power Query не будет пытаться распознавать HTML-теги и их атрибуты, ссылки, картинки, таблицы, а просто обработает исходный код страницы как текст.

После нажатия на ОК мы этот HTML-код как раз и увидим (он может быть весьма объемным — не пугайтесь):

Исходный код страницы в Power Query

Ищем за что зацепиться

Теперь нужно понять на какие теги, атрибуты или метки в коде мы можем ориентироваться, чтобы извлечь из этой кучи текста нужные нам данные о товарах. Само-собой, тут всё зависит от конкретного сайта и веб-программиста, который его писал и вам придётся уже импровизировать.

В случае с Wildberries, промотав этот код вниз до товаров, можно легко нащупать простую логику:

Изучаем исходный код

  • Строчки с ценами всегда содержат метку lower-price
  • Строчки с названием бренда — всегда с меткой brand-name c-text-sm
  • Название товара можно найти по метке goods-name c-text-sm

Иногда процесс поиска можно существенно упростить, если воспользоваться инструментами отладки кода, которые сейчас есть в любом современном браузере. Щёлкнув правой кнопкой мыши по любому элементу веб-страницы (например, цене или описанию товара) можно выбрать из контекстного меню команду Инспектировать (Inspect) и затем просматривать код в удобном окошке непосредственно рядом с содержимым сайта:

Инспектирование кода HTML на веб-странице

Фильтруем нужные данные

Теперь совершенно стандартным образом давайте отфильтруем в коде страницы нужные нам строки по обнаруженным меткам. Для этого выбираем в окне Power Query в фильтре [1] опцию Текстовые фильтры — Содержит (Text filters — Contains), переключаемся в режим Подробнее (Advanced) [2] и вводим наши критерии:

Фильтруем нужные строки

Добавление условий выполняется кнопкой со смешным названием Добавить предложение [3]. И не забудьте для всех условий выставить логическую связку Или (OR) вместо И (And) в выпадающих списках слева [4] — иначе фильтрация просто не сработает.

После нажатия на ОК на экране останутся только строки с нужной нам информацией:

Отобранные строки

Чистим мусор

Останется почистить всё это от мусора любым подходящим и удобным лично вам способом (их много). Например, так:

  1. Удалить заменой на пустоту начальный тег: <span class=»price»> через команду Главная — Замена значений (Home — Replace values).
  2. Разделить получившийся столбец по первому разделителю «>» слева командой Главная — Разделить столбец — По разделителю (Home — Split column — By delimiter) и затем ещё раз разделить получившийся столбец по первому вхождению разделителя «<» слева, чтобы отделить полезные данные от тегов:

    Отделяем данные от HTML-тегов

  3. Удалить лишние столбцы, а в оставшемся заменить стандартную HTML-конструкцию &quot; на нормальные кавычки.

В итоге получим наши данные в уже гораздо более презентабельном виде:

Зачищенные данные

Разбираем блоки по столбцам

Если присмотреться, то информация о каждом отдельном товаре в получившемся списке сгруппирована в блоки по три ячейки. Само-собой, нам было бы гораздо удобнее работать с этой таблицей, если бы эти блоки превратились в отдельные столбцы: цена, бренд (издательство) и наименование.

Выполнить такое преобразование можно очень легко — с помощью, буквально, одной строчки кода на встроенном в Power Query языке М. Для этого щёлкаем по кнопке fx в строке формул (если у вас её не видно, то включите её на вкладке Просмотр (View)) и вводим следующую конструкцию:

= Table.FromRows(List.Split(#»Замененное значение1″[Column1.2.1],3))

Здесь функция List.Split разбивает столбец с именем Column1.2.1 из нашей таблицы с предыдущего шага #»Замененное значение1″ на кусочки по 3 ячейки, а потом функция Table.FromRows конвертирует получившиеся вложенные списки обратно в таблицу — уже из трёх столбцов:

Разобранная на 3 столбца таблица

Ну, а дальше уже дело техники — настроить числовые форматы столбцов, переименовать их и разместить в нужном порядке. И выгрузить получившуюся красоту обратно на лист Excel командой Главная — Закрыть и загрузить (Home — Close & Load…)

Загруженные в Excel данные с сайта

Вот и все хитрости :)

Ссылки по теме

  • Импорт курса биткойна с сайта через Power Query
  • Парсинг текста регулярными выражениями (RegExp) в Power Query
  • Параметризация путей к данным в Power Query

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Настройка программы, — дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт — от 2000 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (3300 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, — и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Автор: Baguvix от 19-04-2020, 02:47, Посмотрело: 2 505, Обсуждения: 0

Название: SuperDataBase 2.9.9 [Парсер баз данных Excel]
Тип издания: Портативная
Назначение: Бизнес
Разработчик: superdatabase.ru/?page=proga
Год: 2020
Платформа: PC
Версия: 2.9.9
Язык интерфейса: Только русский
Таблетка: Не требуется

Системные требования:

• Наличие на компьютере MS Excel

Описание:
Программа SuperDataBase предназначена для парсинга баз данных формата Excel.
Это уникальная и единственная программа в своём роде. Аналогов ей нет.
Очень пригодится работникам Колл-центров.
• Переделывает ФИО в правильный формат (Пример: Иванов Иван Иванович)
• Переделывает ФИО, написанное ангийскими буквами, на русский (Пример: Alexsey в Алексей)
• Удаляет мусор из ФИО в виде лишних символов
• Переделывает мобильные и городские телефоны в правильный формат
• Определяет по ФИО пол (женский, мужской) используя уникальные словари имён
• Определяет по номеру телефона операторов связи используя официальную базу
федерального агенства связи
• Определяет по номеру телефона регионы, области, города, часовые пояса РФ
используя официальную базу федерального агенства связи
• Генерирует полною базу городских телефонов любого города РФ
• Выбирает в автоматическом режиме строки из файлов Excel по заданным фразам
• Высокая скорость работы и удобный интерфейс

©Torrent-Soft.Pro

Загрузил: Baguvix (19 апреля 2020 02:47)

Взяли: 569 | Размер: 16,4 Mb

Последняя активность: не наблюдалась

exe SuperDataBase.exe (16,4 Mb)

  • 0
  • 1
  • 2
  • 3
  • 4
  • 5

Категория: Разное

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

SuperDataBase 3.1.2 [Парсер баз данных Excel] (2022) PC

  • Размер: 16.05 MB (16829440 Bytes)
  • Категория: Программы
  • Загрузок: 617
  • Комментарии: 0
  • Дата обновления:01.01.2023

полный обзор SuperDataBase 3.1.2

SuperDataBase 3.1.2 [Парсер баз данных Excel] (2022) PC

Название: SuperDataBase 3.1.2 [Парсер баз данных Excel]
Тип издания: Портативная
Назначение: Бизнес
Разработчик: superdatabase
Год: 2022
Платформа: PC
Версия: 3.1.2

Язык интерфейса: Только русский
Таблетка: Не требуется

Системные требования:
• Наличие на компьютере MS Excel
Описание:
Программа SuperDataBase предназначена для парсинга баз данных формата Excel.
Это уникальная и единственная программа в своём роде. Аналогов ей нет.
Очень пригодится работникам Колл-центров.

• Переделывает ФИО в правильный формат (Пример: Иванов Иван Иванович)
• Переделывает ФИО, написанное английскими буквами, на русский (Пример: Alexsey в Алексей)
• Удаляет мусор из ФИО в виде лишних символов
• Переделывает мобильные и городские телефоны в правильный формат
• Определяет по ФИО пол (женский, мужской) используя уникальные словари имён
• Определяет по номеру телефона операторов связи используя официальную базу
федерального агентства связи
• Определяет по номеру телефона регионы, области, города, часовые пояса РФ
используя официальную базу федерального агентства связи
• Генерирует полною базу городских телефонов любого города РФ
• Выбирает в автоматическом режиме строки из файлов Excel по заданным фразам
• Высокая скорость работы и удобный интерфейс

с нашего сервера

Релиз проверен Администрацией! Можно качать, На этой странице доступно для скачивания SuperDataBase 3.1.2 [Парсер баз данных Excel] (2022) PC
оставайтесь на раздаче, оставляйте комментарии и помогите другим оценить качество сборки windows и программы

Торрент софт » Разное » SuperDataBase 2.9.5 [Парсер баз данных Excel] (2019) PC

27.11.2019/
Просмотров:  819 /
0


0

SuperDataBase 2.9.5 [Парсер баз данных Excel] (2019) PC

Название: SuperDataBase 2.9.5 [Парсер баз данных Excel]
Тип издания: Портативная
Назначение: Бизнес
Разработчик: superdatabase.ru/?page=proga
Год: 2019
Платформа: PC
Версия: 2.9.5
Язык интерфейса: Только русский
Таблетка: Не требуется

Системные требования:

• Наличие на компьютере MS Excel

Описание:
Программа SuperDataBase предназначена для парсинга баз данных формата Excel.
Это уникальная и единственная программа в своём роде. Аналогов ей нет.
Очень пригодится работникам Колл-центров.
• Переделывает ФИО в правильный формат (Пример: Иванов Иван Иванович)
• Переделывает ФИО, написанное ангийскими буквами, на русский (Пример: Alexsey в Алексей)
• Удаляет мусор из ФИО в виде лишних символов
• Переделывает мобильные и городские телефоны в правильный формат
• Определяет по ФИО пол (женский, мужской) используя уникальные словари имён
• Определяет по номеру телефона операторов связи используя официальную базу
федерального агенства связи
• Определяет по номеру телефона регионы, области, города, часовые пояса РФ
используя официальную базу федерального агенства связи
• Генерирует полною базу городских телефонов любого города РФ
• Выбирает в автоматическом режиме строки из файлов Excel по заданным фразам
• Высокая скорость работы и удобный интерфейс

  • Статус: проверено
  • .torrent скачан: 198 раз
  • Размер:

Информация

Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.

Понравилась статья? Поделить с друзьями:
  • Парсер xml для excel
  • Парсер word в html
  • Парсер pdf в excel
  • Парольная защита файла в word
  • Парольная защита документов ms word