- Парсеры баз организаций и контактных данных
Задача:
Выгрузить организации по заданному ОКВЭД.
Описание:
Тестовая настройка парсера собирает данные об организациях с сайта rusprofile.ru по заданному ОКВЭД, выводит следующую информацию о первых 200 найденных организациях (кроме ликвидированных):
ИНН
Компания
ФИО
Почта
Адрес
Субъект
Ссылка
Полная настройка парсера может перебирать все страницы поиска, также можно настроить поиск организации по ОГРН, ИНН, ФИО директора и адресу. Настройка может осуществлять сверку названия и выводить только полностью совпадающие с запросом компании. Может исключать из вывода недействующие организации и многое другое.
При необходимости можно настроить сбор информации из карточки компаний, туда входят:
Выписка из ЕГРЮЛ
Виды деятельности ОКВЭД
Учредители
Реквизиты
Сведения Росстата
Сведения о регистрации в ФНС
Сведения о регистрации в ПФР
Сведения о регистрации в ФСС
Сведения МСП
и другая информация.
Для приобретения полной версии настройки этого парсера, обращайтесь на почту, с указанием ссылки на эту статью.
На сайте присутствует Гугл капча, для её решения требуется вставить API-ключ в общие настройки программы.
https://excelvba.ru/programmes/Parser/manuals/captcha/RuCaptchaSetup
Настройка закрыта от просмотра и редактирования!
- 20919 просмотров
-
Описание
-
Детали
-
ВАЖНО!
-
Правовая информация
Владелец и источник набора данных об действующих компаниях РФ: Федеральная служба государственной статистики. Относится к категории «Открытые данные».
В соответствии с подпунктом 1 пункта 3 статьи 6 Федерального закона от 27 июля 2006 г. № 149-ФЗ «Об информации, информационных технологиях и о защите информации» (далее – Федеральный закон № 149-ФЗ) обладатель информации вправе определять порядок и условия доступа к информации, а также разрешать осуществление иных действий с информацией. Информация, размещаемая в форме открытых данных, является общедоступной (пункт 4 статьи 7 Федерального закона № 149-ФЗ), что означает отсутствие ограничений по ее использованию (пункт 1 статьи 7 Федерального закона № 149-ФЗ).
Просмотров: 770
Размер файла |
Данные представлены в формате CSV — файла, который можно импортировать в любую базу данных. Размер архива порядка 100 МБ. Общее число записей в базе всех организаций России ~3.2 млн. (на момент публикации этой информации — середина 2022 года). |
---|
Данные представлены на середину 2022 года. Относятся к категории «Открытые данные». Не содержат персональные данные, телефоны и электронную почту организаций. По ИНН/ОГРН вы можете получить расширенную налоговую информацию по каждой представленной в файле организации с помощью нашего или иного сервиса.
Все базы и примеры парсинга, которые представлены на данном сайте, собраны из открытых, общедоступных источников (сайты компаний, налоговые данные, судебные решения и т.п.). Мы не подбираем пароли, не взламываем сайты. Не работаем с персональными данными граждан РФ.
Базы компаний позволяют найти новых стратегических партнеров по бизнесу и стать более конкурентным с помощью мониторинга цен конкурентов. Вся собранная нами корпоративная контактная информация в базах, находится в открытом доступе на сайтах компаний.
Иногда компании, на принадлежащих им сайтах, оставляют контактные адреса электронной почты на доменах @yandex.ru/@mail.ru/@gmail.com. Обращаем ваше внимание, что при отсутствии иных сведений о лице, которому принадлежит адрес электронной почты, электронный адрес не относится к персональным данным. Аналогично, если нет совокупности данных, например номера телефона и имени, нельзя говорить о том, что номер телефона — это персональные сведения.
В случае вопросов или пожеланий, свяжитесь, пожалуйста, с нами:
ИНН – идентификационный номер налогоплательщика – присваивается физическим и юридическим лицам. Такие обозначения есть у граждан России, Украины и Беларуси (УНП, ИН). Аналоги существуют у граждан многих других государств.
В данном коде «спрятана» информация о дате рождения, поле человека, коде налоговой (для российских номеров).
Алгоритм расшифровки ИНН в Excel
Идентификационный номер налогоплательщика – это 10 (для юридических) или 12 (для физических лиц) цифр, которые содержат следующую информацию (слева направо):
- код налоговой инспекции, присвоившей ИНН (4 цифры);
- порядковый номер записи в едином государственном реестре налогоплательщиков территориального налогового органа (5 цифр – для организаций, 6 – для физических лиц);
- контрольное число, полученное в ходе применения специального алгоритма (для юридических лиц – 1 цифра, для физических – 2).
Алгоритм проверки ИНН предложен в сервисе «Консультант».
Для десятизначного цифрового кода:
- Найти контрольную сумму с весовыми коэффициентами 2, 4, 10, 3, 5, 9, 4, 6, 8, 0.
- Вычислить частное контрольной суммы и 11. Остаток от деления – контрольное число.
- Если результат предыдущего действия больше 9, то делим его на 10. Остаток от деления – контрольное число.
- Код налогоплательщика считается правильным, если контрольное число совпадает с десятым знаком идентификационного номера.
Для двенадцатизначного кода:
- Найти сумму первых одиннадцати знаков с весовыми коэффициентами 7, 2, 4, 10, 3, 5, 9, 4, 6, 8, 0.
- Контрольное число – остаток от частного суммы и 11.
- Если результат деления больше 9, то находим остаток от частного контрольного числа и 10. Получаем первое контрольное число.
- Найти сумму 12 чисел с весовыми коэффициентами 3, 7, 2, 4, 10, 3, 5, 9, 4, 6, 8, 0.
- Остаток от частного второй контрольной суммы и 11 – второе контрольное число.
- Если оно больше 9, то находим остаток от деления на 10.
- Первое контрольное число правильного ИНН совпадает с 11 знаком номера, второе – с 12.
Проверку правильности ИНН лучше автоматизировать. Неизвестно, реально существующий контрагент выставляет счет к оплате или мошенник. Данная проблема особенно актуальна на крупных предприятиях.
Есть готовые функции для проверки актуальности идентификационного номера: для 10 знаков и для 12. Проверить правильность указания ИНН можно с помощью данной функции.
Реализуем алгоритм проверки с помощью встроенных функций Excel:
- Список номеров введем в столбец А. Перед каждым номером ставим апостроф:
- В ячейку В1 вводим формулу Копируем ее на весь столбец.
Реальные ИНН – «истина», неправильные – «ложь». Данная формула работает только в отношении десятизначных номеров. Если организация работает с физическими и юридическими лицами, то в базу будут заноситься 10-тизначные и 12-тизначные коды.
Для проверки подлинности применим следующую формулу:
Просто копируйте и вставляйте – формула рабочая.
Дата рождения по ИНН (Россия) в Excel
Для физических лиц ИНН включает 12 цифр:
ХХХХZZZZZZYY;
где ХХХХ – данные о налоговой инспекции;
ZZZZZZ – порядковый номер налогоплательщика;
YY – контрольный код.
Налогоплательщик получает порядковый номер, когда становится на учет в ФНС. Привязки к дате рождения нет.
Дата рождения по ИНН (Украина) в Excel
Идентификационный номер налогоплательщиков Украины состоит из 10 цифр. Первые 5 – количество дней, которые прошли с 01.01.1900 до рождения.
Например, человек родился 20.09.1976. Первые пять цифр – 28022. Столько дней до его рождения с 31.12.1899 года.
Чтобы найти дату рождения по первым пяти цифрам 28022, нужно 01.01.1900 + 28022 (дней) = 20.09.1976.
Воспользуемся табличным процессором Excel для извлечения даты рождения из идентификационного кода.
Чтобы найти дату рождения, нужно ввести в соседнюю ячейку пять первых цифр плюс 1. И установить формат «Дата». Сделать это можно с помощью ряда функций. Подойдут формулы:
- =ЗНАЧЕН(ЛЕВСИМВ(ТЕКСТ(A2;0);5))+1
- =ЛЕВСИМВ(A2;5)+1
- =ПСТР(A2;1;5)+1
Все три варианта выдают одинаковые результаты.
Данный алгоритм срабатывает не всегда. Четыре цифры за датой рождения в ИНН – порядковый номер плательщика в налоговой службе. Формируется он по мере поступления данных в базу.
Если в какой-то день рождается слишком много людей, то четырех цифр для образования номера не хватает. В данном случае номер начинается с 7 или 8. Цифра указывает на будущее время – алгоритм определения даты неприменим.
Дата рождения по ИНН (Беларусь) в Excel
Граждане Беларуси при постановке на учет в налоговых органах получают УНП (учетный номер плательщика). Это девятизначный код, где:
- первая цифра обозначает регион (у физ. лиц – буква);
- вторая-восьмая – порядковый номер плательщика;
- девятая – контрольная.
С датой рождения УНП не связан.
Зато по идентификационному (личному) номеру, который есть у каждого в паспорте, можно определить дату рождения.
Структура:
- первая цифра – пол;
- вторая-седьмая – день, месяц и год;
- буква – код региона;
- три цифры за буквой – порядковый номер лица, обратившегося за паспортом;
- две буквы – признак гражданства;
- последняя цифра – контрольная.
Чтобы быстро извлечь дату из личного номера, можно использовать функцию =ПСТР(A2;2;6).
скачать алгоритм расшифровки ИНН в Excel
Проверка ИНН 10 знаков
Проверка ИНН 12 знаков
Формула алгоритма проверки ИНН в Excel
С идентификационными номерами приходится работать бухгалтерам, инженерам по кадрам и другим специалистам. В некоторых организациях такая информация представлена тысячами значений. Обрабатывать вручную и принимать в базу такие коды бесконтрольно – нехорошо. Ряд процессов можно автоматизировать простейшими средствами Microsoft Excel.
Excel-файл проверки контрагентов
Скачать
Для просмотра информации из ЕГРЮЛ и ЕГРИП (из базы данных ФНС и других сервисов) мы разработали специальную рабочую книгу Excel.
Файл можно использовать как для просмотра информации, так и для изучения возможностей API-ФНС, чтобы встраивание
в собственные разработки происходило быстрее.
После отрытия книги появляется лист:
Для использования необходимо ввести полученный вами 40-значный ключ к API в листе «Настройки»:
Нажмите кнопку «Поиск» (на листе «Помощь» или в ленте «ДаМИА») для поиска компаний в ЕГРЮЛ или ЕГРИП. Введите искомую строку:
Появится лист с результатами поиска (используется API-метод search):
Далее можно встать на строке с искомой компанией и нажать кнопку «Данные из ЕГРЮЛ и ЕГРИП» (кнопка находится в ленте «ДаМИА»).
Можно ввести любой ИНН или ОГРН (по умолчанию выводится ОГРН из таблицы поиска, на строке, в которой вы стоите):
Появится лист с карточкой компании (используется API-метод egr):
Внизу страницы можно увидеть данные о проверке компании (используется API-метод check).
Приведем пример для компании с ОГРН 1111837001418:
Система проверки контрагентов ДаМИА-СПК
Мы используем единую систему регистрации с сайтом damia.ru. Если Вы зарегистрированы на нашем сайте, то будете уже зарегистрированы и на сайте damia.ru (или наоборот).
После регистрации есть также возможность бесплатно протестировать систему, подключившись в разделе «Мои тарифы» к тарифу «СПК-старт».
После входа в систему введите поисковую строку (ИНН, ОГРН, название, ФИО директора, учредителя, адрес и др.). Будут отображены результаты поиска, например:
Перейдя на карточку искомой компании, Вы увидите полную информацию о компании, включая исторические данные, например:
В соответствующих разделах Вы увидите информацию об отчетности:
Проверках на позитивные и негативные факторы (факторы риска), как нефинансовые:
Так и финансовые:
Есть хронология изменений данных компании, включая поданные заявления (иногда еще не отображенные в ЕГРЮЛ):
Связи компании (предположительно, аффилированные компании) выявляются по директору, учредителям, адресу. Можно задать не все, а только актуальные связи (действующие директор или учредители), по действующим компаниям, совпадения по ИНН (или ФИО без ИНН), а также компании в том же регионе (для ФИО без ИНН).
Добрый день!
Необходимо скачать ЕГРЮЛ с сайта налоговой. Работа с интернетом для меня задача сложная, но попробовал осилить ее своими силами. Соответственно ничего не получилось.
За неделю самообразования, понял, что для того чтобы это осуществить необходимо сделать два запроса:
POST запрос, в котором отправляем на сайт ИНН, по которому необходимо сформировать данные для выгрузки;
GET запрос, который формирует выписку и скачивает ее.
Код, который должен это все делать:
Код |
---|
Sub DownloadFile_InnPDF() loginURL$ = "https://egrul.nalog.ru" pdfURL$ = "https://egrul.nalog.ru/vyp-download/2C314F1CD890417626E203C79625506292561A0FA5113E0C4A93738CC96D163B...; Dim xmlhttp As New WinHttpRequest Dim INN As String INN = "1615007404" xmlhttp.Open "POST", loginURL$, False Dim POST() As Byte, PostData$ PostData = "query=" & INN POST = StrConv(PostData, vbFromUnicode) xmlhttp.setRequestHeader "Content-Type", "application/x-www-form-urlencoded; charset=UTF-8" xmlhttp.setRequestHeader "Referer", "https://egrul.nalog.ru/index.html" ' loginURL$ xmlhttp.send (POST): DoEvents If xmlhttp.Status = 200 Then Debug.Print "îê" Else Debug.Print "íå îê" End If xmlhttp.Open "GET", csvURL$, False xmlhttp.setRequestHeader "If-Modified-Since", "Sat, 1 Jan 2000 00:00:00 GMT" xmlhttp.setRequestHeader "Content-Type", "application/json" xmlhttp.setRequestHeader "Referer", pdfURL$ xmlhttp.send: DoEvents If xmlhttp.Status = 200 Then Set oStream = CreateObject("ADODB.Stream") oStream.Open oStream.Type = 1 oStream.Write xmlhttp.responseBody oStream.SaveToFile "C:Users...DesktopINN.pdf", 2 ' 1 = no overwrite, 2 = overwrite oStream.Close End If End Sub |
Практически он это делает, но вот в чем проблема. Строка
pdfURL$ = «
https://egrul.nalog.ru/vyp-download/2C314F1CD890417626E203C79625506292561A0FA5113E0C4A93738CC96D163B…
;
забита HARD’ом
То есть значение
2C314F1CD890417626E203C79625506292561A0FA5113E0C4A93738CC96D163B858270F81D594B530D9765A516E362C92E0835DA8395841C0F41F35CB5116F80C72D9CC3AD4C11EB680BF7EBBD7060DF
я просто скопировал и подставил через F12. Открыл код страницы и посмотрел, как генерируется выписка. На основании этого значения, после нахождения организации по ИНН, формируется выписка в PDF.
алгоритм такой:
1. Вводим ИНН
2. Нажимаем «Найти»
3. Осуществляется поиск организации на сайте
4. Нажимаем кнопку получить выписку
5. Выписка сохраняется.
Так вот, при выполнении п.4, если посмотреть код страницы выполняются 4 GET запроса, один из которых (1-й) формирует что-то, но самое главное, он формирует вот это
2C314F1CD890417626E203C79625506292561A0FA5113E0C4A93738CC96D163B858270F81D594B530D9765A516E362C92E0835DA8395841C0F41F35CB5116F80C72D9CC3AD4C11EB680BF7EBBD7060D
Посмотреть это можно в закладке «Предварительный просмотр», там это отображается в формате:
captchaRequired: false
t: «C17D6448426912565C8EF101175958F5FF445073B31959F3643407EB83D2468182224C2445C114E615ACC4467A5DECF975378D005D23A60ECDD65053B3F4F0B1D3D2713A4F4B8D0E1878E8EECBC6EF44»
Также это можно увидеть в HTMLкоде страницы закладка «Элементы»:
<a href=»#» class=»op-excerpt» data-t=»C17D6448426912565C8EF101175958F5FF445073B31959F3643407EB83D2468182224C2445C114E615ACC4467A5DECF975378D005D23A60ECDD65053B3F4F0
B1D3D2713A4F4B8D0E1878E8EECBC6EF44″ title=»ООО «ВЕДРО»»>ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ «ВЕДРО»</a>
то есть если это сохранить в переменную и вставить в строку pdfURL$, через &, то можно это cскачивать без проблем. Вопрос в том, как это «вытянуть» из сайта.
Пытался это сделать через HTML, не получилось.
в общем прошу помощи в решении задачи.