набор открытых данных что это

Методические рекомендации по публикации открытых данных государственными органами и органами местного самоуправления и технические требования к публикации открытых данных (версия 2.3) (утв. протоколом заседания Правительственной комиссии по координации деятельности открытого правительства от 4 июня 2013 г. N 4) (прекратили действие)

Методические рекомендации
по публикации открытых данных государственными органами и органами местного самоуправления и технические требования к публикации открытых данных
(версия 2.3)
(утв. протоколом заседания Правительственной комиссии по координации деятельности открытого правительства от 4 июня 2013 года N 4)

ГАРАНТ:

Настоящие методические рекомендации фактически утратили силу

См. методические рекомендации от 29 мая 2014 г. Версия 3.0 «По публикации открытых данных государственными органами и органами местного самоуправления, а также технические требования к публикации открытых данных»

1. Настоящий документ подготовлен во исполнение Указа Президента Российской Федерации от 7 мая 2012 г. N 601 «Об основных направлениях совершенствования системы государственного управления». В соответствии с подпунктом г) пункта 2 Указа Правительству Российской Федерации поручено до 15 июля 2013 г. обеспечить доступ в сети «Интернет» к открытым данным, содержащимся в информационных системах государственных органов и органов местного самоуправления Российской Федерации.

2. Для целей настоящих методических рекомендаций используются следующие термины и определения:

3. Не подлежит публикации в форме открытых данных информация, составляющая государственную тайну, содержащая конфиденциальные сведения, включая персональные данные, а также иные сведения, доступ к которым ограничен действующим законодательством Российской Федерации.

II. Определение перечней наборов открытых данных и приоритетности их публикации

4. Опубликованию в форме открытых данных подлежат сведения, содержащие информацию о деятельности государственных органов и органов местного самоуправления, размещаемую в сети «Интернет» в соответствии с Федеральным законом от 09 февраля 2009 г. N 8-ФЗ «Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления», а также сведения содержащие информацию, собираемую, хранимую, обрабатываемую или публикуемую государственными органами или органами местного самоуправления в рамках реализации своих полномочий.

В связи с существенными объемами опубликование информации в форме открытых данных необходимо осуществлять поэтапно, учитывая при этом следующие факторы:

а) востребованность соответствующих наборов открытых данных потенциальными потребителями информации, оцениваемую в соответствии с методическими рекомендациями по определению востребованности и приоритетности раскрываемых данных;

б) степень готовности, характеризующуюся наличием необходимых данных в структурированных форматах в электронном виде, а также готовностью организационных, технических, технологических и иных средств, необходимых для опубликования наборов открытых данных;

в) затраты на публикацию (финансовые, временные, трудовые), необходимые для опубликования наборов открытых данных и поддержания их в актуальном состоянии.

Сведения, обладающие высокой востребованностью и степенью готовности, требующие при этом минимальных затрат, должны публиковаться в форме открытых данных государственными органами и органами муниципальной власти в первоочередном порядке.

Для повышения степени готовности сведений к опубликованию в форме открытых данных государственным органам и органам муниципального самоуправления рекомендуется при проведении работ по проектированию, созданию или развитию автоматизированных систем устанавливать соответствующие требования к таким работам, предусматривающие использование машиночитаемых открытых форматов при сборе, обработке, хранении и публикации сведений.

При формировании реестра и наборов открытых данных следует учитывать, что:

а) опубликованию подлежат первичные (не агрегированные) данные с полной детализацией;

б) для каждого набора данных должно быть определено лицо, ответственное за содержание конкретного набора данных, его корректность, полноту и актуальность;

в) для каждого набора данных должна быть установлена периодичность обновления с учетом потребности пользователей информации;

Сформированный реестр открытых данных утверждается государственным органом или органом местного самоуправления и подлежит публикации на официальном сайте органа в сети «Интернет».

III. Технологическая инфраструктура

5. Подлежащие опубликованию наборы открытых данных или ссылки на эти наборы данных должны размещаться на официальных веб-сайтах государственных органов или органов местного самоуправления, являющихся обладателями этих наборов данных. Для этого веб-сайты должны быть подготовлены следующим образом:

б) на главной странице веб-сайта должна располагаться визуально различимая гиперссылка на страницу открытых данных с надписью «Открытые данные»;

г) для каждого опубликованного паспорта набора открытых данных на веб-сайте государственного органа или органа местного самоуправления должна быть предусмотрена ссылка на набор открытых данных.

IV. Технические требования к публикации наборов данных

Требования к наименованию и идентификационному номеру набора данных

6. Наименование набора данных, используемое паспортах отрытых данных, выбирается следующим образом:

а) наименование набора данных должно отражать его содержание;

б) наименование набора данных не должно повторять информацию, содержащуюся в идентификационном номере (коде) набора данных (см. ниже).

7. Идентификационный номер (код) набора данных формируется следующим образом:

Страница публикации открытых данных должна иметь заголовок «Открытые данные» и обеспечивать предоставление пользователям веб-сайта:

2) статистической информации о наборах данных, открытых государственным органом или органом местного самоуправления (их количество, форматы и т.п.);

3) средства поиска данных, открытых государственным органом или органом местного самоуправления. В случае если государственным органом или органом местного самоуправления открыто не более 20 наборов данных, такие средства поиска создавать не обязательно;

4) описания условий использования данных, открытых государственным органом или органом местного самоуправления (если такое описание не приведено на страницах наборов данных);

5) файловое представление перечня (реестра) наборов данных, открытых государственным органом или органом местного самоуправления.

Требования к публикации реестра наборов открытых данных

1) Представление реестра наборов данных в формате RDFa или HTML на странице /opendata/ для каждого набора данных должно включать:

— порядковый номер набора данных;

— ссылку на страницу паспорта набора открытых данных.

2) При использовании файлового представления реестра в формате CSV файл должен располагаться по адресу » /opendata/opendatalist.csv» или » /открытыеданные/реестроткрытыхданных.csv». Реестр должен содержать актуальный список всех паспортов наборов открытых данных (названия и ссылки на страницы этих паспортов). Записи о каждом из наборов данных должны быть разделены символом «перевод строки». Данные внутри записи о наборе данных должны разделяться символом «;» (точка с запятой). Внутри каждого поля данных символы «;» (точка с запятой) и «перевод строки» не допускаются.

3) При использовании файлового представления реестра в формате XML файл формата XML должен располагаться по адресу » /opendata/opendatalist.xml» или » /открытыеданные/реестроткрытыхданных.xml».

Требования к странице паспорта набора открытых данных

10. Заголовок страницы паспорта набора данных должен соответствовать названию набора данных. Страница паспорта набора данных должна обеспечивать предоставление пользователям веб-сайта:

2) описания условий использования набора данных (если такое описание не приведено на странице открытых данных);

3) возможности немедленной загрузки данных из опубликованного набора без требований по дополнительной авторизации, ввода кода Captcha и иных ограничений;

4) обратной связи (экранных форм для обратной связи в виде комментариев, либо ссылок на экранные формы для обратной связи), позволяющей пользователям веб-сайта оставлять предложения и отзывы по вопросам открытия государственных данных, в том числе по ошибкам, выявленным в наборах данных и их паспортах. Обратная связь, реализованная на странице набора данных, должна обеспечивать привязку вводимой пользователем информации к соответствующему набору данных.

На странице паспорта набора открытых данных должна быть информация, описывающая открытые данные по специальной структуре.

Паспорт набора открытых данных должен включать данные, перечисленные в Приложении 1.

Паспорт набора данных должен иметь представление в формате HTML или RDFa.

Паспорт набора открытых данных, отображаемый в визуальном интерфейсе, рекомендуется представлять с использованием формата RDFa в соответствии с требованиями, приведенными в Приложении 4.

Требования к представлению наборов открытых данных

11. Требования к публикуемым наборам открытых данных:

а) открытые данные должны публиковаться в форматах CSV или XML. В формате CSV рекомендуется публиковать данные, имеющие плоскую табличную форму, при этом в содержании записи не допускается использование символа перевода строки. Сложные иерархические данные рекомендуется публиковать в форматах XML;

б) в случае значительных объемов, частых обновлений или необходимости формирования специфических выборок открытые данные могут предоставляться через программный интерфейс, имеющий опубликованную спецификацию; программный интерфейс должен обеспечивать возможность полностью автоматического (без участия человека) доступа ко всем сведениям набора данных;

г) количество хранимых версий набора данных определяется на основании ресурсных возможностей для хранения с учетом потребности пользователей набора данных;

д) в случае, если размер набора данных превышает 10 мегабайт, рекомендуется архивировать его с помощью алгоритма архивирования, имеющего спецификацию в виде открытого стандарта;

е) вместе с данными, публикуемыми в формате XML, должны публиковаться файлы структурного описания формата в виде схемы XSD (язык описания структуры XML документа XML Schema, в соответствии с рекомендациями W3C http://www.w3.org/TR/xmlschema-0/, далее схема XSD);

ж) вместе с данными, публикуемыми в формате CSV, должны публиковаться файлы структурного описания формата в виде текстового файла (txt, csv), имеющего спецификацию в виде открытого стандарта;

з) в случае предоставления доступа к набору данных через программный интерфейс на странице набора данных должно быть приведено полное описание программного интерфейса (спецификации протоколов, форматов данных, первичные параметры доступа к сервису и пр.), достаточное для реализации полностью автоматического доступа к набору данных для специалиста, обладающего квалификацией программиста;

и) для представления наборов открытых данных, содержащих сведения из различных предметных областей, должны использоваться существующие форматы разметки типовых данных (schema.org, YMapsML, XAL и т.п.), имеющие опубликованную спецификацию;

к) необходимо избегать смены формата представления открытых данных, так как это затрудняет автоматическую обработку данных. В случае смены формата необходимо уведомлять пользователей, например, путем установки значения параметра «Содержание последнего изменения» в «Изменение структуры данных» в паспорте набора данных.

л) Атрибуты каждого набора открытых данных должны иметь краткое англоязычное представление (в виде англоязычных имен или краткого текста транслитерации)

12. Требования к публикуемой структуре наборов открытых данных:

а) Структура наборов открытых данных должна представлять описание каждого информационного поля набора данных.

б) Структура наборов открытых данных должна иметь файловое представление в формате XSD для наборов открытых данных, представленных в формате XML

в) Структура наборов открытых данных должна иметь файловое представление в текстовом формате (txt, csv) для наборов данных в формате CSV.

г) При изменении структуры набора открытых данных должна обеспечиваться версионность структуры и соответствие данной версии последующим наборам открытых данных

д) количество хранимых версий структуры набора данных определяется на основании ресурсных возможностей для хранения с учетом потребности пользователей набора данных;

ж) атрибуты каждой структуры набора данных должны иметь англоязычное представление (в виде англоязычных имен или краткого текста транслитерации);

з) описание структуры набора данных должно содержать и описание (в том числе в виде ссылок) всех справочников и классификаторов, используемых для формирования набора данных;

и) в случае предоставления доступа к набору данных через программный интерфейс, указывается гиперссылка на файл, содержащий описание такого интерфейса и условия использования.

V. Условия использования открытых данных

13. При публикации наборов открытых данных на странице перечня наборов в обязательном порядке должно присутствовать описание условий использования данных или ссылка на него.

15. Условия использования не должны ограничивать пользователей данных в их использовании в некоммерческих и коммерческих целях.

16. Условия использования должны предполагать безвозмездное предоставление открытых данных.

17. В условиях использования должно присутствовать требование по ссылке на источники публикации наборов данных в проектах, использующих данные из этого набора.

18. Рекомендуется публикация данных под лицензиями Creative Commons или Open Data Commons.

19. В условиях использования должны отсутствовать требования регистрации и авторизации на сайте для возможности пользования открытых данных.

VI. Порядок публикации наборов данных

20. Открываемые данные должны публиковаться в следующем порядке:

а) государственный орган или орган местного самоуправления переводит набор данных в формат, в котором этот набор данных подлежит публикации;

в) государственный орган или орган местного самоуправления проверяет доступность опубликованного набора данных для пользователей веб-сайта;

г) государственный орган или орган местного самоуправления передает в виде файла в формате CSV или XML запись об опубликованном наборе данных, выгруженную из реестра наборов данных, открытых государственным органом или органом местного самоуправления, в рабочую группу федерального уровня, ведущую единый реестр открытых данных;

д) рабочая группа федерального уровня обновляет единый реестр открытых данных, а также другую информацию об опубликованных наборах государственных данных, которую она ведет на веб-странице в сети «Интернет» для публикации сводной информации о данных, открытых государственными органами или органом местного самоуправления в машиночитаемых форматах.

* Пример реализации данного шаблона приведен в Приложении 1

Методические рекомендации по публикации открытых данных государственными органами и органами местного самоуправления и технические требования к публикации открытых данных (версия 2.3) (утв. протоколом заседания Правительственной комиссии по координации деятельности открытого правительства от 4 июня 2013 года N 4)

Текст методических рекомендаций официально опубликован не был

Настоящие методические рекомендации фактически утратили силу

См. методические рекомендации от 29 мая 2014 г. Версия 3.0 «По публикации открытых данных государственными органами и органами местного самоуправления, а также технические требования к публикации открытых данных»

© ООО «НПП «ГАРАНТ-СЕРВИС», 2021. Система ГАРАНТ выпускается с 1990 года. Компания «Гарант» и ее партнеры являются участниками Российской ассоциации правовой информации ГАРАНТ.

Источник

Data.gov.ru

открытые данные России

Вы здесь

Ваше мнение очень важно при доработке и совершенствовании «Портала открытых данных РФ»

Что такое открытые данные?

Из официального определения открытые государственные данные (открытые данные) – это информация (в том числе документированная), созданная в пределах своих полномочий государственными органами, либо поступившая в указанные органы и организации, а также информационно-аналитическими организациями, участвующими в публикации собственных открытых данных на территории Российской Федерации, которая подлежит размещению в сети Интернет в формате, обеспечивающем ее автоматическую обработку в целях повторного использования без предварительного изменения человеком (машиночитаемый формат), и может свободно использоваться в любых соответствующих закону целях любыми лицами независимо от формы ее размещения (простая совокупность сведений, база данных и т.д.)».

Основными потребителями открытых данных служат разработчики приложений и сервисов, использующие открытые данные как исходный материал для своих разработок, а также журналисты и другие заинтересованные лица, которые могут делать глубокие социально-экономические, научные исследования на основе «сырых» данных.

Целью раскрытия данных и их публикации в машиночитаемых форматах и есть облегчение к ним доступа заинтересованных лиц, которые могут их переработать и выдать ценные исследования, приложения, аналитику и т.д. Открытые данные являются своего рода основой для большого числа социально-значимых и общественно-полезных проектов.

Источник

Открытые данные: всё, что может пойти не так, идёт не так

Сейчас множество всяких наборов данных в разных областях выкладывают под лицензией OpenData: скачивай и используй (но не искажай). Но раз эти данные открытые, то все их создают как им угодно. Отсюда множество проблем при обработке, начиная с получения и заканчивая интерпретацией. Мы работаем с открытыми данными последние пять лет, и за весь опыт работы накопилось немало интересных случаев. Под катом — основные проблемы и примеры ребусов, путешествий во времени и прочей чертовщины, с которой мы ежедневно боремся.

набор открытых данных что это. Смотреть фото набор открытых данных что это. Смотреть картинку набор открытых данных что это. Картинка про набор открытых данных что это. Фото набор открытых данных что этоСкриншот с сайта реестра и соответствующий фрагмент выгрузки в XML

Где-то польза от открытости данных очевидна. Многие научные наборы открыты и приносят пользу обществу, например, вместе с инструментами для поиска и сравнения нуклеотидных и аминокислотных последовательностей BLAST на сайте Национального центра биотехнологической информации США распространяется также ежедневно обновляемая база GenBank, содержащая все аннотированные последовательности ДНК и РНК (сейчас там около 650 ГБ файлов). Или есть проект OpenStreetMap, который не нуждается в рекламе, и на сайте прямо написано, что они тоже Open Data.

Среди всего многообразия открытых данных особое место занимают государственные. Исторически эта тема восходит к американскому закону о свободе информации (FOIF), который вступил в силу более полувека назад — в 1967 году. В 2009 году был запущен портал data.gov, на котором сейчас размещено 312 тысяч наборов данных. Большая часть этих наборов весьма специфична (например, данные о размерах классов в школах Нью-Йорка или фид с ДТП в Остине в реальном времени), но и данных очень много. Кроме того, часто ведомства выкладывают данные и самостоятельно.

набор открытых данных что это. Смотреть фото набор открытых данных что это. Смотреть картинку набор открытых данных что это. Картинка про набор открытых данных что это. Фото набор открытых данных что этоСамые популярные датасеты с data.gov

А что у нас? В 2002–2010 действовала программа «Электронная Россия» (в рамках неё открыли данные о гос. закупках), а в 2013 был принят закон об открытых данных (как в США), и в том же году запущен сайт data.gov.ru. На нём на текущий момент 24 тысячи наборов данных (читайте обзор в блоге «Информкультуры»). Если посмотреть на статистику скачивания данных на портале, то там с большим отрывом лидирует производственный календарь с 1995 по 2025 год (при этом данные после 2019 не обновлялись).

набор открытых данных что это. Смотреть фото набор открытых данных что это. Смотреть картинку набор открытых данных что это. Картинка про набор открытых данных что это. Фото набор открытых данных что этоСамые популярные наборы данных на data.gov.ru

Есть даже данные из будущего!

набор открытых данных что это. Смотреть фото набор открытых данных что это. Смотреть картинку набор открытых данных что это. Картинка про набор открытых данных что это. Фото набор открытых данных что это

Государственные открытые данные — область весьма специфическая. От работы с ними складывается впечатление, что данные выкладываются исключительно, чтобы соответствовать требованиям законодательства и показывать красивые графики о росте открытости. Например, один из подзаконных актов требует, чтобы все ведомства публиковали в виде открытых данных свои вакансии — и все публикуют.

Мы в Rusprofile занимаемся сбором различной информации о юридических лицах и индивидуальных предпринимателях, поэтому для нас актуальны только те наборы, которые относятся к этой области. Мы пытаемся собрать и показать максимум полезной информации — на данный момент получаем информацию из 42 различных источников. Все собранное группируется по компаниям/индивидуальным предпринимателям. Собственно, за доступ к красиво сформированной информации люди и готовы платить, она экономит им время. Но с этим возникают разного рода сложности.

Первое, с чем сталкиваешься, — проблемы с получением данных. Это может быть просто медленный или зарезанный канал, по которому нужно скачать огромные файлы без сжатия, а может быть какое-нибудь интересное ограничение скачивания, например, шейпинг трафика до 100 кб/с после первой минуты.

Вторая группа проблем — сложность с интерпретацией данных. Закон никак не регламентирует полноту документации, поэтому на выходе бывает разное, и часто — ничего полезного (вплоть до того, что даже типы полей указаны неверно). Приходится разбираться самостоятельно.

Третий тип сложностей связан с очисткой данных от всякого мусора и ошибок. Бывают просто ничего не несущие пустышки (например, XML-ка, в которой нет ни одного элемента и атрибута, даже обязательных по схеме), а бывает «тестовая прокуратура», проводящая, по-видимому, тестовые проверки тестовых компаний.

И, наконец, четвёртая группа проблем связана с атрибуцией данных — их ведь нужно показывать на страницах того или иного юридического лица или индивидуального предпринимателя. И к какому лицу относятся данные — не всегда легко понять.

За несколько лет работы с открытыми данными встретилось довольно много интересного. В статье я расскажу о нескольких забавных случаях, разъясню проблемы и способы их решения.

Нельзя просто так взять и скачать набор данных

Получение открытых данных, по идее, должно быть делом чрезвычайно простым. Обратился, допустим, по заранее известному адресу, который не меняется, прочитал актуальные метаданные по интересующим наборам, сверил даты актуальности, если есть более новое — скачал. Вот, Росстат, например, сразу предлагает выгрузить список (в CSV, правда, ну это уже детали) наборов открытых данных, а дальше по каждому набору скачать метаинформацию, тоже в CSV. Это не самый удобный формат, XML или JSON подошли бы лучше, но работать с этим можно. Надо только один раз понять, какие там разделители, какие там кавычки и как они экранируются, сделать оповещения, что формат, возможно, поменялся, но это так, мелочи.

Налоговая служба публикует много полезных наборов открытых данных, и там, кстати, часто довольно неплохая документация (особенно если это XSD к XML), и нечасто встречаются ошибки. Но вот список всех наборов с метаинформацией на страничке скачать нельзя. И «паспорт набора» приходится разбирать из HTML-кода, к счастью, за это время вёрстка ни разу не поменялась (но на этот случай мы предусмотрели специальное оповещение).

У Федеральной службы судебных приставов (ФССП) часть наборов есть аж в виде Linked data. Но это в виде связанных данных ФССП на данный момент опубликовало только три очень полезных набора: «Реестр отделов судебных приставов», «Телефонный справочник работников ФССП России» и «Справочник должностей ФССП России».

А вот реестры ведущихся и прекращённых по определённым причинам исполнительных производств почему-то доступны только в CSV. Каждый день приходится заново выгружать оба реестра целиком: первый занимает 2 ГБ, а второй — 3,5 ГБ. Они никак не сжимаются даже на уровне веб-сервера и раньше качались изнуряюще долго — бывало, по 10 часов и даже дольше. Потом стало немного лучше, но внезапные обрывы соединения никуда не делись.

набор открытых данных что это. Смотреть фото набор открытых данных что это. Смотреть картинку набор открытых данных что это. Картинка про набор открытых данных что это. Фото набор открытых данных что этоСтраница открытых данных на сайте ФССП. Красиво, правда?

Отсюда родилось решение, которое было заточено специально под сервера ФССП, но потом пригодилось во многих других местах: менеджер закачки в духе ReGet. Он запрашивает файл по частям через разные прокси-сервера, пытается ещё раз скачать те части, которые по какой-то причине получить с первого раза не удалось, аккуратно собирает весь файл, проверяет его целостность и уже потом только помещает в хранилище. Правда, иногда может оказаться так, что размер файла почему-то поменялся в процессе скачивания. В этом случае процесс начинается заново.

В целом, этот «менеджер закачки» оказался настолько удобным, что сейчас мы его используем для многих наборов открытых данных: он помогает вообще не думать о таких проблемах.

Ещё один случай, который заставил немало попотеть: единый реестр проверок. Кроме всяких эксцессов, когда полгода сайт находился «в техническом обслуживании» и не обновлялся (и мы даже жаловались в прокуратуру на… ту же прокуратуру), были и другие неприятности. Единый реестр проверок какое-то время генерировал динамические адреса доступа к файлам данных, причём веб-страница отправляла AJAX-запрос, который как раз их и возвращал. К счастью, в этом случае обошлось без headless-браузера: схема не менялась, и надо было просто отправить нужный запрос и получить ответ. Потом это исправили и адреса стали нормальные.

Единый реестр проверок доставлял и другие неприятности с получением данных: часто файлы были просто недоступны, и приходилось пытаться их скачивать несколько раз (вот здесь снова пригождается менеджер закачки). Также реестр проверок предоставляет отдельные наборы данных на каждый месяц и год (хотя по сути это один набор). Нам пришлось разработать специальный механизм, который автоматически находит и записывает новые месяцы и годы.

Чтобы понять данные Росстата, нужно стать Росстатом

Есть, конечно, данные по гос. закупкам — бумажная бюрократия, переведённая в XML, и оттого ещё более формализованная и запутанная. В целом там тоже неплохая документация по форматам (в виде XSD-схем), и чтобы окончательно разобраться, достаточно было несколько проконсультироваться со специалистом по соответствующим областям законодательства. После этого становится ясно, какие документы соответствуют какой части процесса и что со всем этим делать.

Краткая схема процесса гос. закупок

набор открытых данных что это. Смотреть фото набор открытых данных что это. Смотреть картинку набор открытых данных что это. Картинка про набор открытых данных что это. Фото набор открытых данных что это

А вот бухгалтерская отчётность, которую за период с 2012 по 2018 год предоставляет Росстат, документирована просто восхитительно. Описание полей в структуре выглядит буквально следующим образом:

Но главная сложность с этими данными состояла в том, что совершенно неясно, что именно означают таинственные пятизначные числа, которые не совпадают ни с планом счетов, ни с номерами строк в бухгалтерской отчётности — те четырёхзначные.

Наконец, когда я увидел бумажные формы бухгалтерской отчётности, всё начало проясняться. Номера строк там действительно четырёхзначные, но есть ещё и номера столбцов — пятая цифра. Складываем все коды в Excel, рисуем таблицу и видим.

набор открытых данных что это. Смотреть фото набор открытых данных что это. Смотреть картинку набор открытых данных что это. Картинка про набор открытых данных что это. Фото набор открытых данных что этоСкриншот в Jira, который всех убедил

Расположение цифр слева соответствует расположению пустых полей справа — гипотеза подтвердилась! Присутствующие и отсутствующие коды показателей в выгрузке точно соответствуют бумажной форме. Остальное было делом техники. На этом проблемы с бухгалтерской отчётностью не закончились, но они были уже куда проще.

В целом проблемы с интерпретацией данных решаются, если сопоставить различные источники друг с другом и, как правило, когда накапливается достаточное количество данных, всё становится понятно.

Долги времён Римской империи

Иногда в данных бывают косяки. Зачастую безобидные, когда, например, отгружается проверка по несуществующей организации, или у дисквалифицированного лица указан ИНН, который ничему не соответствует. В таких случаях эти данные просто можно игнорировать и никак не показывать, но ошибки бывают и более существенные. Одна из самых частых проблем — опечатки в датах. Например, исполнительное производство, открытое, судя по дате, ещё в Римской империи — в 0204 году), и помеченное закрытым в 2015 году. Есть производства из будущего, например, от 2189 года (8585/17/50004-ИП, от 22 мая). Довольно много таких курьёзов можно отфильтровать по датам, но, допустим, бывает и такое: сначала появляются сведения о контракте на гос. закупку у какой-нибудь фирмы, а только через несколько дней появляются сведения, что эта фирма вообще зарегистрирована в налоговой.

набор открытых данных что это. Смотреть фото набор открытых данных что это. Смотреть картинку набор открытых данных что это. Картинка про набор открытых данных что это. Фото набор открытых данных что этоДолг из будущего

Иногда косяки бывают более хитрые. Например, всё та же незабвенная ФССП в один из дней выгрузила файл, в котором были перепутаны два столбца — номер исполнительного производства и номер исполнительного документа. А поскольку историю состояния по этим делам мы можем считать только сравнивая имеющиеся и новые файлы, то так вышло, что несколько миллионов исполнительных производств были помечены как закрытые. А на следующий день они переоткрылись, поскольку снова появились в файлах. Их приходится исправлять в ручном режиме, просто вычищая из БД все неверные данные.

Установить жёсткие правила, чтобы отфильтровывать ошибочные данные, не удаётся — кроме, пожалуй, случая с явно некорректными датами. Поэтому здесь мы действуем иначе: проверяем данные достаточно расслабленно, но при этом корректируем их по запросам пользователей. Так был разработан специальный механизм, который первоначально решал и проблему атрибуции.

Нейросеть vs. Бюрократия

И здесь я ещё раз вспоминаю о Федеральной службе судебных приставов. Помните, были истории, когда приставы по ошибке предъявляли требования полному тёзке должника? Так вот, с юридическими лицами происходит то же самое. Не вполне понятно, почему именно, но база ФССП (как доступная на сайте, так и, по-видимому, внутренняя), содержит только наименование и адрес организации, и в ней нет никаких реквизитов. При этом адрес может быть не юридический, а фактический, правда, в прошлом году эти поля всё-таки разделили (что, впрочем, не означает, что они не путаются). Можно предположить, что такие ошибки связаны с особенностями юридических процедур, но факт остаётся фактом — должников приходится искать по адресу и наименованию.

Один из наших пользователей по этому поводу написал:

Адский сайт. По-моему, они собирали совещания, где повесткой дня было: как сделать так, чтобы люди ничего не смогли найти даже по ИНН. И у них это получилось…

Атрибутировать производства оказалось весьма интересной задачей.

Здесь 48 означает код региона — Липецкую область. А ещё код региона может внезапно стоять в конце, вместо квартиры:

,ЕЛЕЦ Г,ПРОМЫШЛЕННАЯ УЛ,90,КОРП643,48

Пришлось вручную собрать разнообразные форматы адресов, подготовить на основе реальных адресов компаний тестовые данные и обучить небольшую нейронную сеть — сегментатор адресов. С разобранным адресом дальше уже дело техники: — найти нужную компанию, которая в определенный период была зарегистрирована по конкретному адресу, а эта информация у нас есть из ЕГРЮЛ. 100% точности, понятное дело, с такими исходными данными достичь не удастся, но большую часть должников мы успешно идентифицируем.

Аналогичный механизм пришлось делать и для картотеки арбитражных дел. Там часто бывают указаны реквизиты компаний, но иногда они перепутаны и требуется проверять все возможные соответствия, чтобы убедиться: нужные компании привязаны к нужным сторонам дела.

В целом автоматизировать всё это невозможно, и пользователи регулярно пишут в поддержку, что какое-то дело неверно атрибутировано. Для этих случаев был разработан так называемый механизм перепривязок. Мы, разумеется, не редактируем исходные данные, полученные из источников, но при этом храним таблицу переопределений — что-то вроде вклеенного в книгу списка опечаток. На одном из этапов обработки источника эти переопределения применяются, и в промежуточные представления, из которых отображается информация на сайте, уже попадают скорректированные данные.

Выводы

Работать с российскими государственными открытыми данными скучно не бывает. С одной стороны, часто приходится разбираться с какой-нибудь очередной новой предметной областью, где встречаются неожиданные глубины. Например, лицензирование различных сфер деятельности отличается довольно сильно, и нам нужно было свести их в единую структуру, чтобы показывать список лицензий у какой-нибудь компании. С другой стороны, есть и чисто технические вызовы: оптимизировать парсинг больших XML-файлов и сделать так, чтобы все интересующие пользователей данные отдавались быстро.

Всё это требует от разработчиков упорства и изобретательности в борьбе с артефактами цифровизации. Зато каждый раз, когда удаётся понять, что же на самом деле означают эти недокументированные цифры, или когда удаётся найти надёжный способ извлекать из данных нечто полезное, приходит чувство глубокого удовлетворения от очередной маленькой победы человека над бюрократией.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *