Что такое метаданные статьи
Что такое метаданные. Объясняем простыми словами
Метаданные — это средство классификации, упорядочивания и характеристики данных.
Проще говоря, метаданные — это данные о данных (об их составе, содержании, статусе, происхождении, местонахождении, качестве, форматах, объёме, условиях доступа, авторских правах и т. п.).
Ежедневно мы отправляем электронные сообщения или файлы. У каждого такого послания есть не только содержание, но и дата и время отправки, указание отправителя и получателя, тип вложения, его объём и прочие характеристики. Это и есть метаданные.
Пример употребления на «Секрете»
«ProPublica обвинила корпорацию в сборе метаданных пользователей WhatsАpp — картинок, номеров телефонов, часовых поясов и даже IP-адресов. Куда они потом передавались? Журналисты ProPublica утверждают, что прямиком к американским силовикам».
(Из материала об уязвимостях проектов Facebook.)
Нюансы
Изначально этот термин означал средство каталогизации архивной информации: карточки библиотечного каталога включают систематизированные данные о каждой книге, в том числе название книги, его автора, жанр, аннотацию и т. д. Идея метаданных с тех пор не изменилась, хоть поле деятельности перешло в цифровой мир. По сути, вы генерируете метаданные прямо сейчас.
У любого файла, телефонного разговора, публикации в Facebook, видеофильма или перевода денег через банковское приложение есть метаданные. Мы часто не замечаем их, поскольку наше внимание закономерно сфокусировано на содержании. Но метаданные неотделимы от самих данных — трудно представить себе документ, у которого нет даты создания или редактирования.
Наличие возможности фильтровать метаданные значительно облегчает поиск определённого документа, файла или контента, ведь они содержат больше ценной информации, чем может показаться на первый взгляд. По метаданным можно выследить человека или получить на него компромат, полностью изменив его жизнь.
Доступ к вашим метаданным, которые передаются через интернет, есть у самых разных людей и организаций. Это могут быть как маркетологи, так и хакеры с госорганами. Например, заголовки писем могут быть доступны не только отправителю и адресату, но и почтовым провайдерам и даже спецслужбам. Владелец сайта, на который вы заходите, может узнать не только ваш IP-адрес, но и версии браузера и операционной системы. Это объясняется тем, что зачастую метаданные общедоступны и никак не защищены.
Правительства разных стран требуют от телекоммуникационных компаний хранить метаданные определённое количество времени для нужд правоохранительных органов и спецслужб. В России за эту процедуру отвечает «пакет Яровой», который предписывает сотовым операторам и интернет-компаниям хранить до шести месяцев весь пользовательский трафик — переписку в мессенджерах, социальных сетях и электронной почте, аудиозаписи звонков. При этом метаданные — то есть информацию о том, кому и когда звонил или пересылал файлы пользователь, — нужно хранить ещё дольше, а именно в течение трёх лет. Правоохранительные органы могут получить эту информацию по запросу.
Виды метаданных
Национальная организация по информационным стандартам (NISO) предлагает классифицировать метаданные таким образом:
Примеры
Метаданные используются при организации разных видов цифровой информации. Вот несколько примеров:
Существуют и признанные стандарты метаданных для определённых форматов данных. Например, таковым можно назвать общеевропейский исследовательский информационный формат (CERIF). Этот стандарт ЕС рекомендует своим государствам-членам для регистрации информации об исследовательской деятельности.
Как метаданные меняют жизнь людей
В апреле 2017 года московского математика Дмитрия Богатова обвинили в том, что он якобы призывал в Сети к массовым беспорядкам и терроризму на акции протеста. По версии следствия, Богатов под псевдонимом Айрат Баширов публиковал на интернет-форуме провокационные материалы о подготовке к вооружённому восстанию. Правоохранительные органы утверждали, что вычислили математика по IP-адресу. Сам Богатов объяснял, что не имеет к Айрату Баширову никакого отношения, поскольку в его квартире функционировал выходной узел сети Tor, с помощью которой с его IP-адреса публиковать сообщения мог фактически кто угодно. Поэтому трафик злоумышленника, предположительно, прошёл через компьютер математика.
Таким образом, метаданные (IP-адрес) послужили поводом для уголовного преследования. После того как Богатов провёл несколько месяцев в СИЗО, уголовное дело против него прекратили. Затем математик вместе с женой покинул Россию. Впоследствии по этому делу задержали Владислава Кулешова из Ставрополя, который признал вину и получил полтора года ограничения свободы.
Невидимая угроза: что нужно знать о метаданных
Мы регулярно делимся фотографиями в соцсетях, создаем плейлисты, оформляем покупки онлайн или отвечаем на email. Однако не все знают, что с каждым новым сообщением или постом, с каждым заказом в интернет-магазине мы оставляем всё больше цифровых следов. Этому способствуют метаданные.
Метаданные — это невидимая информация, или «данные о данных», важная составляющая любого документа, музыкального файла, видеозаписи или фотографии. Они присваиваются автоматически и включают в себя описание самого файла, заголовки и подзаголовки, автора и редактора, дату и время создания, версию и технические характеристики программы, в которой был создан файл, местоположение и т.п.
Метаданные помогают установить лицензионные ограничения на распространение информации, указывая на автора контента.
Провайдеры интернет-услуг и правительственные организации могут использовать метаданные с веб-страниц, электронных писем, телефонных звонков для мониторинга активности в интернете (вспоминаем закон Яровой).
Встроенные в веб-сайты метаданные включают описание ресурса, ключевые слова, метатеги и т.д. Они позволяют систематизировать информацию для поиска, а также идентифицировать контент.
Сайты интернет-магазинов активно используют метаданные для отслеживания привычек, потребностей, изменений вкусов пользователей. Сохраняя такую информацию, как тип устройства, геолокацию и т.д., маркетологи могут формировать актуальные для вас предложения (ну, или пугать излишней осведомлённостью, здесь как посмотреть).
Однако не всегда метаданные используются в благих целях. Эксперты Digital Security изучили вопрос и рассказали о потенциальной опасности от метаданных, попавших в руки к злоумышленникам.
Примечательно, что многие помнят о важности скрытия IP-адреса, знают способы его замены, но при этом даже не слышали о метаданных, которые могут предоставить больше личной информации, чем тот же IP-адрес.
Пользователи отправляют по Сети миллиарды файлов: документов, фото и видео. Только через один WhatsApp — около миллиарда фотографий ежедневно.
Специалисты Digital Security проанализировали популярные мессенджеры, почтовые сервисы, фотостоки и облачные хранилища, чтобы выяснить, как эти сервисы ведут себя с метаданными. Передают ли они файлы с существующими метаданными и личной информацией пользователей или изменяют и удаляют их?
Нам понадобились фотографии, видео и текстовые документы форматов DOCX, JPG, MP4, выборка из 16 популярных сервисов и ресурс Jeffrey’s Image Metadata Viewer. Вы можете ознакомиться с исследованием подробнее. Далее же приводим краткие выводы.
Вот что удалось выяснить:
При отправке любых файлов, будь то фото, видео или текстовый документ по Gmail, Mail или Яндекс.Почте метаданные остаются в целости и сохранности и содержат всю информацию о файле;
При загрузке файлов в облачные хранилища Яндекс.Диск, Google Drive и Mega.nz метаданные также остаются на месте;
В случае пересылки фото через функцию “Камера” (или из “Галереи”) данные убираются полностью, но при этом снижается качество отправляемого материала;
При передаче видеофайла таким же образом Viber оставляет данные нетронутыми; WhatsApp убирает геометку, а Telegram частично удаляет данные;
Метаданные обычно игнорируются как угроза цифровой безопасности, поскольку мы фокусируемся на содержании файла. Но иногда они могут оказаться полезнее, чем сам файл, и послужить источником информации о потенциальной жертве на первом этапе работы социального инженера. (Подробнее о социальной инженерии можете прочитать здесь).
По метаданным фотографий, опубликованных вами в соцсетях, можно вычислить основные маршруты передвижения по городу: место проживания и работы, любимые кафе и магазины. Если вы передаёте фотографии через мессенджеры вложенным файлом, то с ними передаётся и “дополнительная информация” — технические характеристики и модель устройства, на которое было сделано фото, дата съёмки и геолокация. Таким образом, имея ряд изображений одного и того же автора, можно судить о наличии определённых гаджетов, о распорядке дня, маршрутах передвижений и других деталях частной жизни.
Полученную информацию злоумышленник может использовать для подготовки сценария действий и необходимых средств атаки социальной инженерии (фишинговые ресурсы, вредоносные вложения и др.), а также для завоевания доверия пользователя.
Метаданные могут использоваться и при атаках на организации. Например, злоумышленник может подготовить эксплойт, узнав версию ПО. Более того, как мы уже выяснили (стр.8 исследования), в метаданных документов MS Office можно увидеть автора файла, обычно это ФИО или текущий логин операционной системы. Соответственно, неосторожно опубликованные документы компании могут послужить источником для словарей логинов. Мошенники охотно используют их в процессе перебора учетных данных на доступных ресурсах компании.
С точки зрения злоумышленника метаданные полезнее, чем сам файл. Особенно велика вероятность их использования при атаках социальной инженерии. Аналитики Digital Security советуют избавляться от метаданных, это можно сделать через раздел «Свойства». Для этого необходимо кликнуть на вкладку «Подробно» и отредактировать или удалить метаданные, нажав на ссылку «Удаление свойств и личной информации» и выбрав нужные пункты.
В мессенджерах и по почте пользователи отправляют несчетное количество документов и фотографий, и лишь немногие помнят о том, что отправляемые файлы содержат автоматически присвоенные данные о них: дату и время создания, имя автора, версию и технические характеристики программы или устройства и, конечно, отметку местоположения, которая заслуживает отдельного внимания.
Эти цифровые следы способны сыграть злую шутку. Поэтому если вы не хотите делиться личной информацией с третьими лицами — удаляйте метаданные. А чтобы скрыть свое местоположение, стоит отключить геолокацию в настройках камеры.
Наличие у каждого файла метаданных – это лишь еще одно напоминание о том, что сами пользователи могут становиться виновниками утечки своей же личной информации или чувствительной информации своей компании.
Следите за информацией, которой делитесь в Сети и сделайте свое цифровое пространство более безопасным!
А ваш научный журнал обладает полными метаданными? Интервью с Патришией Фини (Crossref)
Если Вам важно, чтобы статьи в научном журнале отображались в результатах онлайн-поиска и в науокометрических индексах, то наличие качественных метаданных должно быть одним из ваших главных приоритетов. Метаданные — это данные, хранящиеся в цифровом объекте, например, журнальной статье. Эти данные предоставляют информацию о содержимом объекта. Когда мы говорим о полях метаданных, мы имеем в виду данные, которые можно использовать для организации или поиска определенных статей в Интернете. Основными матаданными являются, например, название журнала, ISSN, название статьи. Примером более специфических метаданных могут служить релевантные ключевые слова и ORCID авторов.
Crossref — одно из регистрационных агентств DOI. Метаданные заносятся в DOI, который, в свою очередь, присваивается контенту, с которым связан DOI. Crossref не может обрабатывать данные статей, если те выпускаются только в текстовом формате. Для регистрации DOI необходимо предоставить метаданные в машиночитаемом формате, который система может «прочитать» и использовать для хранения информацию о статье с помощью DOI. Точно так же, многие научные базы данных и основные онлайн-браузеры, такие как Google и Google Scholar, полностью или частично используют машинно-читаемые метаданные для индексации цифровых объектов и их выдаче в поиске. Поэтому очень важно, чтобы журналы не просто публиковали статьи в Интернет, надеясь на то, что индексы и браузеры смогут их обрабатывать, но и предоставляли полные метаданные ко всем статьям, чтобы сделать их индексируемыми.
Недавно Crossref выпустил бета-версию нового инструмента под названием «Отчеты об участии» — https://www.crossref.org/members/prep/, который помогает журналам-членам проверить качество машиночитаемых метаданных, связанных с каждым из их DOI. Данный инструмент может сказать, какие метаданные хранятся в каждом из DOI журнала, а каких нет. Это может помочь журналам узнать, где они могут улучшить свои записи. В этом интервью директор отдела метаданных Crossref Патришия Фини рассказывает о новом инструменте, требованиях метаданных Crossref и некоторых общих рекомендациях, которые помогут Вам узнать, имеют ли ваши статьи полные машиночитаемые метаданные.
Интервью с Патришией Фини:
— Не могли бы Вы вкратце объяснить, что такое машиночитаемые метаданные и почему так важно, чтобы журналы имели машиночитаемые метаданные для каждой из своих статей?
— Машиночитаемые метаданные — это описательные метаданные, которые могут быть «прочитаны» компьютером. Это означает, что это организованные, чистые метаданные, которые следуют определенным правилам. Сегодня многие журнальные статьи обрабатываются с использованием XML, который следует определенному набору правил, требующих четкой маркировки названий, имен авторов и тому подобного, чтобы машина могла «понимать» правила и знать, для чего предназначен каждый фрагмент данных.
Машиночитаемые метаданные очень важны для поиска. По крайней мере, каждая статья должна обладать основными метаданными, чтобы поисковые и библиотечные системы могли импортировать эти метаданные, связывать читателей с тем, что они ищут, а также помогать читателям открывать новую информацию для дальнейших исследований. Машиночитаемые метаданные также важны для правильного цитирования. Вы хотите убедиться, что статьи цитируются точно. А кто-то, глядя на вашу статюю, должен уметь найти четкую ссылку на то, что вы цитируете. Но на данный момент слишком много людей делают все это вручную, что приводит к большому числу ошибок в цитировании.
Примечание РАЦС:
Crossref имеет собственную схему метаданных, которую должны соблюдать все участники. Они должны иметь возможность создавать XML и отправлять его в Crossref в соответствии с правилами схемы метаданных. Система Гефест, разработанная РАЦС, помогает генерировать XML для регистрации DOI в Crossref и DataCite, а также преобразовывать метаданные из Российского Индекса Научного Цитирования (РИНЦ) в xml для регистрации DOI. Помимо этого, при помощи Гефест можно генерировать и переносить в различные системы XML DOI (DataCite и Crossref с опцией Crossmark), РИНЦ (elibrary.ru), DOAJ, AGRIS, PubMed, Math-Net, Chemical Abstracts и GeoRef.
— Я думаю, что основные метаданные, которые должны предоставить издатели, — это базовая информация о цитировании, чтобы можно было идентифицировать имеющиеся у нас записи метаданных. Поэтому важными являются заголовок, имена авторов и любые идентификаторы, такие как ISSN. Одним словом, все данные, необходимые для создания полной записи.
— Какие рекомендации по метаданным Вы бы предложили? Что бы Вы назвали основными плюсами и минусами?
— Есть несколько довольно простых советов для формирования метаданных журнала. Это может быть довольно сложно, если вы делаете это вручную (примечание РАЦС: система Гефест позволяет предоставить все необходимые метаданные и осуществить их проверку). Я думаю, что для журналов, в частности, важно обращать внимание на информацию об авторах — именно здесь у нас может быть много проблем с неверными данными. Включение ORCID в метаданные помогает решить проблемы идентификации автора. Если издатели еще этого не делают, им следует рассмотреть возможность получения ORCID от авторов. Другой совет – уделять больше времени проверки метаданных. Вы можете подумать, что это требует слишком много усилий, и что овчинка не стоит выделки. Но журналы должны знать, что оно того стоит. Метаданные перемещаются очень далеко, и важно убедиться, что детали верны.
— Можете ли Вы объяснить новый инструмент отчетов об участии? Как участники могут использовать это?
— Наши отчеты об участии решают одну из самых больших проблем.
Инструмент позволяет понять, являются ли полными метаданные, которые представили журналы. По сути, он проверяет, отправляете ли вы нам все метаданные, которые, по вашему мнению, отправляете.
При первом входе на страницу отчетов появляется окно поиска, которое можно использовать для просмотра отчетов по имени участника или издателю. Далее вы можете найти конкретный заголовок статьи. В отчетах по издателю, вы увидите сводку всех данных в своем журнале или журналах. Вы можете посмотреть какой статус метаданных у текущего контента, а также, сколько объектов было зарегистрировано в Crossref.
Это очень простой инструмент, который позволяет получить много ценной информации. Например, он показывает, отправляются полные ссылки или нет. Отчеты не дадут информации о качестве ваших метаданных. Например, вы не сможете определить, верны ли имена авторов, но они покажут, сколько статей имеют ORCID. Участники, работающие со спонсорами, могут не иметь четкого представления о том, что они нам отправляют. Или если участник работает с системой, которая обрабатывает большое количество статей, и которой может быть очень сложно проверить каждую из них, отчеты помогут увидеть, попадают ли ссылки в Crossref. Поэтому я думаю, что это очень простой, но мощный инструмент. Отчеты находятся в свободном доступе, все пользователи могут просматривать метаданные издателя.
— Каковы основные преимущества для журналов в использовании отчетов для проверки своих метаданных? Что Вы надеетесь получить от этого нового инструмента?
— Я думаю, что реальная выгода для наших участников заключается в том, что отчеты дают представление о качестве метаданных, которые они отправляют в Crossref. В ходе обсуждений с участниками мы обнаружили, что многие из них хотят присылать нам более качественные метаданные, но иногда им трудно получить общую картину того, как их записи обрабатываются Crossref. Так что это своего рода первый шаг к тому, чтобы позволить издателям увидеть это самим. Это облегчит им просмотр статей и позволит понять, не теряются ли какие-либо метаданные, которые они отправляют.
Мы надеемся, что этот новый инструмент повысит осведомленность о различных типах метаданных, которые могут быть отправлены в Crossref. Наши участники знают, что им нужно отправлять нам базовые метаданные цитирования, но они могут не знать, что могут отправлять нам, например, URL-адреса с текстом и данными. Посмотрев на этот отчет, участники смогут увидеть опции метаданных, которые они еще не используют. Это может привести к тому, что они начнут посылать нам дополнительные метаданные.
Инструмент «Отчет об участии» все еще находится на стадии бета-тестирования, и мы хотели бы получить больше отзывов о нем и в целом больше отзывов о том, что нужно нашим членам от нас, чтобы понять и улучшить качество их метаданных.
Содержание, метаданные и контекст открытых данных
Результат публикации данных в свободном и бесплатном доступе напрямую зависит от их состава и качества. Чем более полными и корректными окажутся публичные данные, тем выше будет эффективность их использования и тем больше пользователей предпочтет поработать с ними.
В отношении любых передаваемых данных, особенно публичных, необходимо всегда оценивать три их ключевых аспекта: состав (содержание), описание (метаданные) и окружение (контекст).
Настоящая публикация продолжает тему открытых, разделяемых и делегируемых данных и относится ко всем этим трем указанным категориям.
Организация данных
Первый важный аспект публичных данных связан с их содержимым и с их внутренней организацией.
Смысл
Всякие хорошие данные обладают некоторым полезным смыслом. Бессмысленная информацию в любом виде непригодна для последующей обработки и анализа в любом виде деятельности с помощью любых инструментов.
Цифровые данные, о которых идет речь в данной публикации, являясь первичными или даже вторичными, в той или иной мере отображают результат определенного сбора информации. Осуществляемый сбор информации позволяет записывать некоторые качественные и количественные значения свойств объектов, процессов, явлений, событий и т.п. Структурно-организованные регистрируемые сведения сохраняются как цифровые данные на соответствующих носителях. Очевидно, что таким образом полученные данные прямо (первичные) или косвенно (вторичные) определяют некий предметный смысл.
Учитывая тот факт, что на данные прямое и неотделимое влияние оказывает человеческий фактор, всегда можно говорить о том, что они описывают не объективную реальность, а некоторое понимание человеком той объективной реальности, о которой он целевым образом собирает сведения. Иными словами, данные всегда содержат некую долю субъективности в своем содержимом или в структуре и описывают воспринимаемую модель из заданной предметной области.
Именно тот факт, что данные в той или иной степени описывают некоторый смысл целевой модели, возможен последующий их анализ и выявление важных атрибутов такой модели.
Смысл, который содержат данные определяет необходимость и важность их публикации. Например, особый социальный и экономический смысл имеют государственные статистические данные – отсюда, очевидная задача их издания как в виде цифровых датасетов, так и в виде специальных переработанных сборников. Если данные не несут какой-то важный смысл для пользователей или вообще представляют собой бессмысленную регистрацию потока явлений и событий, то они не будут востребованы. Это утверждение наводит на определенную мысль о том, что публиковать стоит цифровые наборы с хорошо формализованным смыслом.
На то, какой смысл имеют данные влияет их уровень передела.
Наиболее ценными с этой точки зрения и обладающие неискаженным смыслом являются собранные первичные данные. Чем больше обработок было произведено с данными, тем больше смысл искажается и видоизменяется. Отсюда необходимость явно указывать количество и качество переделов данных.
Смысл содержащийся в данных накладывает свой отпечаток на их структуру.
Структура
В данных всегда можно выделить некие неделимые минимальные целостные единицы.
Причем такие неделимые целостные единицы всегда обладают смыслом большим, чем прямым. Например, символ (в простейшем виде) не несет никакое дополнительное значение, кроме того, что он представляет собой некую букву алфавита, цифру или специальное обозначение в тексте. С другой стороны, слово, кроме того, что представляет некий набор тех же символов, имеет смысловое понятийное значение и определяет некий объект (существительное), атрибут (прилагательное), действие (глагол) и т.д. Поэтому деление слова на символы – деление минимальной целостной единицы – приводит к потере его понятийного значения.
Выбор минимальной целостной и неделимой единицы является субъективным понятием в рамках заданной тематики и целей пользователя.
Например, для каких-то целей, может быть установлено, что неделимой единицей признается не отдельное слово, а целое предложение. В то же время даже некоторые форматы могут задавать особенности построения минимальных единиц данных. Например, в рамках электронных таблиц достаточно просто и удобно принимать за минимальную единицу данных содержимое отдельной ячейки. Однако во многом, выбор целостной единицы данных обусловлен совокупностью критериев предметной области данных и способом их записи.
После того, как задано понятие минимальной неделимой единицы данных, возникает и понятие структуры всей совокупности целевых данных. Так для электронной таблицы, единицы данных формируют наборы данных в виде строк или столбцов, а в последующем группируются в таблицы (листы) и наборы таблиц (книги).
Удобно выделять два уровня группировки целостных единиц данных:
Структуру данных необходимо иметь для возможности производить какую-либо осмысленную их обработку.
Операции с данными производятся непосредственно с неделимыми целостными единицами или с их группами. Причем даже есть возможность обрабатывать неделимые целостные единицы тем или иным образом создавая из них новые. Например, это позволяет делать функционал электронных таблицы: обрабатывать содержимое отдельной ячейки и разделять её на некие составные элементы, но при этом основной акцент в подобном приложении всё-таки сделан на обработке ячеек как на простейших обрабатываемых элементарных единицах.
Второй ключевой особенностью выделения в цифровых данных отдельных целостных единиц и последующей их группировки – это возможность идентификации.
Назначение уникального абсолютного или относительного имени как для неделимой части данных, так и для упорядоченного набора данных значительно расширяет функционал обработки. Адресация, реферирование, рекурсия, классификация и множество дополнительных простых или сложнейших операций применимы к именованным или идентифицированным элементам данных с последующим возвратам к первоисточнику (история ссылок).
Ещё одна полезная и важная особенность структуры данных, как производная от идентификации заключается в связывании отдельных элементов данных по тем или иным критериям или задачам. Связывание фактически приводит к появлению такого функционала как вторичное структурирование, нелинейное упорядочивание, гиперссылки, альтернативные пути обхода и т.п. Если сопроводить связь некоторыми дополнительными атрибутами, то можно выделить даже особый класс объектов-описателей и выстроить сложные зависимые структуры доселе невообразимых форм и сочетаний. Именно за счет связывания появляется некая динамика в данных.
Структурирование данных привносит значительный вклад в возможности их не только цифровой обработки, но и смысловой аналитики.
Моделирование правильных и эффективных структур цифровых данных достаточно сложная и ответственная компетенция которая может давать хороший результат только при совмещении знаний информационных технологий и предметной области. Удачно заданная структура позволяет удобно и результативно работать с данными как человеку, так и машине. Иными словами, правильный выбор структуры позволяет быстро распознавать упорядоченные данные непосредственно человеком или созданными алгоритмами.
Структура данных, как уже упоминалось, может зависеть от формата записи и хранения данных, но это ещё не сам формат. А значит она может трансформироваться. И значит в рамках одного и того же формата могут задаваться разные структуры. В подавляющих случаях на практике, для значительного упрощения и для большей эффективности, структура тесно взаимосвязана с форматом.
Формат
В контексте данной публикации «формат» – это способ сохранения данных в физической обособленной единице (файл, запись, таблица, поток) на заданном носителе.
Формат определяет возможности прочитать и принять данные в обработку как человеком, так и алгоритмом. Если структура задает содержательную организацию данных, то формат представляет собой техническую сторону их записи и хранения.
С учетом того, что цифровые данные неотъемлемы от машинных носителей, формат реализуется на трех машино-зависимых слоях, выбором соответствующего способа форматирования на каждом из слоев:
Кодировка символов – это достаточно понятная и урегулирования часть, которая в целом пришла к относительной теоретической и практической стабильности. Тем не менее даже в этом вопросе практика применения оставляет желать лучшего. Что уж говорить о нотации и схеме данных, особенно в применении к публичным данным. Множество факторов и противоречивых интересов, замешанных на свободных стандартах и платных мощных инструментах.
Ключевой фактор выбора нотации данных, как одного из уровней форматирования, состоит непосредственно в структуре данных.
Например, если структурирование данных сведено к таблице, то очевидно, что удобно будет её отформатировать, скорее, как CSV, чем как HTML. С другой стороны, задача может быть поставлена так, что выбор будет сделан в пользу XML. Кажется, совсем уж экзотическим, но вполне возможно нотировать таблицу данных и как последовательность команд INSERT (SQL) для каждой из строк.
Для публичных данных наиболее предпочтительным являются простые, свободные и распространенные форматы. Приоритетной, например, для открытых государственных данных выглядит связка: [Unicode + CSV|XML + custom_scheme]. Причем custom-схема данных часто описывается в «паспорте открытых данных».
Конечно же можно и нужно развивать форматы передаваемых и публикуемых данных. Но в большей степени новинки из этой области будут восприняты на частном уровне или при защищенном трансфере данных. Для публичных данных пока останутся более понятными и актуальными те форматы, которые получили массовое распространение и для работы, с которыми существует множество как платных, так и бесплатных инструментов, которыми привыкли пользоваться аналитики.
Вопрос повторного использования данных может быть неверно отнесен к особенностям их форматирования, но это скорее вопрос правильного их структурирования. Именно на уровне структуры цифровых данных появляется возможность связывания и организации ссылок. Формат лишь только определяет фактические правила записи и разрешения ссылок. В том числе формат может задавать или поддерживать «межформатные» правила ссылок, чтобы у пользователя появилась возможность сослаться в одном наборе или элементе данных на другой.
Описание данных
Второй аспект публичных данных – это их эффективное описание, которое в конечном итоге превращается в метаданные. Если для внутренних или защищаемых при передаче данных этот аспект может быть на какое-то время упущен из виду, то для данных, которые размещаются в сети открыто и бесплатно – это очень важно для их последующего эффективного использования.
Для целостной передачи публичных данных, самый лучший способ – это сохранять метаданные «внутри» самих данных. То есть таким образом записывать оригинальные цифровые данные, чтобы они параллельно сопровождались некоторыми атрибутами, а структура записи позволяла алгоритмам извлекать заложенные в неё метаданные.
Что достаточно хорошо можно делать, например, в рамках XML-нотации: где разметка уже определяет тип элемента (узел, атрибут, документ), а применение атрибутов и имен пространств открывает возможности для внедрения метаданных. Однако чтение данных совмещенных с их описанием, как минимум, требует овладения более сложными компетенциями и инструментами. Гораздо понятней и очевидней для большинства пользователей получать чистые данные с наименованием и заголовками. Но это в свою очередь вызывает свои проблемы в чтении и понимании данных. До выработки единых и понятных стандартов в этом направлении пока далеко.
Метаданные должны включать:
Как минимум, пользователю надо обозначить состав и назначение данных, а также дать указание на машинный формат их записи и хранения. Кроме того, хорошо, если метаданные включают оценку качества данных.
Для понимания того, что следует включать в метаданные, можно рассмотреть операции, в которых они фактически применяется или требуются к применению. Вот наиболее важные семь из них с точки зрения двух непосредственно взаимодействующих ролей в рамках public-схемы трансфера данных:
1. Идентификация данных
Качество публичных данных начинается с качества их метаданных.
Окружение данных
Особую роль в отдельных ситуациях начинает играть третий аспект публичных данных – окружение.
Это наиболее сложный из трех рассматриваемых (другие два – содержание и метаданные) – но он наиболее ценный для стратегического и тематического развития аналитики и поиска знаний, особенно с подключением смежной проблематики.
В пространстве публичных данных – контекстом для заданного набора будут являются все иные данные с которыми их смогут корректно связать аналитики по тем или иным основаниям.
Правильно указать контекст можно только если для основных данных правильно задана предметная область и их назначение.
Контекстные связываются с основными данные несколькими способами:
Постоянное разукрупнение анализируемого массива данных путем поиска и подключения к нему дополнительного окружения не может считаться нормой, если является самоцелью. Поэтому рациональным подходом можно назвать обстоятельную работу по тщательному планированию исследования данных в рамках которого обозначают и придерживаются ограниченного набора. Вопрос «а какие данные ещё нужны?» должен задаваться на ключевых этапах анализа в случаях, когда действительно требуется расширить смысловой фронт исследований.
Контекст редко принимается во внимание при публикации данных или при их использовании, либо воспринимается как некое само собой разумеющееся действие по увеличение массива данных. Однако именно неограниченная возможность расширения основы контекстом и многочисленные варианты комбинирования данных позволяют получить преимущество публичного использования данных перед закрытым. В этой связи приоритетным является развитие хранилищ общедоступных и общезначимых цифровых данных, которые составляют контекст для любых данных в заданной предметной области. Например, при работе с экономическими данными может оказаться крайне полезным иметь в свободном доступе общеприменимые справочники, классификаторы, каталоги (например ОКВЭД, КЛАДР, БИК, ЕГРЮЛ и т.п.)
В этих же целях крайне полезны создаваемые и развиваемые тематические «порталы» и «хабы» открытых данных.