Что такое метаданные документа и для чего они предназначены
Что такое метаданные и как их удалить?
В контексте конфиденциальности мы часто говорим о метаданных как о слабом звене. Несмотря на то, что данные можно легко скрыть и зашифровать, с метаданными зачастую это сделать гораздо сложнее.
Метаданные — это данные о данных. Например, если эта статья представляет собой данные, ее метаданные будут включать информацию о количестве слов, на каком языке она написана, когда была впервые опубликована и связана ли она с изображением. Если вы будете запрашивать эту статью с какого-либо сервера, метаданные этой передачи будут включать время запроса и ваш IP адрес (или IP адрес вашей VPN службы).
Метаданные очень полезны, поскольку они сокращают объем информации, необходимой для обработки файла, и могут упростить управление большими файлами. Но также они могут представлять угрозу для вашей конфиденциальности, потому что во многих случаях метаданные включают в себя всю информацию, необходимую для вашей идентификации. Например, если метаданные показывают, что вам позвонили из полицейского участка, за которым следует ваш звонок на мобильный телефон вашего ребенка, за которым следует звонок адвокату, — большая часть истории уже раскрыта.
Типы метаданных
Существует два основных типа метаданных:
К телефонному разговору также будет приложено множество описательных метаданных, например, кто звонил, кому звонил и откуда был звонок.
Для изображения описательные метаданные могут быть очень подробными. Они включают в себя производителя камеры, любое используемое программное обеспечение для редактирования, время диафрагмы объектива, время экспозиции, ориентацию, цветовое пространство, яркость, владельца камеры и даже местоположение изображения по GPS.
Примеры метаданных
Метаданные можно применять для организации всех видов цифровой информации самыми разными способами. Вот несколько примеров того, как они используются службами, с которыми вы, вероятно, взаимодействуете каждый день.
Как удалить или уменьшить количество метаданных?
Сократить количество метаданных может быть сложно. Как правило, чем больше о вас знает служба, тем больше метаданных создается с каждым вашим шагом.
Создать шум
Самый продвинутый и эффективный способ сделать метаданные бесполезными — это вызвать шум, то есть создать дополнительные данные для создания неточных метаданных. Если ваш компьютер каждую секунду отправляет различные зашифрованные запросы к веб-страницам, будет сложно определить, какие сайты вы на самом деле читали и посещали. Но сделать это очень сложно, поскольку все же остается вероятность отфильтровать ваши действия от автоматических действий.
Остерегайтесь метаданных
Раскрывая информацию о себе, помните, что эти данные часто могут использоваться для вашей идентификации. Даже когда содержимое ваших сообщений зашифровано, может оставаться достаточно информации, чтобы узнать больше о том, кто вы и чем занимаетесь.
Невидимая угроза: что нужно знать о метаданных
Мы регулярно делимся фотографиями в соцсетях, создаем плейлисты, оформляем покупки онлайн или отвечаем на email. Однако не все знают, что с каждым новым сообщением или постом, с каждым заказом в интернет-магазине мы оставляем всё больше цифровых следов. Этому способствуют метаданные.
Метаданные — это невидимая информация, или «данные о данных», важная составляющая любого документа, музыкального файла, видеозаписи или фотографии. Они присваиваются автоматически и включают в себя описание самого файла, заголовки и подзаголовки, автора и редактора, дату и время создания, версию и технические характеристики программы, в которой был создан файл, местоположение и т.п.
Метаданные помогают установить лицензионные ограничения на распространение информации, указывая на автора контента.
Провайдеры интернет-услуг и правительственные организации могут использовать метаданные с веб-страниц, электронных писем, телефонных звонков для мониторинга активности в интернете (вспоминаем закон Яровой).
Встроенные в веб-сайты метаданные включают описание ресурса, ключевые слова, метатеги и т.д. Они позволяют систематизировать информацию для поиска, а также идентифицировать контент.
Сайты интернет-магазинов активно используют метаданные для отслеживания привычек, потребностей, изменений вкусов пользователей. Сохраняя такую информацию, как тип устройства, геолокацию и т.д., маркетологи могут формировать актуальные для вас предложения (ну, или пугать излишней осведомлённостью, здесь как посмотреть).
Однако не всегда метаданные используются в благих целях. Эксперты Digital Security изучили вопрос и рассказали о потенциальной опасности от метаданных, попавших в руки к злоумышленникам.
Примечательно, что многие помнят о важности скрытия IP-адреса, знают способы его замены, но при этом даже не слышали о метаданных, которые могут предоставить больше личной информации, чем тот же IP-адрес.
Пользователи отправляют по Сети миллиарды файлов: документов, фото и видео. Только через один WhatsApp — около миллиарда фотографий ежедневно.
Специалисты Digital Security проанализировали популярные мессенджеры, почтовые сервисы, фотостоки и облачные хранилища, чтобы выяснить, как эти сервисы ведут себя с метаданными. Передают ли они файлы с существующими метаданными и личной информацией пользователей или изменяют и удаляют их?
Нам понадобились фотографии, видео и текстовые документы форматов DOCX, JPG, MP4, выборка из 16 популярных сервисов и ресурс Jeffrey’s Image Metadata Viewer. Вы можете ознакомиться с исследованием подробнее. Далее же приводим краткие выводы.
Вот что удалось выяснить:
При отправке любых файлов, будь то фото, видео или текстовый документ по Gmail, Mail или Яндекс.Почте метаданные остаются в целости и сохранности и содержат всю информацию о файле;
При загрузке файлов в облачные хранилища Яндекс.Диск, Google Drive и Mega.nz метаданные также остаются на месте;
В случае пересылки фото через функцию “Камера” (или из “Галереи”) данные убираются полностью, но при этом снижается качество отправляемого материала;
При передаче видеофайла таким же образом Viber оставляет данные нетронутыми; WhatsApp убирает геометку, а Telegram частично удаляет данные;
Метаданные обычно игнорируются как угроза цифровой безопасности, поскольку мы фокусируемся на содержании файла. Но иногда они могут оказаться полезнее, чем сам файл, и послужить источником информации о потенциальной жертве на первом этапе работы социального инженера. (Подробнее о социальной инженерии можете прочитать здесь).
По метаданным фотографий, опубликованных вами в соцсетях, можно вычислить основные маршруты передвижения по городу: место проживания и работы, любимые кафе и магазины. Если вы передаёте фотографии через мессенджеры вложенным файлом, то с ними передаётся и “дополнительная информация” — технические характеристики и модель устройства, на которое было сделано фото, дата съёмки и геолокация. Таким образом, имея ряд изображений одного и того же автора, можно судить о наличии определённых гаджетов, о распорядке дня, маршрутах передвижений и других деталях частной жизни.
Полученную информацию злоумышленник может использовать для подготовки сценария действий и необходимых средств атаки социальной инженерии (фишинговые ресурсы, вредоносные вложения и др.), а также для завоевания доверия пользователя.
Метаданные могут использоваться и при атаках на организации. Например, злоумышленник может подготовить эксплойт, узнав версию ПО. Более того, как мы уже выяснили (стр.8 исследования), в метаданных документов MS Office можно увидеть автора файла, обычно это ФИО или текущий логин операционной системы. Соответственно, неосторожно опубликованные документы компании могут послужить источником для словарей логинов. Мошенники охотно используют их в процессе перебора учетных данных на доступных ресурсах компании.
С точки зрения злоумышленника метаданные полезнее, чем сам файл. Особенно велика вероятность их использования при атаках социальной инженерии. Аналитики Digital Security советуют избавляться от метаданных, это можно сделать через раздел «Свойства». Для этого необходимо кликнуть на вкладку «Подробно» и отредактировать или удалить метаданные, нажав на ссылку «Удаление свойств и личной информации» и выбрав нужные пункты.
В мессенджерах и по почте пользователи отправляют несчетное количество документов и фотографий, и лишь немногие помнят о том, что отправляемые файлы содержат автоматически присвоенные данные о них: дату и время создания, имя автора, версию и технические характеристики программы или устройства и, конечно, отметку местоположения, которая заслуживает отдельного внимания.
Эти цифровые следы способны сыграть злую шутку. Поэтому если вы не хотите делиться личной информацией с третьими лицами — удаляйте метаданные. А чтобы скрыть свое местоположение, стоит отключить геолокацию в настройках камеры.
Наличие у каждого файла метаданных – это лишь еще одно напоминание о том, что сами пользователи могут становиться виновниками утечки своей же личной информации или чувствительной информации своей компании.
Следите за информацией, которой делитесь в Сети и сделайте свое цифровое пространство более безопасным!
Что такое метаданные. Объясняем простыми словами
Метаданные — это средство классификации, упорядочивания и характеристики данных.
Проще говоря, метаданные — это данные о данных (об их составе, содержании, статусе, происхождении, местонахождении, качестве, форматах, объёме, условиях доступа, авторских правах и т. п.).
Ежедневно мы отправляем электронные сообщения или файлы. У каждого такого послания есть не только содержание, но и дата и время отправки, указание отправителя и получателя, тип вложения, его объём и прочие характеристики. Это и есть метаданные.
Пример употребления на «Секрете»
«ProPublica обвинила корпорацию в сборе метаданных пользователей WhatsАpp — картинок, номеров телефонов, часовых поясов и даже IP-адресов. Куда они потом передавались? Журналисты ProPublica утверждают, что прямиком к американским силовикам».
(Из материала об уязвимостях проектов Facebook.)
Нюансы
Изначально этот термин означал средство каталогизации архивной информации: карточки библиотечного каталога включают систематизированные данные о каждой книге, в том числе название книги, его автора, жанр, аннотацию и т. д. Идея метаданных с тех пор не изменилась, хоть поле деятельности перешло в цифровой мир. По сути, вы генерируете метаданные прямо сейчас.
У любого файла, телефонного разговора, публикации в Facebook, видеофильма или перевода денег через банковское приложение есть метаданные. Мы часто не замечаем их, поскольку наше внимание закономерно сфокусировано на содержании. Но метаданные неотделимы от самих данных — трудно представить себе документ, у которого нет даты создания или редактирования.
Наличие возможности фильтровать метаданные значительно облегчает поиск определённого документа, файла или контента, ведь они содержат больше ценной информации, чем может показаться на первый взгляд. По метаданным можно выследить человека или получить на него компромат, полностью изменив его жизнь.
Доступ к вашим метаданным, которые передаются через интернет, есть у самых разных людей и организаций. Это могут быть как маркетологи, так и хакеры с госорганами. Например, заголовки писем могут быть доступны не только отправителю и адресату, но и почтовым провайдерам и даже спецслужбам. Владелец сайта, на который вы заходите, может узнать не только ваш IP-адрес, но и версии браузера и операционной системы. Это объясняется тем, что зачастую метаданные общедоступны и никак не защищены.
Правительства разных стран требуют от телекоммуникационных компаний хранить метаданные определённое количество времени для нужд правоохранительных органов и спецслужб. В России за эту процедуру отвечает «пакет Яровой», который предписывает сотовым операторам и интернет-компаниям хранить до шести месяцев весь пользовательский трафик — переписку в мессенджерах, социальных сетях и электронной почте, аудиозаписи звонков. При этом метаданные — то есть информацию о том, кому и когда звонил или пересылал файлы пользователь, — нужно хранить ещё дольше, а именно в течение трёх лет. Правоохранительные органы могут получить эту информацию по запросу.
Виды метаданных
Национальная организация по информационным стандартам (NISO) предлагает классифицировать метаданные таким образом:
Примеры
Метаданные используются при организации разных видов цифровой информации. Вот несколько примеров:
Существуют и признанные стандарты метаданных для определённых форматов данных. Например, таковым можно назвать общеевропейский исследовательский информационный формат (CERIF). Этот стандарт ЕС рекомендует своим государствам-членам для регистрации информации об исследовательской деятельности.
Как метаданные меняют жизнь людей
В апреле 2017 года московского математика Дмитрия Богатова обвинили в том, что он якобы призывал в Сети к массовым беспорядкам и терроризму на акции протеста. По версии следствия, Богатов под псевдонимом Айрат Баширов публиковал на интернет-форуме провокационные материалы о подготовке к вооружённому восстанию. Правоохранительные органы утверждали, что вычислили математика по IP-адресу. Сам Богатов объяснял, что не имеет к Айрату Баширову никакого отношения, поскольку в его квартире функционировал выходной узел сети Tor, с помощью которой с его IP-адреса публиковать сообщения мог фактически кто угодно. Поэтому трафик злоумышленника, предположительно, прошёл через компьютер математика.
Таким образом, метаданные (IP-адрес) послужили поводом для уголовного преследования. После того как Богатов провёл несколько месяцев в СИЗО, уголовное дело против него прекратили. Затем математик вместе с женой покинул Россию. Впоследствии по этому делу задержали Владислава Кулешова из Ставрополя, который признал вину и получил полтора года ограничения свободы.
Метаданные в управлении электронными документами
А ктивное использование электронных документов в государственном управлении и деловой деятельности неразрывно связано с развитием различного рода информационных систем (ИС), в т.ч. систем электронного документооборота (СЭД). В настоящее время большинство электронных документов создается, используется и хранится именно в информационных системах, и в этой связи все актуальнее становится вопрос о том, какую же информацию о документе и его жизненном цикле нужно сохранять и как долго нужно это делать.
Определимся с понятиями
Разговор о метаданных придется начать с терминологии, где у нас, как водится, хватает путаницы – в частности в том, чем отличаются метаданные от реквизитов. Не скрою, что и сама отчасти причастна к возникновению этой путаницы, поскольку в свое время, когда термин «метаданные» был еще в новинку, нередко объясняла его как аналог реквизитов.
В бумажном делопроизводстве к термину «реквизиты документа» все привыкли и понимают, что он означает:
36. реквизит документа: Элемент оформления документа.
С распространением информационных технологий и ИС в делопроизводстве появился термин «метаданные», который различными специалистами толкуется не совсем одинаково (приведенные ниже и некоторые другие определения можно найти в терминологической базе Международного совета архивов (МСА) по адресу http://www.ciscra.org/mat/mat/term/2713:
Итак, если реквизиты – это элементы формы (оформления) документа, то метаданные – это отделенные от содержания документа сведения о нем, способствующие его обработке любого рода. Многие реквизиты обычно дублируются в метаданных, но, как правило, не все. Многие метаданные, особенно технического плана, не имеют аналогов среди реквизитов. И если количество реквизитов для традиционных «бумагоподобных» документов невелико и они довольно неплохо регламентированы, то сфера метаданных представляет собой открытый, постоянно расширяющийся мир. Практически любая новая функциональная возможность поддерживается рядом новых метаданных.
С другой стороны, реквизиты по определению неотделимы от документа; в то время как метаданные могут:
Важнейшая функция метаданных, используемых для управления документами, – подтверждать целостность и аутентичность документа, а также способствовать его эффективному использованию и долговременной сохранности. Специалисты по управлению документами и архивисты используют метаданные для автоматизации регистрации документов и для создания научно-справочного аппарата.
В то же время может быть множество иных метаданных, поскольку:
1.11.2. Метаданные документа
К метаданным относится содержимое, которое устанавливает представление или поведение остального содержимого, отношения документа с другими документами, или передает другую «внешнюю» информацию.
HTML-элементы, семантика которых связана с метаданными
1. Элемент
Категории содержимого: нет.
Пропуск тегов: начальный тег может быть пропущен, если элемент пуст, или если сразу после него идет другой HTML-элемент. Закрывающий тег может быть пропущен, если он не следует сразу за пробелом или за комментарием.
Набор метаданных может быть как большим, так и маленьким:
2. Элемент
Категории содержимого: метаданные.
Пропуск тегов: ни один из тегов не может быть пропущен.
Элемент представляет заголовок или название документа (веб-страницы). Авторы должны использовать заголовки, которые дают поисковой системе понять, что содержится на странице, даже если заголовки используются вне контекста, например, в истории, закладках пользователя или в результатах поиска. Заголовок документа может отличаться от заголовка первого уровня, поскольку
не должен стоять отдельно, когда он вырван из контекста.
Текст внутри отображается браузером в заголовке окна. Также этот текст будет содержать ссылку на ваш сайт на странице результатов поиска. Длина заголовка должна быть не более 60 символов, чтобы поместиться полностью.
3. Элемент
Категории содержимого: метаданные.
Пропуск тегов: отсутствует закрывающий тег.
Атрибут target задает тип окна просмотра по умолчанию при переходе по всем гиперссылкам.
Элемент должен находиться перед любыми другими элементами в дереве, которые имеют атрибуты, определенные как принимающие URL, кроме элемента (его атрибут manifest не подвержен влиянию элемента ).
4. Элемент
Категории содержимого: метаданные. Если его использование разрешено в — потоковое или текстовое содержимое.
Пропуск тегов: отсутствует закрывающий тег.
Для элемента доступны глобальные атрибуты, а также атрибуты, приведенные в таблице:
Семантика первой состоит в том, что целевая страница содержит информацию об авторе текущей страницы, семантика второй заключается в том, что целевая страница содержит информацию о лицензии, под которой предоставляется текущая страница.
5. Элемент
Категории содержимого: метаданные.
Пропуск тегов: отсутствует закрывающий тег.
Для элемента доступны глобальные атрибуты, а также атрибуты, приведенные в таблице: