Что такое кхд в банке
Что такое DWH
Стойкая потребность в корпоративных хранилищах данных появилась еще в 90-х годах 20-го столетия. В этот период в бизнес-среде активно стали применяться информационные системы. Они применялись компаниями для контроля многих показателей эффективности работы, обеспечивая возможность мгновенно реагировать на их изменения. Каждое из приложений локально автоматизировало процесс производства или продажи товара, выполнение бухгалтерских расчетов, проведение банковских операций, позволяло составлять аналитику. Основные сложности на этом этапе состояли в разных рабочих схемах различных систем, что приводило к расхождению информации. Не было возможности получать консолидированные данные, позволяющие создать полноценную картину из отдельных прикладных систем.
Решить данную проблему призвано корпоративное хранилище данных – Data Warehouse, или DWH. Это предметно-ориентированная база данных, позволяющая автоматически готовить консолидированные отчеты и выполнять интеграцию бизнес-анализа. Благодаря ей пользователь получает возможность своевременно принимать правильные решения по управлению на основе целостной информационной картины. Так в чем отличие DWH от обычных баз данных? Почему она настолько привлекает внимание бизнес-аналитиков? Нужна ли она вашей компании? Постараемся найти ответы на эти вопросы.
Отличия DWH от других баз данных
Data Warehouse – это хранилище данных, которые нужны вашей компании для принятия решений. От обычных баз они отличаются:
То есть ответ запрос: DWH что это прост – это отдельная от оперативной системы база для хранения архивной информации от разных источников. Она работает совместно с процессами извлечения, загрузки или преобразования корпоративных данных (ETL). В результате получается единая система для хранения корпоративных сведений и работы с ними.
Зачем нужен DWH нужен бизнесу?
DWH хранилище – обязательный спутник любой бизнес-аналитики (BI, Business Intelligence). Оно принимает непосредственное участие в анализе данных и позволяет получать информацию, которая потребуется персоналу или руководителю при принятии соответствующих решений. На примере это выглядит так:
Если не использовать Data Warehouse, причину падения прибыли пришлось бы искать наугад, каждый раз проверяя теорию на практике до тех пор, пока не будет выявлена проблема. А это все заняло бы очень много времени. Ненамного быстрее была бы и работа с классическими базами данных. Маркетологу пришлось бы заходить в разные хранилища, пытаясь отыскать в них нужную информацию, сопоставлять ее.
Но это не единственные преимущества применения DWH. Единое хранилище данных обеспечивает:
На основе Data Warehous создаются и индивидуальные решения под большие объемы данных. Многие разработчики создают персональные коробочные и облачные проекты специально под такие задачи.
Структура DWH
Хранилище данных – это сложная технология с непростой архитектурой, состоящая из нескольких уровней:
Разработкой DWH должны заниматься опытные люди. Те, кто обладает глубокими профессиональными знаниями в данной области. Только так можно будет получить продукт, простой и эффективный в использовании.
Эффективность DWH в бизнес-аналитике
Современная бизнес-аналитика в комплексе с единым хранилищем данных открывает новые возможности для управления бизнесом. Специалисты получили уникальные ресурсы для построения теории и проведения экспериментов, подтверждающих или опровергающие ее, оперируя огромным количеством реальных показателей. В итоге в работу запускается не теоретическая модель, а реально работающий проект, который гарантированно дает высокий результат.
Правильное управление компанией – это не только повышение прибыли. Оно может быть направлено на расширение производственных мощностей, повышение благосостояния сотрудников, лояльности со стороны клиентов, формирования солидного образа и другие мероприятия, которые в перспективе будут способствовать стабильности бизнеса. И все эти показатели позволяет анализировать комплекс из Business Intelligence и Data Warehous. А что было бы без них? Как правило, это попадание пальцем в небо, тория вероятности, которую можно проверить только на практике. А это трата времени и денег, нанесение ущерба бизнесу.
Более подробные консультации из данной области, нюансах создания продукта высокого качества и техническую поддержку можно получить у специалистов компании Xelent.
Корпоративные хранилища данных. Интеграция систем. Проектная документация.
Что такое корпоративное хранилище данных (Data Warehouse) и кому его продавать
Чтобы продавать, надо понимать что продаем
Определимся с терминологией и понятиями. Корпоративное хранилище данных (Data Warehouse) – это не система ключевых показателей эффективности (КПЭ, KPI), это не большая база данных, это не аналитический OLAP-инструмент, это не интеллектуальная система, позволяющая добывать новые данные и получать статистические зависимости, это не система единой НСИ – это все не ХД, если говорить о нем в контексте отдельно взятого пункта.
Корпоративное хранилище данных – это специальным образом организованный массив данных предприятия (организации), обрабатываемый и хранящийся в едином аппаратно-программном комплексе, который обеспечивает быстрый доступ к оперативной и исторической информации, многомерный анализ данных (KPI по различным измерениям), получение прогнозов и статистики в разрезах согласованной нормативно-справочной информации (НСИ).
Потенциальные клиенты на корпоративное хранилище данных и что они получают?
Как определить потенциальных корпоративных клиентов, которым необходимо хранилище данных?
Какие выгоды клиент получает от внедрения корпоративного хранилища данных?
Из чего состоит корпоративное хранилище данных
Из каких компонентов строит корпоративное хранилище данных с технической точки зрения?
Компоненты корпоративного хранилища данных предприятия
Как выглядят компоненты корпоративного хранилища данных (модель данных, ETL-процессы, витрины данных)
Приведем наглядные примеры модели данных, реализации ETL-процесса, формы поддержки единой НСИ, витрин данных.
Логическая модель данных.
Определяет сущности, их атрибуты и связи между ними.
ETL процесс устранения дубликатов в исходных данных
Форма ввода данных для формирования единого справочника
Витрина данных в форме табличного отчета
Витрина данных с графиком и цветовым
выведением данных по заданному условию
Витрина данных с графиком
Сопутствующее программное и аппаратное обеспечение
Прежде всего, помимо самих услуг на разработку корпоративного хранилища данных, продаются еще и лицензии как на серверное програнное обеспечение (ОС, базу данных, сервер приложений и др.), так и на клиентские места (средства антивирусной защиты и обеспечения безопасности).
Возможно, существующие сервера клиента не предназначены для развертывания хранилища данных. Необходимо выдвигать к ним требования и продавать потенциальному клиенту «железо».
Помимо самих серверов для хранения значительного объема информации необходимы дисковые массивы.
Намереваясь строить корпоративное хранилище данных, потенциальный клиент не всегда понимает как он будет обеспечивать резервирование. Зачастую существующие у клиента системы резервного копирования не способны одномоментно подключить к резервированию объемы данных от 20-30 Тб.
Как правило, специалистам и пользователям клиента требуется прохождение курсов обучения.
Финансовая сфера
Для чего банку корпоративное хранилище данных
О необходимости иметь в банке корпоративное хранилище данных (КХД) не говорит только ленивый. Всерьез обсуждаются вопросы о том, сколько именно хранилищ может (должен) иметь банк, по какой модели их строить — по Инману (Bill Inmon), по Кимбаллу (Ralph Kimball) или по некоторой их «комбинации». Предлагаются «рецепты» по внедрению — на основе промышленной системы, отраслевой модели данных, небольшими «кусочками» или всем «пирогом» сразу
Начальник управления обработки данных и формирования отчетности
Доступ Онлайн
Доступ Онлайн + Печатное издание
Подписавшись на Bosfera.ru, вы сможете ежедневно читать аналитические материалы, расследования, интервью с известными экспертами и бизнесменами. Подписчики также получают неограниченный доступ к архиву
Начальник управления обработки данных и формирования отчетности
В преддверии SberDesign Conf Владислав Крейнин, старший вице-президент Сбербанка, рассказал «Б.О» о современных подходах к дизайну в компании и мире
В начале декабря в главном петербургском офисе банка «Санкт-Петербург» состоялось торжественное открытие уникального для России международного центра делового консультирования и поддержки импортеров и экспортеров — ВЭД 360
Станет ли 2022 год годом регулирования Big Data в России
Репортажи по итогам восьми сессий 4-ого финансового марафона Finversia
Экспозиция открыта в Москва-Сити
Свидетельство о регистрации (журнал «Банковское обозрение»): ПИ № ФС77-52048 от 07.12.2012.
Свидетельство о регистрации (сайт bosfera.ru): Эл № ФС77-43024 от 15.12.2010.
ООО «Методология бизнеса», а также авторы материалов сайта не несут ответственности за возможные убытки, которые могут быть причинены лицу в результате использования или неиспользования размещенной на сайте информации. Пользователи самостоятельно оценивают возможные риски совершения юридически значимых действий на основе размещенной информации и несут ответственность за их неблагоприятные последствия.
Что такое кхд в банке
В этой статье мы расскажем, что такое корпоративное хранилище данных, зачем оно нужно и как устроено. Еще рассмотрим основные достоинства и недостатки Data Warehouse, а также чем оно отличается от озера данных (Data Lake) и как традиционная архитектура КХД может использоваться при работе с большими данными (Big Data).
Где хранить корпоративные данные: краткий ликбез по Data Warehouse
Потребность в КХД сформировалась примерно в 90-х годах прошлого века, когда в секторе enterprise стали активно использоваться разные информационные системы для учета множества бизнес-показателей. Каждое такое приложение успешно решало задачу автоматизации локального производственного процесса, например, выполнение бухгалтерских расчетов, проведение транзакций, HR-аналитика и т.д.
При этом схемы представления (модели) справочных и транзакционных данных в одной системе могут кардинально отличаться от другой, что влечет расхождение информации. Частично этот вопрос Data Governance мы затрагивали в контексте управления НСИ. Кроме того, большое разнообразие моделей данных затрудняет получение консолидированной отчетности, когда нужна целостная картина из всех прикладных систем. Поэтому возникли корпоративные хранилища данных (Data Warehouse, DWH) – предметно-ориентированные базы данных для консолидированной подготовки отчётов, интегрированного бизнес-анализа и оптимального принятия управленческих решений на основе полной информационной картины [1].
Принцип слоеного пирога или архитектура КХД
Вышеприведенное определение DWH показывает, что это средство хранения данных является реляционным. Однако, не стоит считать КХД просто большой базой данных с множеством взаимосвязанных таблиц. В отличие от традиционной SQL-СУБД, Data Warehouse имеет сложную многоуровневую (слоеную) архитектуру, которая называется LSA – Layered Scalable Architecture. По сути, LSA реализует логическое деление структур с данными на несколько функциональных уровней. Данные копируются с уровня на уровень и трансформируются при этом, чтобы в итоге предстать в виде согласованной информации, пригодной для анализа [2].
Классически LSA реализуется в виде следующих уровней [3]:
Все слои, кроме сервисного, состоят из области постоянного хранения данных и модуля загрузки и трансформации. Области хранения содержат технические (буферные) таблицы для трансформации данных и целевые таблицы, к которым обращается потребитель. Для обеспечения процессов загрузки и аудита ETL-процессов данные в целевых таблицах стейджинга, ядра и витринах маркируются техническими полями (мета-атрибутами) [3]. Еще выделяют слой виртуальных провайдеров данных и пользовательских отчетов для виртуального объединения (без хранения) данных из различных объектов. Каждый уровень может быть реализован с помощью разных технологий хранения и преобразования данных или универсальных продуктов, например, SAP NetWeaver Business Warehouse (SAP BW) [2].
Data Lake и корпоративное хранилище данных: как работать с Big Data
В 2010-х годах, с наступлением эпохи Big Data, фокус внимания от традиционных DWH сместился озерам данных (Data Lake). Однако, считать озеро данных новым поколением КХД [4] не совсем корректно по следующим причинам:
Таким образом, озеро данных существенно отличается от КХД. Тем не менее, архитектурный подход LSA может использоваться и при построении Data Lake. Например, именно такая слоенная структура была принята за основу озера данных в Тинькоф-банке [6]:
В данном примере для структурированных запросов к большим данным используется Apache Hive – популярное средство класса SQL-on-Hadoop. Само файловое хранилище организовано в кластере Hadoop на основе коммерческого дистрибутива от Cloudera (CDH). Традиционное DWH банка реализовано на массивно-параллельной СУБД Greenplum [6]. От себя добавим, что альтернативой Apache Hive могла выступить Cloudera Impala, которая также, как Greenplum, Arenadata DB и Teradata, основана на массивно-параллельной архитектуре. Впрочем, выбор Hive обоснован, если требовалась высокая отказоустойчивость и большая пропускная способность. Подробнее о сходствах и различиях Apache Hive и Cloudera Impala мы рассказывали здесь. Возвращаясь к кейсу Тинькофф-банка, отметим, что BI-инструменты считывают данные из озера и классического DWH, обогащая типичные OLAP-отчеты информацией из хранилища Big Data. Это используется для анализа интересов, прогнозирования поведения, а также выявления текущих и будущих потребностей, которые возникают у посетителей сайта банка [6].
LSA-архитектура корпоративного Data Lake в Тинькоф-банке
В следующей статье мы продолжим разговор про архитектурные особенности современных DWH с учетом потребности работы с Big Data и рассмотрим еще несколько примеров таких гибридных подходов. А технические подробности реализации КХД и другие актуальные вопросы управления бизнес-данными вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
Публикации
2015 Банковские технологии
Кто в банке должен отвечать за качество данных?
Обеспечение качества данных кредитного учреждения является необходимым условием эффективного функционирования корпоративного хранилища данных (сокр. КХД) и подготовки банковской отчетности. Российский разработчик хранилищ данных – компания Intersoft Lab помогает банкам оптимизировать эту задачу и оказывает поддержку в создании специальной службы качества данных (сокр. СКД).
Понятие «качество данных» можно определить как уровень соответствия данных требованиям потребителя. О высоком уровне качества информации в автоматизированных системах банка можно говорить, когда данные:
Из-за неудовлетворительного качества данных организации возникают проблемы при построении хранилища данных и обеспечении консолидации, внедрении BI-инструментов, подготовке управленческой, аналитической и обязательной отчетности банка.
Качество данных в информационных системах является одним из факторов, оказывающих существенное влияние на успешность банка. Неадекватная оценка результатов деятельности кредитного учреждения из-за ошибок в данных, их отсутствия или несвоевременности получения становится причиной принятия неверных управленческих решений, упущенных выгод и возможностей развития бизнеса, неэффективной организации внутренних бизнес-процессов. Западные аналитики говорят о возможных потерях банками до 40% годового бюджета из-за «плохих» данных.
Задача достижения необходимого качества данных лежит в трех плоскостях: методической, технологической и организационной. Сначала учетные данные оцениваются с методической точки зрения, т.е. их пригодности для реализации конкретных методик подготовки отчетности. Выполняется проверка достаточности состава атрибутов первичных данных для выпуска отчетов, например, для расчета финансовых результатов в разрезе ЦФО, банковских продуктов, клиентских сегментов и другой аналитики. Принимаются соглашения о допустимом уровне качества первичных данных для расчета показателей. С учетом этих соглашений разрабатываются технологические меры по улучшению данных: исправлению ошибок, согласованию и обогащению данных недостающей аналитикой и т.п. Технологические меры реализуются на стороне КХД и автоматизированных банковских систем (сокр. АБС), а также с помощью ETL-инструментов. Для контроля правильности обработки данных сотрудниками банка принимаются организационные меры: разрабатываются регламенты для подразделений и обеспечивается их исполнение.
Однако, чтобы эта модель результативно работала в банке и развивалась, нельзя ограничиваться ее реализацией только при внедрении решения, контроль качества данных должен стать системно управляемым процессом. При изменении методик подготовки отчетности, ИТ-инфраструктуры и даже организационной структуры необходимо адекватно перестраивать процессы контроля качества данных банка. Именно поэтому Intersoft Lab рекомендует своим заказчикам создавать службу качества данных, обладающую достаточными полномочиями для управления работами по обеспечению качества информации во всех подразделениях банка. Создание службы позволяет сосредоточить функции контроля данных «в одних руках», повысить значимость задачи до уровня всего банка и преодолеть естественное сопротивление подразделений к исполнению новых задач.
Intersoft Lab оказывает консалтинговые услуги по организации службы качества данных в банке. Компания помогает определить задачи, состав специалистов службы и их функциональные обязанности, разработать должностные и технологические инструкции.
Чаще всего СКД формируется в составе ИТ-департамента из числа банковских технологов, поскольку в обязанности этих специалистов входит одновременно и методическая аналитика (разработка требований к составу данных и признаков, правилам их установки), и работа технолога КХД (настройка проверок и алгоритмов обогащения данных и подготовки отчетности в хранилище), и функции контроля исполнения регламентов работы с данными: правильности их ввода во всех информационных системах банка, корректности обработки данных на этапе ETL и на стороне хранилища. Новой службе передается разработанная в ходе внедрения технология контроля качества данных, проводится обучение сотрудников службы, обеспечивается помощь в разработке регламентов контроля и обогащения данных для различных подразделений и пользователей. Ответственность СКД распространяется на поддержку технологии обеспечения качества данных и ее непрерывное развитие.
Организационно-технологическая помощь Intersoft Lab дала возможность Банку «Санкт-Петербург» в короткие сроки выстроить специализированную службу и развернуть технологию контроля качества данных, используемых для подготовки отчетности кредитного учреждения на основе КХД.
Созданная в Банке служба обеспечила взаимодействие всех подразделений по поддержанию требуемого качества данных в КХД и в оперативных системах. На ежедневной основе служба осуществляет проверку исполнения работ по обеспечению качества данных в подразделениях и отслеживает ошибки в данных, оказывающие существенное влияние на отчетность. Исправление ошибок выполняется в установленные сроки теми подразделениями, в чей зоне ответственности они находятся. Если выявлены критические ошибки в бухгалтерском учете, например, неверные исходящие остатки по счетам, то они исправляются специалистами бухгалтерии в АБС. Работы по обогащению данных исполняют специалисты службы, запуская специальные процедуры в хранилище данных, а также сотрудники функциональных подразделений, устанавливая необходимые атрибуты в оперативных системах.
Служба имеет право созывать рабочую группу из представителей разных подразделений, чтобы обсуждать и согласовывать новые задачи повышения качества данных, которые могут возникнуть, например, при изменении методик подготовки отчетности. В результате коллегиальных решений могут быть оперативно изменены регламенты и процедуры контроля и обогащения данных.
Служба получила рычаги для мотивирования всех подразделений на соблюдение регламентов контроля данных и выработку предложений по улучшению качества данных. Так на основе рекомендаций службы могут быть рассмотрены решения о премировании/депремировании сотрудников подразделений.
В результате создания в Банке «Санкт-Петербург» специализированной службы обеспечен регулярный контроль данных в хранилище и всех информационных системах. Удалось выстроить эффективную систему управления качеством данных, работающую в интересах всех функциональных подразделений Банка, добиться доверия сотрудников банка к данным в хранилище.