Управление и эксплуатация хранилищ данных

Управление хранилищем включает проверку качества данных, управление системами (это техническое и программное обеспечение, процедуры, персонал и данные) и управление метаданными. Метаданные содержат информацию о времени создания и обновления базы данных, о людях, ответственных за ведение базы, а также о структуре базы и логике интеграции процессов. Эта информация показывает, как связаны данные различных уровней, а также соединяет все эти уровни в архитектуре хранилища данных. Таким образом, метаданные — это интегральная часть хранилища данных (Inmon, 1993).
Успешность хранилища данных однозначно определяется способностью пользователя принимать эффективные и квалифицированные решения при помощи некоторых инструментов, которые мы обсудим ниже. В распоряжении конечного пользователя находится несколько инструментов, которые открывают им доступ к данным, позволяют анализировать и визуализировать данные в целях поддержки принятия решений.
Доступ к любому источнику данных, находящемуся в любом месте
Важной чертой любой системы поддержки принятия решений или управляющей системы является возможность осуществлять доступ к любым операционным или дочерним системам. Пользователи хранилища получают доступ к любой внутренней операционной (СОТ) системе данных, а также, через ODBC, к любым данным, предоставленным другими организациями (например, данные фондовой биржи, агентств новостей, демографические, географические данные, информация из Интернета и т. д.). ODBC — это свойство и функция хранилища данных, которая позволяет осуществить доступ к любым источникам данных, находящимся в любом месте.
Интеллектуальный анализ данных (Data Minin?)
Интеллектуальный анализ данных (ИАД) представляет собой подмножество систем получения знаний из баз данных, которое определяется как «процесс получения полезной информации из данных» (Fayyad et al, 1996). ИАД представляет собой определенный этап применения специальных алгоритмов и других средств в целях формирования знаний путем нахождения моделей, трендов, классов, взаимоотношений, скрытых в данных. На этом этапе пользователь пытается автоматически извлечь знания из больших баз данных, из хранилищ данных или из каких- либо других источников (например, электронных таблиц, файлов системы обработки транзакций и т. д.). При этом данные в хранилище служат для поддержки принятия решений и включают интегрированные, детализированные и агрегированные данные, исторические, фактические данные и метаданные. Таким образом, хранилище данных и системы ИАД находятся в отношении симбиоза (Inmon, 1996) (см. DM).

expluataziya_hranilish_dannih

Идентификация скрытых функциональных взаимоотношений между данными позволяет применить результаты на практике. Программное обеспечение ИАД, сутью которого является анализ огромных объемов данных, способно определить ассоциированные взаимоотношения между предметами, такими как, например, одновременно покупаемые бакалейные товары (анализ рыночной корзины). Средствами ИАД можно также определить последовательные взаимосвязи событий во времени (например, покупка дома и покупка посудомоечной машины). Ассоциативные и последовательные взаимоотношения приводят к принятию определенных решений: например, как расположить товары на полках магазинов и на витринах, как сформировать рыночные сегменты, какие выбрать маркетинговые стратегии и т. д. Средства ИАД оказываются полезными при кластерном анализе или классификации всего множества данных, т. е. при разбиении его на несколько подмножеств согласно значениям определенных переменных (или свойствам) множества данных, как это происходит, например, в случае оценки платежеспособности владельцев кредитных карт. В этом случае выдается вероятное множество клиентов, которые могут расплатиться вовремя, и вероятное множество, которое, скорее всего, окажется неплатежеспособным.
Визуализация данных
Средства визуализации преобразуют данные в вид, легко доступный для восприятия.
Они включают оперативную аналитическую обработку (OLAP), геоинформационные системы (ГИС), гистограммы, цветовое кодирование, секторные диаграммы, древовидные карты, трехмерные тренды, диаграммы рассеяния. Средства OLAP, известные также как многомерный анализ, представляют собой интерактивную технологию манипуляции данными, или представления данных для анализа, и вывода на экран агрегированных значений, полученных посредством ИАД по всем измерениям, например по продуктам, времени, расположению и т. д. (Coddetal, 1993). Обычно результаты ИАД представляют в виде таблиц.
Однако средства визуализации позволяют более наглядно, чем строки и столбцы таблицы, представить данные.
Главная цель технологии OLAP — это быстрое и эффективное манипулирование данными и создание различных комбинаций специальных экономических данных. Программное обеспечение OLAP может быть использовано для определения трендов, оно может моделировать сложные отношения между элементарными данными, осуществляя многомерный анализ данных хранилища, «витрины данных» или многомерной базы. Технология OLAP позволяет пользователям реализовать многомерное видение и получение результатов. Усовершенствованные технологии OLAP располагают аналитическими возможностями, например, умеют считать скользящее среднее и проводить анализ шаблонов, анализ временных рядов, вращать куб и каждый раз пропускать несколько уровней или проходить в любом направлении. OLAP приобретает все большую популярность, поскольку эта технология позволяет выявлять совокупности взаимосвязанных факторов в некотором временном периоде.

Запросы к базам данных, отчеты и мониторинг
Стандартный доступ и отчеты: для разработки приложений, выполняющих более сложный анализ данных, используются управляющие информационные системы, или управляющие системы поддержки принятия решений, и языки программирования четвертого поколения. Эти средства часто называют машинами (или системами) поддержки принятия решений. Это передовые средства общего назначения, предназначенные для построения, выполнения и просмотра результатов специальных запросов, в дополнение к периодическим стратегическим отчетам и отчетам о состоянии системы.
При мониторинге базы данных используются различные средства. Интеллектуальные агенты, машинное обучение, триггеры и просмотрщики web-страниц используются для автоматического определения данных и событий, информацию о которых необходимо отслеживать. Когда отслеживаемая величина достигает порогового значения, инициализируется предупреждение и результаты мониторинга предоставляются пользователю.
Web-технологии
Технология World Wide Web (WWW), обеспечив стандартный интерфейс доступа к мультимедийным данным, стала важнейшим средством информационного обмена. Все чаще Web используется в качестве платформы для клиент-серверных приложений; этому способствуют сетевые возможности и платформо-независимость этой технологии, а также низкая стоимость программного обеспечения, установки и поддержки. Если WWW используется в качестве клиент-серверной платформы, то приложение обычно разворачивают на сервере; при этом оно регулярно обновляется, и любой пользователь имеет мгновенный доступ к свежей версии.
Разработки на основе web-технологий — это дешевые механизмы, обеспечивающие простоту доступа, анализа и распределения свежей информации из корпоративных баз данных через OLAP.