В библиотеку

http://www.olap.ru/basic/news/m001120453.asp

Data Warehouse: с чего начать?

Допустим, решено делать DW. Определены задачи и поставлены цели. Что может помешать (если не брать в расчет отсутствие денег)? Как известно, хорошую затею могут испортить только хорошие люди. Потому что в создании любых ресурсоемких долгосрочных систем человеческий фактор решает если не все, то очень многое. По оценкам западных специалистов, при создании удачных проектов DW лишь половина финансовых средств тратилась на аппаратно-программные средства, а другая уходила на консультации. Таким образом, система с DW обходится вдвое дороже, чем привычные нам сейчас информационные системы.

Владимир Туманов, PC Week/RE'98

Функциональное определение понятия Data Warehouse

В последнее время в компьютерной прессе появилось немало публикаций, посвященных построению хранилищ данных (Data Warehouse — DW) и организации работы с ними. Основные темы этих публикаций:

Однако "за кадром" остается ряд вопросов и, в частности, один из самых главных: общий план построения хранилища данных, причем понятный руководителям. Отсутствие такой методологии было обусловлено кажущимся недостатком опыта отечественных разработчиков, занимающихся DW, хотя в той или иной форме попытки создавать хранилища данных предпринимались ими начиная с середины 80-х. Тогда, правда, это называлось по-другому, функции хранилища не были так четко определены, технология работы не была столь пунктуально регламентирована.

Кроме того, от построения DW отпугивали большой объем внутренних капиталовложений и варьирования временных рамок (от 3 месяцев до 3 лет в зависимости от масштабов проекта — данные приводятся по оценкам западных специалистов). Для российского рынка информационных услуг существенным тормозом в построении DW был незначительный (5-8 лет) период существования основной массы предприятий на рынке, ибо потребности этого периода хорошо охватываются так называемыми транзакционными системами. Просчеты в организации DW предприятия, отсутствие стратегического плана его построения и развития могут привести к неоправданному перерасходу средств. Поэтому наличие некоторого общего плана, включающего в себя ключевые моменты, — важный фактор для успешного создания DW.

Немного истории

Концепция DW была предложена в 1990 г. Б. Инмоном и стала одной из доминирующих в разработке информационных технологий обработки данных 90-х годов. На мой взгляд, появление этой концепции было следствием неявного осознания того факта, что существует два основных функционально различных класса систем обработки информации.

Первый базируется на обработке текущего потока транзакций и предоставляет текущий или охватывающий небольшой временной период снимок информации. Второй основан на сборе и подготовке большого по объему и временному периоду (от 5 лет) массива значимой информации, предназначенного для проведения анализа данных. Развитие концепции DW позволило провести границы между этими двумя типами систем. В российской печати термин Data Warehouse переводится двояко: как хранилище данных и как информационное хранилище. Однако термин Information warehouse был введен корпорацией IBM в начале 80-х годов и, по утверждению ее специалистов, означает нечто большее, чем DW по Инмону. Поэтому было бы целесообразно пользоваться уже примелькавшимся термином "хранилище данных", хотя он несколько хуже передает суть концепции. Терминология, используемая сейчас в рамках концепции DW, приведена в глоссарии.

Что же такое DW?

Согласно классическому определению Б. Инмона, DW есть предметно ориентированный, интегрированный, неизменный, поддерживающий хронологию набор данных, предназначенный для поддержки принятия решений. Следует отметить, что в этом определении соединены две различные функции:
а) сбор, организация и подготовка данных для анализа в виде постоянно наращиваемой базы данных;
б) собственно анализ как элемент принятия решений.
Принятие решений в качестве сферы применения DW существенно сужает определение. Если в определении оставить лишь анализ (как элемент научных, технологических и экологических систем), круг использования данной концепции может быть значительно расширен.

Очень важен основной принцип действия DW: единожды занесенные в DW данные затем многократно извлекаются из него и используются для анализа. Отсюда вытекает одно из основных преимуществ использования DW в работе предприятия — контроль за критически важной информацией, полученной из различных источников, как за производственным ресурсом.

Отметим, что наиболее уязвимым местом использования DW на предприятии, с точки зрения бизнеса, является корректность его данных, полученных из разных источников. Данные перед загрузкой в DW должны быть либо "очищены от шума", либо обработаны методами нечеткой логики, допускающей наличие противоречивых фактов. Например, данные о предприятии-партнере могут быть получены от разных экспертов, чьи оценки порой бывают диаметрально противоположными.

Заметим также, что интеграция в определении DW понимается не как интеграция информации по всем источникам функциональной деятельности предприятия, а в смысле согласованного представления данных из разных источников по их типу, размерности и содержательному описанию. Это есть интеграция данных от бизнес-процессов, а не самих бизнес-процессов. Бизнес-процессы интегрируются в рамках корпоративной информационной системы (КИС) вашего предприятия.

Важно помнить, что использование информационных технологий на основе DW предполагает задачный подход в его организации. DW создается для решения конкретных, строго определенных задач анализа данных. Круг задач может быть расширен со временем, но определяющим моментом в построении DW являются задачи анализа данных, которые нужно решать для достижения целей вашего бизнеса.

Что может испортить хорошую затею

Допустим, решено делать DW. Определены задачи и поставлены цели. Что может помешать (если не брать в расчет отсутствие денег)? Как известно, хорошую затею могут испортить только хорошие люди. Потому что в создании любых ресурсоемких долгосрочных систем человеческий фактор решает если не все, то очень многое. По оценкам западных специалистов, при создании удачных проектов DW лишь половина финансовых средств тратилась на аппаратно-программные средства, а другая уходила на консультации. Таким образом, система с DW обходится вдвое дороже, чем привычные нам сейчас информационные системы.

Дезорганизующим фактором становятся не только просчеты лиц, принимающих решения; лица, исполняющие проект, также могут замедлить процесс решения задачи. Как показывает опыт, можно избежать провалов и временных задержек при разработке информационных систем и особенно при создании DW, если обратить внимание на ряд следующих моментов.

Где искать выгоду

Создавая DW на предприятии, следует думать о возможной выгоде и действовать по аналогии. Например, рассмотреть те области, где внедрение DW уже дало положительный результат. Это позволит не превращать вашу работу в научное исследование с неопределенным периодом окончания работ. Список задач выглядит следующим образом.

Решить перечисленные выше задачи вам помогут монографии директора фирмы Data Warehouse Network (Ирландия) Ш. Келли (Sean Kelly), а также консультанты фирм Oracle и Informix, которые в течение последних лет поддерживают концепцию DW в своих продуктах. Занимаясь поисками выгоды, необходимо осознавать тот факт, что получить конкурентное преимущество на нашем рынке становится все трудней и трудней, а корпоративные альянсы становятся все популярней и популярней.

Основные поставщики ПО хранилищ данных

Arbor
Business Objests
Carleton
Cognos
Hewlett-Packard
IBM
Information Builders
Informix
Intellidex
Microsoft
MSP
NCR
Oracle
Platinum Technology
Praxis
Prism
Pyramid
Red Brick
SAS Institute
Sequent
Software AG
Sybase
Tandem

Все эти фирмы имеют страницы в Internet, где приводятся подробные сведения об их продуктах и услугах. Стоит отдельно отметить альянс Arbor и Seagate при встраивании OLAP в Crystal Info для СУБД Essbase.

Мистер Фикс, у вас есть план?

Основная цель создания DW в том, чтобы сделать все значимые для управления бизнесом данные доступными в стандартизованной форме, пригодными для анализа и получения необходимых отчетов. Чтобы достигнуть этого, необходимо извлечь данные из существующих внутренних и внешних машиночитаемых источников. Но прежде советую всем подумать о следующем:

Рассмотрим эти действия более подробно.
1. Если ваша организация занимается производством и распространением готовой продукции, то к основным задачам можно отнести исследование соответствующих сегментов рынка, анализ продаж, оптимизацию цепочки поставщиков составных компонентов продукции и т. д.
2. Созданную рабочую группу проекта должен возглавить руководитель или его первый заместитель. В состав этой группы помимо специалистов по компьютерным технологиям должны войти администратор баз данных и ведущие специалисты по основным задачам DW.

Главное для рабочей группы — решить вопрос о том, кого следует привлечь для консультаций. Это могут быть независимые консультанты и эксперты, но чаще всего — представители той фирмы, чьи программные продукты используются в вашей организации. На этом этапе (чтобы уменьшить перерасход средств) членам рабочей группы следует объяснить, что финансирование проекта носит поэтапный характер. Пока цель этапа не будет достигнута, никаких дополнительных средств выделяться не будет. Совсем замечательно, если каждый этап станет самоокупаемым.

На этой стадии реализации DW должны быть решены все основные организационно-технологические вопросы: выбор базовой информационной технологии (допустим, сетевое решение в рамках интрасетей), выбор базового программного обеспечения; разработка плана обучения и подготовки персонала, составление временного графика реализации проекта и т. д. Кроме того, следует определить круг лиц, ответственных за разработку лингвистического обеспечения системы, создать нормативно-справочную базу, составить словари данных и управленческие тезаурусы.

3. Необходимо создать первоначальную выборку из всех машиночитаемых источников данных. На практике (и это обычно вызывает удивление руководителей) большая часть необходимых данных циркулирует в информационных системах предприятия, но задачи анализа решаются не так быстро, как хотелось бы, а критическая информация недоступна в нужный момент. Поэтому этот этап работы — один из важнейших пунктов плана построения DW. Остановиться и осмотреться перед началом ресурсоемкого проекта просто необходимо.
На этом этапе следует: На этом этапе будет получен прототип DW.
4. На стадии стандартизации и очистки данных нужно: 5. База данных DW может быть не реляционной. В принципе для реализации типичной схемы DW "звезда" (см. глоссарий) может быть использован любой тип базы данных. Здесь все зависит от сложившегося информационного стереотипа организации и финансовых возможностей проекта. В любом случае нужно иметь в виду следующие задачи.

Именно на этой стадии создается DW и организуется ее поддержка. Дальше только от вас зависит, насколько вложенные в создание DW средства оправдают себя.

Вместо заключения

В этой статье набросан лишь общий план действий при построении DW. Его можно было бы расписать более детально, но автор сознательно остановился на эскизном начертании этого плана, подчеркнув лишь некоторые критические моменты в работе.

В начало