Построение хранилища данных в СУБД
Хранилище данных - это разнородный набор различных источников данных, организованных по единой схеме. Строители должны иметь широкое представление о предполагаемом использовании хранилища при построении хранилища данных . На этапе проектирования невозможно предвидеть все возможные запросы или анализы. Некоторые характеристики хранилища данных:
- Предметно ориентированный
- Интегрированный
- Вариант времени
- Энергонезависимая
Создание хранилища данных -
Ниже приведены некоторые шаги, необходимые для создания любого хранилища данных:
- Чтобы извлечь данные (транснациональные) из разных источников:
Для создания хранилища данных данные извлекаются из различных источников, и эти данные хранятся в центральной области хранения. Для извлечения данных Microsoft придумала отличный инструмент. При покупке Microsoft SQL Server этот инструмент будет доступен бесплатно. - Чтобы преобразовать транснациональные данные:
Существуют различные СУБД, в которых многие компании хранят свои данные. Некоторые из них: MS Access, MS SQL Server, Oracle, Sybase и т. Д. Также эти компании сохраняют данные в электронных таблицах, плоских файлах, почтовых системах и т. Д. Связь данных из всех этих источников выполняется при построении хранилища данных. - Чтобы загрузить данные (преобразованные) в размерную базу данных:
После построения размерной модели данные загружаются в размерную базу данных. Этот процесс объединяет несколько столбцов вместе или может разбить одно поле на несколько столбцов. Существует два этапа, на которых может выполняться преобразование данных: при загрузке данных в размерную модель или при извлечении данных из их источников. - Чтобы приобрести интерфейсный инструмент отчетности:
На рынке доступны первоклассные аналитические инструменты. Эти инструменты предоставляются несколькими крупными поставщиками. Экономичный инструмент и анализатор данных выпущены Microsoft самостоятельно.
Для склада идет сбор данных. Для извлечения данных необходимо использовать несколько разнородных источников, например базы данных. Существует потребность в согласованности, для которой формирование данных должно выполняться в хранилище. Согласование имен, значений и областей данных должно производиться из несвязанных источников. Также существует потребность в установке данных из различных источников в модель данных хранилища.
Преобразование данных может быть выполнено из объектно-ориентированных, реляционных или устаревших баз данных в многомерную модель. Одним из наиболее трудоемких компонентов построения хранилища данных является очистка данных, которая является одним из сложных процессов. Перед загрузкой данных в хранилище необходимо произвести очистку данных. Все работы по погрузке должны выполняться на складе для лучшей производительности. Единственный осуществимый и лучший подход - это постепенное обновление. Хранение данных в хранилище данных:
- Обновите данные
- Для предоставления данных о временном изменении
- Для хранения данных в соответствии с моделью данных хранилища.
- Очистка данных
- Для поддержки обновления данных хранилища
Некоторые из важных проектов хранилища данных:
- Модульная конструкция компонентов
- Рассмотрение параллельной архитектуры
- Рассмотрение распределенной архитектуры
- Защита использования
- Характеристики доступных источников
- Дизайн компонента метаданных
- Соответствие модели данных
Основными определяющими характеристиками для проектирования склада является архитектура распределенной вычислительной среды организации. Распределенный склад и федеративный склад - это две основные распределенные архитектуры. Распределенный склад дает некоторые преимущества, некоторые из них:
Федеративное хранилище - это децентрализованная конфедерация автономных хранилищ данных. У каждого из них есть собственное хранилище метаданных. В наши дни крупные организации начинают выбирать интегрированные витрины данных вместо создания огромного хранилища данных.