История хранилищ данных

Опубликовано: 30 Сентября, 2022

Хранилище данных — это основной репозиторий, который выполняет агрегацию для сбора и группировки данных из различных источников в центральный интегрированный блок. Данные из хранилища можно извлекать и анализировать для создания отчетов или взаимосвязей между наборами данных базы данных, что способствует росту многих отраслей. Хранилище данных относится к бизнес-аналитике. Хранилище данных предназначено для предоставления информации в режиме реального времени. Хранилище данных эволюционировало от простых магнитных лент до интегрированных хранилищ данных. В этой статье будет дан обзор истории складского хозяйства.

Ранние механизмы хранения данных:

Ранние методы хранения данных начинались с перфокарт и бумажных лент. Затем происходила разработка магнитных лент. Хотя мы можем записывать и перезаписывать данные на магнитные ленты, это не стабильный носитель для хранения данных. Появилось дисковое хранилище, где вы можете хранить и получать доступ к большим объемам данных.

СУБД в дисковом хранилище:

Позже СУБД (системы управления базами данных) были интегрированы с дисковым хранилищем для хранения данных непосредственно на самом диске. Основное преимущество интеграции СУБД заключается в том, что мы можем быстро найти данные. Функции включают определение местоположения и удаление данных, решение проблем, когда два разных данных сопоставляются с одним и тем же местоположением. Физическое расположение может быть расширено, когда данные превышают лимит хранилища.

Онлайн-приложения:

Появление онлайн-приложений произошло после использования СУБД в дисковом хранилище. Онлайн-приложения — это продукты онлайн-обработки, которые находят применение в коммерческой отрасли. Например, для розничной торговли и обработки продаж, систем бронирования билетов, обработки банкоматов и т. д. Онлайн-приложения играют важную роль в последние годы из-за их взаимосвязанных приложений. Но у него есть недостаток, который выдвигают конечные пользователи приложения. Поскольку существует огромное количество данных, конечным пользователям трудно сохранить нужные данные. Даже если они получили его, они не уверены, является ли он правильным или точным из-за постоянной эскалации данных.

Технологии четвертого поколения (4GL) и персональные компьютеры:

Целью технологии 4GL является предоставление конечным пользователям прямой возможности доступа к данным с использованием языков программирования и разработки системы без вмешательства ИТ-отдела. То же самое происходит и с персональными компьютерами. Таким образом, отдельные лица могут привнести свои собственные персонализированные системы в коммерческую фирму и получить доступ к конкретным данным, доступным им. Это уменьшило потребность в централизованном технологическом отделе для предоставления запрошенных данных пользователям. Электронные таблицы являются хорошим примером. Но у него есть свои недостатки. Полученные данные могут быть неполными, вводящими в заблуждение или неправильными. В конечном результате ему не хватает изящества из-за отсутствия документации и существования нескольких версий одних и тех же данных.

Среда паутины:

Среда паутины оказалась дилеммой для конечных пользователей, ИТ-специалистов, из-за ее неблагоприятного характера и сложности. Эта среда называется средой паутины, потому что есть много соединительных линий, которые напоминают линии паутины. Хотя данные могут быть извлечены, эффективность и точность очень малы. Эти серьезные недостатки вызвали необходимость построения информационной архитектуры, в центре которой находится хранилище данных.

Эволюция среды хранилища данных:

Когда корпорация перешла от паутины к среде хранилища данных, это привело к серьезным изменениям в обычных методах хранения данных. До введения хранилища данных считалось, что база данных должна помогать всем целям данных. После появления хранилища данных стало очевидно, что существуют разные типы баз данных, которые служат для разных целей.

Хранилище данных — это место, где информация обрабатывается в виде интегрированных и детализированных форм данных и истории. Хотя не все хранилища интегрированы, преимущества интегрированных хранилищ данных заключаются в том, что они обеспечивают корпоративное представление о компании. Преимущество гранулярных данных состоит в том, что одни и те же данные выглядят по-разному. Набор данных можно рассматривать с точки зрения маркетинга или с точки зрения финансов. Эти же данные можно использовать и для бухгалтерского учета. Хранилища данных используются для хранения исторических данных за многие годы.

Проблемы хранилища данных:

  • Во-первых, это интеграция данных, которая является наиболее сложным и трудоемким процессом, поскольку для получения полезных интегрированных данных необходимо прикоснуться к корням старого наследия корпораций. Это болезненный шаг, но он того стоит.
  • Большой объем данных, созданный методами хранения данных, делает процесс утомительным. Итак, возникает необходимость избавиться от старых данных. Но для анализа данных они настолько ценны, что их нельзя игнорировать.
  • Хранилища данных не могут быть созданы сразу, как другие операционные приложения. Его нужно развивать итеративно, шаг за шагом.

Причины разработки Data Warehouse 2.0 Environment (DW 2.0):

Более ранние методы сильно развились и закончились как DW 2.0. Нам нужно путешествовать туда и обратно, чтобы понять силы, которые инициировали архитектуру DW 2.0. Некоторые из них приведены ниже.

  • Спрос конечного пользователя на новую систему или архитектуру.
  • Финансово-экономический
  • Методы онлайн-обработки
  • Высокая емкость хранения
  • Потребность в интегрированных данных
  • Необходимость включения неструктурированных данных для целей аналитики в смесь данных.

Эволюция хранилища данных (с точки зрения бизнеса):

  • Выходные данные более ранних методов имеют неочищенный формат. Например, это лихорадочный процесс чтения всех этих шестнадцатеричных входных данных только для того, чтобы найти небольшую часть информации из загадочных кодов.
  • Теперь конечные пользователи стали более футуристичными. Таким образом, они требуют более сложного вывода и мгновенного источника вывода.
  • Для использования методов онлайн-обработки данные необходимо интегрировать. Кроме того, ему нужны исторические данные для анализа.
  • Хранилище данных первого поколения появилось благодаря жажде конечных пользователей к корпоративным данным.

Мутированные формы хранилища данных:

Из-за привлекательных особенностей хранилища данных бизнес-консультанты изменили концепцию хранилища данных в соответствии со своими корпоративными потребностями. Некоторые варианты хранилищ данных:

  • Хранилище активных данных: в этом хранилище происходит онлайн-обработка и обновления. Главной особенностью этого склада является то, что транзакция имеет очень высокую скорость выполнения. Недостатки этого мутировавшего склада заключаются в том, что честность транзакции ставится под сомнение, здоровенная статистическая обработка, большие емкости тратятся впустую, что, в свою очередь, увеличивает эксплуатационные расходы.
  • Федеративное хранилище данных. При таком подходе из-за высокой сложности интеграции данных этот процесс пропускается. Технически при таком подходе склад не существует. Схема, стоящая за этим, заключается в волшебном создании хранилища данных путем слияния старого наследия корпорации для одновременной выборки и обработки данных. Этот подход кажется привлекательным с меньшим объемом работы, но это скорее заблуждение, чем само решение. Он имеет множество подводных камней, таких как низкая производительность, ограниченная история, отсутствие интеграции данных, сложность, унаследованная степень детализации, которая обеспечивает низкую производительность для конечного пользователя, когда он запрашивает данные с разным уровнем детализации из федерального хранилища.
  • Хранилище данных схемы «звезда»: внешний вид, используемый в этом хранилище данных, требует создания таблиц измерений и таблиц фактов. Он предоставляет множество преимуществ в качестве хранилища данных, но имеет свои ограничения. Он предназначен только для ограниченных требований, и когда требования меняются, хранилище данных становится хрупким. Уровень детализации постоянно меняется из-за формирования нескольких схем, что ставит под сомнение целостность данных. Его нельзя расширить больше определенного предела, и он предназначен только для одного типа аудитории.
  • Хранилище данных Data Mart: консультанты по обработке онлайн-приложений сначала создают витрину данных, которая дает возможность узнать о продажах продукта без каких-либо сложностей с созданием фактического хранилища данных. Недостатки включают нерасширяемость, большое количество ошибок, невозможность согласования данных и распространение извлечения, что затрудняет извлечение устаревших данных. Еще один факт, связанный с этим подходом, заключается в том, что киоск данных нельзя преобразовать в хранилище данных. Как будто ядро каждого разное, и их нельзя мутировать, чтобы превратить в склад.