Data Vault가 데이터 웨어하우징의 미래인 이유[+5 Learning Resources]

기업이 점점 더 많은 데이터를 생성함에 따라 데이터 웨어하우징에 대한 기존 접근 방식은 점점 더 어려워지고 유지 관리 비용이 많이 듭니다. 데이터 웨어하우징에 대한 비교적 새로운 접근 방식인 Data Vault는 대용량 데이터를 관리할 수 있는 확장 가능하고 민첩하며 비용 효율적인 방법을 제공함으로써 이 문제에 대한 솔루션을 제공합니다.

이 게시물에서는 Data Vault가 데이터 웨어하우징의 미래인 이유와 점점 더 많은 회사가 이 접근 방식을 채택하는 이유를 살펴봅니다. 또한 주제에 대해 더 깊이 파고들고 싶은 사람들을 위한 학습 리소스도 제공할 것입니다!

데이터 볼트란 무엇입니까?

Data Vault는 민첩한 데이터 웨어하우스에 특히 적합한 데이터 웨어하우스 모델링 기술입니다. 확장에 대한 높은 수준의 유연성, 데이터의 완전한 단위 시간 기록화를 제공하고 데이터 로드 프로세스의 강력한 병렬화를 허용합니다. Dan Linstedt는 1990년대에 Data Vault 모델링을 개발했습니다.

2000년 첫 출간 이후 2002년 연재 기사를 통해 더 큰 주목을 받았다. 2007년 Linstedt는 Data Vault 2.0 아키텍처를 위한 “최적의 선택”이라고 설명한 Bill Inmon의 지지를 받았습니다.

애자일 데이터 웨어하우스라는 용어를 다루는 사람은 누구나 Data Vault로 금방 끝날 것입니다. 이 기술의 특별한 점은 데이터 웨어하우스에 대한 유연하고 적은 노력으로 조정할 수 있기 때문에 기업의 요구에 초점을 맞추고 있다는 것입니다.

Data Vault 2.0은 전체 개발 프로세스와 아키텍처를 고려하며 구성 요소 방법(구현), 아키텍처 및 모델로 구성됩니다. 이점은 이 접근 방식이 개발 중에 기본 데이터 웨어하우스와 함께 비즈니스 인텔리전스의 모든 측면을 고려한다는 것입니다.

Data Vault 모델은 기존 데이터 모델링 접근 방식의 한계를 극복하기 위한 최신 솔루션을 제공합니다. 확장성, 유연성 및 민첩성을 통해 현대 데이터 환경의 복잡성과 다양성을 수용할 수 있는 데이터 플랫폼을 구축하기 위한 견고한 기반을 제공합니다.

Data Vault의 허브 앤 스포크 아키텍처와 엔터티 및 속성의 분리는 여러 시스템과 도메인에서 데이터 통합 ​​및 조화를 가능하게 하여 점진적이고 민첩한 개발을 촉진합니다.

데이터 플랫폼을 구축할 때 Data Vault의 중요한 역할은 모든 데이터에 대한 단일 정보 소스를 설정하는 것입니다. 통합된 데이터 보기 및 위성 테이블을 통해 기록 데이터 변경 사항을 캡처하고 추적하기 위한 지원을 통해 규정 준수, 감사, 규정 요구 사항 및 포괄적인 분석 및 보고가 가능합니다.

델타 로딩을 통한 Data Vault의 거의 실시간 데이터 통합 ​​기능은 빅 데이터 및 IoT 애플리케이션과 같이 빠르게 변화하는 환경에서 대량의 데이터 처리를 용이하게 합니다.

  DirecTV 오류 771, 40을 수정하는 방법

Data Vault와 기존 데이터 웨어하우스 모델 비교

3NF(Third-Normal-Form)는 가장 유명한 기존 데이터 웨어하우스 모델 중 하나이며 많은 대규모 구현에서 자주 선호됩니다. 덧붙여서 이것은 데이터 웨어하우스 개념의 “선조” 중 하나인 Bill Inmon의 아이디어와 일치합니다.

Inmon 아키텍처는 관계형 데이터베이스 모델을 기반으로 하며 데이터 소스를 데이터 마트에 저장되고 기본 및 외래 키를 사용하여 상호 연결된 더 작은 테이블로 분해하여 데이터 중복성을 제거합니다. 참조 무결성 규칙을 적용하여 데이터의 일관성과 정확성을 보장합니다.

일반 형식의 목표는 핵심 데이터 웨어하우스를 위한 포괄적이고 전사적인 데이터 모델을 구축하는 것이었습니다. 그러나 고도로 결합된 데이터 마트, 거의 실시간 모드에서의 로드 어려움, 힘든 요청, 하향식 설계 및 구현으로 인해 확장성 및 유연성 문제가 있습니다.

OLAP(온라인 분석 처리) 및 데이터 마트에 사용되는 Kimbal 모델은 팩트 테이블이 집계 데이터를 포함하고 차원 테이블이 저장된 데이터를 스타 스키마 또는 눈송이 스키마 디자인으로 설명하는 또 다른 유명한 데이터 웨어하우스 모델입니다. 이 아키텍처에서 데이터는 쿼리 및 분석을 단순화하기 위해 비정규화된 팩트 및 차원 테이블로 구성됩니다.

Kimbal은 쿼리 및 보고에 최적화된 차원 모델을 기반으로 하므로 비즈니스 인텔리전스 애플리케이션에 이상적입니다. 그러나 주제 중심 정보의 격리, 데이터 중복성, 호환되지 않는 쿼리 구조, 확장성 어려움, 팩트 테이블의 일관성 없는 세분성, 동기화 문제, 상향식 구현을 통한 하향식 설계의 필요성과 같은 문제가 있었습니다.

반대로 Data vault 아키텍처는 3NF 및 Kimball 아키텍처의 측면을 결합한 하이브리드 접근 방식입니다. 엔터티 간의 관계를 다르게 표현하고 테이블 필드와 타임스탬프를 다르게 구성하는 관계 원칙, 데이터 정규화 및 중복 수학을 기반으로 하는 모델입니다.

이 아키텍처에서 모든 데이터는 원시 데이터 저장소 또는 데이터 레이크에 저장되는 반면 일반적으로 사용되는 데이터는 보고에 사용할 수 있는 기록 및 상황별 데이터가 포함된 비즈니스 저장소에 정규화된 형식으로 저장됩니다.

Data Vault는 보다 효율적이고 확장 가능하며 유연하여 기존 모델의 문제를 해결합니다. 거의 실시간에 가까운 로딩, 향상된 데이터 무결성, 기존 구조에 영향을 주지 않고 쉽게 확장할 수 있습니다. 기존 테이블을 마이그레이션하지 않고 모델을 확장할 수도 있습니다.

모델링 접근법데이터 구조설계 접근법3NF 모델링3NF의 테이블Bottom-upKimbal ModelingStar Schema 또는 Snowflake SchemaTop-downData VaultHub-and-SpokeBottom-up

Data Vault의 아키텍처

Data Vault에는 허브 앤 스포크 아키텍처가 있으며 기본적으로 다음 세 계층으로 구성됩니다.

준비 계층: CRM 또는 ERP와 같은 소스 시스템에서 원시 데이터를 수집합니다.

데이터 웨어하우스 계층: Data Vault 모델로 모델링할 때 이 계층에는 다음이 포함됩니다.

  • Raw Data Vault: 원시 데이터를 저장합니다.
  • Business Data Vault: 비즈니스 규칙에 따라 조화되고 변환된 데이터를 포함합니다(선택 사항).
  • Metrics Vault: 런타임 정보를 저장합니다(선택 사항).
  • Operational Vault: 운영 체제에서 데이터 웨어하우스로 직접 흐르는 데이터를 저장합니다(선택 사항).

데이터 마트 계층: 이 계층은 데이터를 스타 스키마 및/또는 기타 모델링 기술로 모델링합니다. 분석 및 보고를 위한 정보를 제공합니다.

이미지 출처: Lamia Yessad

Data Vault는 재설계가 필요하지 않습니다. 새로운 기능은 Data Vault의 개념과 방법을 사용하여 직접 병렬로 구축할 수 있으며 기존 구성 요소는 손실되지 않습니다. 프레임워크는 작업을 훨씬 쉽게 만들 수 있습니다. 프레임워크는 데이터 웨어하우스와 개발자 사이에 계층을 생성하여 구현의 복잡성을 줄입니다.

  Tarkov에서 탈출 최신 프로모션 코드: 지금 사용

Data Vault의 구성 요소

모델링 중에 Data Vault는 객체에 속하는 모든 정보를 기존의 제3정규형 모델링과 달리 세 가지 범주로 나눕니다. 그런 다음 이 정보는 서로 엄격하게 분리되어 저장됩니다. 기능 영역은 이른바 허브, 링크 및 위성의 Data Vault에서 매핑할 수 있습니다.

#1. 허브

허브는 고객, 판매자, 판매 또는 제품과 같은 핵심 비즈니스 개념의 핵심입니다. 허브 테이블은 해당 비즈니스 키의 새 인스턴스가 데이터 웨어하우스에 처음 도입될 때 비즈니스 키(상점 이름 또는 위치) 주위에 형성됩니다.

허브에는 설명 정보와 FK가 없습니다. 웨어하우스에서 생성한 일련의 ID 또는 해시 키, 로드 날짜/시간 스탬프 및 레코드 소스와 함께 비즈니스 키로만 구성됩니다.

#2. 연결

링크는 비즈니스 키 간의 관계를 설정합니다. 링크의 각 항목은 여러 허브의 nm 관계를 모델링합니다. 이를 통해 Data Vault는 관계의 진정성 변화와 같은 소스 시스템의 비즈니스 논리 변화에 유연하게 대응할 수 있습니다. 허브와 마찬가지로 링크에는 설명 정보가 포함되어 있지 않습니다. 참조하는 허브의 시퀀스 ID, 웨어하우스 생성 시퀀스 ID, 로드 날짜/시간 스탬프 및 레코드 소스로 구성됩니다.

#삼. 위성

Satellite는 허브에 저장된 비즈니스 키 또는 링크에 저장된 관계에 대한 설명 정보(컨텍스트)를 포함합니다. Satellite는 “삽입만” 작동하며 전체 데이터 기록이 Satellite에 저장됨을 의미합니다. 여러 Satellite는 단일 비즈니스 키(또는 관계)를 설명할 수 있습니다. 그러나 위성은 하나의 키(허브 또는 링크)만 설명할 수 있습니다.

이미지 출처: Carbidfischer

Data Vault 모델 구축 방법

Data Vault 모델 구축에는 여러 단계가 포함되며 각 단계는 모델이 확장 가능하고 유연하며 비즈니스 요구 사항을 충족할 수 있는지 확인하는 데 중요합니다.

#1. 엔터티 및 속성 식별

비즈니스 엔터티 및 해당 속성을 식별합니다. 여기에는 비즈니스 이해 관계자와 긴밀히 협력하여 요구 사항과 캡처해야 하는 데이터를 이해하는 것이 포함됩니다. 이러한 엔티티와 속성이 식별되면 허브, 링크 및 위성으로 분리하십시오.

#2. 엔터티 관계 정의 및 링크 만들기

엔터티와 특성을 식별하면 엔터티 간의 관계가 정의되고 이러한 관계를 나타내는 링크가 생성됩니다. 각 링크에는 엔터티 간의 관계를 식별하는 비즈니스 키가 할당됩니다. 그런 다음 엔터티의 특성과 관계를 캡처하기 위해 위성이 추가됩니다.

#삼. 규칙 및 표준 수립

링크를 만든 후에는 모델이 유연하고 시간이 지남에 따라 변경 사항을 처리할 수 있도록 일련의 규칙 및 데이터 저장소 모델링 표준을 설정해야 합니다. 이러한 규칙과 표준은 관련성을 유지하고 비즈니스 요구 사항과 일치하도록 정기적으로 검토하고 업데이트해야 합니다.

#4. 모델 채우기

모델이 생성되면 증분 로드 방식을 사용하여 데이터로 채워야 합니다. 여기에는 델타 로드를 사용하여 허브, 링크 및 위성에 데이터를 로드하는 작업이 포함됩니다. 데이터에 대한 변경 사항만 로드되도록 델타가 로드되므로 데이터 통합에 필요한 시간과 리소스가 줄어듭니다.

#5. 모델 테스트 및 검증

마지막으로 모델이 비즈니스 요구 사항을 충족하고 향후 변경 사항을 처리할 수 있을 만큼 충분히 확장 가능하고 유연한지 확인하기 위해 모델을 테스트하고 검증해야 합니다. 정기적인 유지 관리 및 업데이트를 수행하여 모델이 비즈니스 요구 사항에 맞게 조정되고 데이터의 통합 보기를 계속 제공하도록 해야 합니다.

  Adobe Acrobat에서 계산을 사용하여 PDF 양식을 만드는 방법

Data Vault 학습 리소스

Data Vault를 마스터하면 오늘날의 데이터 중심 산업에서 많이 찾는 귀중한 기술과 지식을 얻을 수 있습니다. 다음은 Data Vault의 복잡성을 학습하는 데 도움이 될 수 있는 과정 및 서적을 포함한 포괄적인 리소스 목록입니다.

#1. Data Vault 2.0으로 데이터 웨어하우스 모델링

이 Udemy 과정은 Data Vault 2.0 모델링 접근 방식, 애자일 프로젝트 관리 및 빅 데이터 통합에 대한 포괄적인 소개입니다. 이 과정은 아키텍처 및 레이어, 비즈니스 및 정보 보관소, 고급 모델링 기술을 포함하여 Data Vault 2.0의 기초와 기초를 다룹니다.

Data Vault 모델을 처음부터 설계하고, 3NF 및 차원 모델과 같은 기존 모델을 Data Vault로 변환하고, Data Vault의 차원 모델링 원칙을 이해하는 방법을 알려줍니다. 이 과정에는 데이터베이스 및 SQL 기초에 대한 기본 지식이 필요합니다.

5점 만점에 4.4점의 높은 평점과 1,700개 이상의 리뷰가 있는 이 베스트 셀러 과정은 Data Vault 2.0 및 빅 데이터 통합에서 강력한 기반을 구축하려는 모든 사람에게 적합합니다.

#2. 사용 사례로 설명된 Data Vault 모델링

이 Udemy 과정은 실용적인 비즈니스 예제를 사용하여 Data Vault 모델을 구축하도록 안내하는 것을 목표로 합니다. Data Vault Modeling에 대한 초보자 가이드 역할을 하며 Data Vault 모델을 사용하기 위한 적절한 시나리오, 기존 OLAP 모델링의 한계 및 Data Vault 모델 구성에 대한 체계적인 접근 방식과 같은 주요 개념을 다룹니다. 이 과정은 최소한의 데이터베이스 지식이 있는 개인이 액세스할 수 있습니다.

#삼. Data Vault Guru: 실용적인 가이드

Mr. Patrick Cuba의 Data Vault Guru는 소프트웨어 제공에 사용되는 것과 유사한 자동화 원칙을 사용하여 엔터프라이즈 데이터 웨어하우스를 모델링할 수 있는 고유한 기회를 제공하는 데이터 저장소 방법론에 대한 포괄적인 가이드입니다.

이 책은 최신 아키텍처에 대한 개요를 제공한 다음 기업의 변화에 ​​적응하는 유연한 데이터 모델인 데이터 저장소를 제공하는 방법에 대한 철저한 가이드를 제공합니다.

또한 이 책은 자동화된 타임라인 수정, 감사 추적, 메타데이터 제어 및 민첩한 제공 도구와의 통합을 제공하여 데이터 저장소 방법론을 확장합니다.

#4. Data Vault 2.0으로 확장 가능한 데이터 웨어하우스 구축

이 책은 독자들에게 Data Vault 2.0 방법론을 사용하여 처음부터 끝까지 확장 가능한 데이터 웨어하우스를 만드는 포괄적인 가이드를 제공합니다.

이 책은 일반적인 데이터 웨어하우징 오류를 방지하도록 설계된 Data Vault 모델링 기술을 포함하여 확장 가능한 데이터 웨어하우스 구축의 모든 필수 측면을 다룹니다.

이 책은 독자가 개념을 명확하게 이해하는 데 도움이 되는 수많은 예를 제공합니다. 실용적인 통찰력과 실제 사례가 포함된 이 책은 데이터 웨어하우징에 관심이 있는 모든 사람에게 필수적인 리소스입니다.

#5. 냉장고 속의 코끼리: Data Vault 성공을 위한 안내 단계

John Giles의 The Elephant in the Fridge는 독자가 비즈니스에서 시작하여 비즈니스에서 끝나는 방식으로 Data Vault의 성공을 달성하는 데 도움이 되는 실용적인 가이드북입니다.

이 책은 엔터프라이즈 온톨로지 및 비즈니스 개념 모델링의 중요성에 초점을 맞추고 이러한 개념을 적용하여 견고한 데이터 모델을 만드는 방법에 대한 단계별 지침을 제공합니다.

실용적인 조언과 샘플 패턴을 통해 저자는 복잡한 주제에 대해 명확하고 복잡하지 않은 설명을 제공하므로 이 책은 Data Vault를 처음 접하는 사람들에게 훌륭한 안내서가 됩니다.

마지막 말

Data Vault는 데이터 웨어하우징의 미래를 나타내며 기업에 민첩성, 확장성 및 효율성 측면에서 상당한 이점을 제공합니다. 특히 대량의 데이터를 빠르게 로드해야 하는 기업과 민첩한 방식으로 비즈니스 인텔리전스 애플리케이션을 개발하려는 기업에 적합합니다.

또한 기존 사일로 아키텍처가 있는 회사는 Data Vault를 사용하여 업스트림 핵심 데이터 웨어하우스를 구현함으로써 큰 ​​이점을 얻을 수 있습니다.

데이터 계보에 대해 알아보는 데 관심이 있을 수도 있습니다.