2023. 3. 19. 16:05ㆍTip/Dictionary
https://aws.amazon.com/ko/big-data/datalakes-and-analytics/
Data Lake vs Data Warehouse
Data lakes and data warehouses are both widely used for storing big data, but they are not interchangeable terms. A data lake is a vast pool of raw data, the purpose for which is not yet defined. A data warehouse is a repository for structured, filtered data that has already been processed for a specific purpose.
There is even an emerging data management architecture trend of the data lakehouse, which combines the flexibility of a data lake with the data management capabilities of a data warehouse.
https://www.talend.com/resources/data-lake-vs-data-warehouse/
왜 AWS Cloud Analytics같은 Data management system을 구축하는가?
궁극적인 목표는 Data Silo를 없애기 위해. 데이터 사일로를 사용하면 비즈니스에 비용과 시간이 많이 소요
Data Silo란?
데이터 사일로는 조직과 분리되어 있으며 회사 체계의 모든 부분에 접속할 수 없는 정보 모음
Data Silo를 없애는 방법 (AWS Analytics 기준)
추출/변환/로드(ETL) - 데이터 시각화 - 데이터 복제 - 데이터 레이크 활용 - Federated Query
Federated Query란?
Federated query is a new Amazon Athena feature that enables data analysts, engineers, and data scientists to execute SQL queries across data stored in relational, non-relational, object, and custom data sources.
AD-HOC 쿼리란?
Ad hoc queries are single questions or requests for a database written in SQL or another query language by the user on-demand--typically when the user needs information outside of regular reporting or predefined queries
https://www.scuba.io/tech-library/what-is-an-ad-hoc-query
Data Catalog란?
간단히 말해서 데이터 카탈로그는 조직 내에서 구성된 데이터 자산 인벤토리입니다. 메타데이터를 사용하여 조직의 데이터 관리 작업을 지원합니다. 또한 데이터 전문가가 메타데이터를 수집, 구성, 액세스 및 강화하여 데이터 검색 및 거버넌스를 지원하는 데 도움