Data Lake / Data Warehouse / Data Silo / Federated Query / Ad-hoc Query / Data Catalog

2023. 3. 19. 16:05Tip/Dictionary

https://aws.amazon.com/ko/big-data/datalakes-and-analytics/

 

AWS 기반 데이터 레이크 및 분석 - Amazon Web Services

Moderna Salesforce Intuit Pinterest

aws.amazon.com

Data Lake vs Data Warehouse

Data lakes and data warehouses are both widely used for storing big data, but they are not interchangeable terms. A data lake is a vast pool of raw data, the purpose for which is not yet defined. A data warehouse is a repository for structured, filtered data that has already been processed for a specific purpose.

There is even an emerging data management architecture trend of the data lakehouse, which combines the flexibility of a data lake with the data management capabilities of a data warehouse.

https://www.talend.com/resources/data-lake-vs-data-warehouse/

 

Data Lake vs Data Warehouse: Key Differences

A data lake is a vast pool of raw data, the purpose for which is not yet defined. A data warehouse is a repository for structured, filtered data that has already been processed for a specific purpose.

www.talend.com

 

왜 AWS Cloud Analytics같은 Data management system을 구축하는가?

궁극적인 목표는 Data Silo를 없애기 위해. 데이터 사일로를 사용하면 비즈니스에 비용과 시간이 많이 소요

 

Data Silo란?

데이터 사일로는 조직과 분리되어 있으며 회사 체계의 모든 부분에 접속할 수 없는 정보 모음

https://www.tibco.com/ko/reference-center/what-is-a-data-silo#:~:text=%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%82%AC%EC%9D%BC%EB%A1%9C%EB%8A%94%20%EC%A1%B0%EC%A7%81%EA%B3%BC,%ED%95%98%EA%B8%B0%EA%B0%80%20%EB%B9%84%EA%B5%90%EC%A0%81%20%EA%B0%84%EB%8B%A8%ED%95%A9%EB%8B%88%EB%8B%A4.

 

데이터 사일로란 무엇입니까?

홈 Reference Center 관련 용어 데이터 사일로란 무엇입니까? 데이터 사일로는 조직과 분리되어 있으며 회사 체계의 모든 부분에 접속할 수 없는 정보 모음입니다. 데이터 사일로를 사용하면 비즈니

www.tibco.com

 

Data Silo를 없애는 방법 (AWS Analytics 기준)

추출/변환/로드(ETL) - 데이터 시각화 - 데이터 복제 - 데이터 레이크 활용 - Federated Query

 

Federated Query란?

Federated query is a new Amazon Athena feature that enables data analysts, engineers, and data scientists to execute SQL queries across data stored in relational, non-relational, object, and custom data sources.

https://aws.amazon.com/ko/blogs/big-data/query-any-data-source-with-amazon-athenas-new-federated-query/#:~:text=Federated%20query%20is%20a%20new,object%2C%20and%20custom%20data%20sources.

 

Query any data source with Amazon Athena’s new federated query | Amazon Web Services

Organizations today use data stores that are the best fit for the applications they build. For example, for an organization building a social network, a graph database such as Amazon Neptune is likely the best fit when compared to a relational database. Si

aws.amazon.com

 


AD-HOC 쿼리란?

Ad hoc queries are single questions or requests for a database written in SQL or another query language by the user on-demand--typically when the user needs information outside of regular reporting or predefined queries

https://www.scuba.io/tech-library/what-is-an-ad-hoc-query

 

What is an Ad Hoc Query?

An ad hoc query is any kind of question you can ask a data system off the top of your head.

www.scuba.io

 

 

Data Catalog란?

 간단히 말해서 데이터 카탈로그는 조직 내에서 구성된 데이터 자산 인벤토리입니다. 메타데이터를 사용하여 조직의 데이터 관리 작업을 지원합니다. 또한 데이터 전문가가 메타데이터를 수집, 구성, 액세스 및 강화하여 데이터 검색 및 거버넌스를 지원하는 데 도움

https://www.oracle.com/kr/big-data/data-catalog/what-is-a-data-catalog/#:~:text=%EA%B0%84%EB%8B%A8%ED%9E%88%20%EB%A7%90%ED%95%B4%EC%84%9C%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%B9%B4%ED%83%88%EB%A1%9C%EA%B7%B8%EB%8A%94,%ED%95%98%EB%8A%94%20%EB%8D%B0%20%EB%8F%84%EC%9B%80%EC%9D%B4%20%EB%90%A9%EB%8B%88%EB%8B%A4.

 

데이터 카탈로그란 무엇인가?

데이터 카탈로그를 사용하면 데이터를 더욱 효과적으로 관리할 수 있습니다. 데이터 전문가가 메타데이터를 수집, 정리, 액세스, 강화해 데이터 검색 및 거버넌스를 지원하는 과정에서 데이터

www.oracle.com