반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- docker
- Data Warehouse
- AWS
- 스파크 스트리밍
- MySQL
- 데이터 엔지니어
- Data engineering
- Data Engineer
- delta lake
- 카프카
- Zookeeper
- airflow
- 카프카 구축
- 대용량 처리
- Parquet
- 델타레이크
- 데이터 웨어하우스
- kafka rest api
- Schema Registry
- 스파크
- s3
- 레드시프트
- 컬럼 기반
- 데이터 엔지니어링
- spark
- 데이터
- 에어플로우
- spark streaming
- kafka
- Redshift
Archives
- Today
- Total
목록데이터레이크하우스 (1)
데이터 엔지니어 기술 블로그
[Delta Lake] 데이터 레이크하우스: 소개 및 예시
Delta Lake는 데이터 레이크 위에 Lakehouse 아키텍처를 구축할 수 있는 오픈소스 프로젝트이다. 데이터 레이크의 문제점과 데이터 웨어하우스의 문제점을 보완해줄 수 있다. 데이터 레이크는 아주 큰 데이터를 저장할 수 있지만 체계가 정확하게 잡히지 않으면 데이터 늪이 되기가 쉽다. S3와 같은 클라우드 스토리지는 가장 비용 효율적인 스토리지 시스템이다. 그러나 key-value로 구현이 되어있어서 ACID 트랜잭션과 같은 고성능을 구현하기는 어렵다. listing object와 같은 메타데이터 동작은 비싸며 일관성 보장은 제한적이다. 델타레이크는 이런 문제점을 보완할 수 있다. ACID 성질을 가질 수 있게 하여 트랜잭션을 구현하며, 테이블에서의 시간 여행을 가능하게 한다. upsert를 구현할..
데이터 엔지니어링
2022. 2. 7. 18:11