반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 델타레이크
- s3
- Zookeeper
- airflow
- delta lake
- 컬럼 기반
- AWS
- Data engineering
- 카프카
- 대용량 처리
- docker
- 데이터 엔지니어링
- 데이터 엔지니어
- Data Engineer
- Data Warehouse
- kafka rest api
- MySQL
- 스파크 스트리밍
- 카프카 구축
- spark streaming
- kafka
- 데이터 웨어하우스
- 레드시프트
- Schema Registry
- Redshift
- 스파크
- 에어플로우
- spark
- 데이터
- Parquet
Archives
- Today
- Total
목록델타레이크 프로토콜 (1)
데이터 엔지니어 기술 블로그
[Delta Lake] 데이터 레이크하우스: 프로토콜
1. 개요 1.1 Delta의 트랜잭션 구현 방법 다중 버전 동시성 제어(MVCC) 테이블이 변경될 경우 즉시 교체하지 않고 데이터의 여러 복사본을 유지한다. Reader는 트랜잭션 로그를 사용하여 처리할 데이터의 파일을 선택적으로 가져온다. Writer는 새 데이터 파일이나 기존 파일의 업데이트된 복사본을 작성한다. 그 후 커밋하고 로그에 새 항목을 추가하여 테이블의 새로운 버전을 생성한다. 이 로그에는 테이블에 대한 메타데이터 변경 사항과 함께 논리적으로 추가 및 제거할 데이터 파일이 기록된다. vacuum 명령을 사용하여 추후에 지연 삭제할 수 있다. 2. Delta Table Specification 2.1 테이블 스냅샷 테이블에는 연속적으로 증가하는 정수를 사용한 로그가 있다. 특정 버전에서 테..
데이터 엔지니어링
2022. 3. 18. 20:28