데이터 엔지니어 기술 블로그

델타레이크(2)

[Delta Lake] 데이터 레이크하우스: 테이블 활용하기
1. 테이블 읽기 및 쓰기 1.1 테이블 생성하는 방법 spark.sql CREATE TABLE delta.`s3://bucket_name/foo/bar/table_name` ( id INT, firstName STRING, middleName STRING, lastName STRING, ) USING DELTA write df.write.format("delta").mode("overwrite").save("s3://bucket_name/foo/bar/table_name") 1.2 시간 여행 델타레이크에서는 timestamp와 version으로 시간 여행을 할 수 있다. 사용자의 실수로 테이블의 어떤 데이터를 삭제하나 업데이트 한 경우 시간 여행으로 과거의 테이블로 돌아가 다시 쓸 수 있다. df1 =..
2022.03.18
[Delta Lake] 데이터 레이크하우스: 소개 및 예시
Delta Lake는 데이터 레이크 위에 Lakehouse 아키텍처를 구축할 수 있는 오픈소스 프로젝트이다. 데이터 레이크의 문제점과 데이터 웨어하우스의 문제점을 보완해줄 수 있다. 데이터 레이크는 아주 큰 데이터를 저장할 수 있지만 체계가 정확하게 잡히지 않으면 데이터 늪이 되기가 쉽다. S3와 같은 클라우드 스토리지는 가장 비용 효율적인 스토리지 시스템이다. 그러나 key-value로 구현이 되어있어서 ACID 트랜잭션과 같은 고성능을 구현하기는 어렵다. listing object와 같은 메타데이터 동작은 비싸며 일관성 보장은 제한적이다. 델타레이크는 이런 문제점을 보완할 수 있다. ACID 성질을 가질 수 있게 하여 트랜잭션을 구현하며, 테이블에서의 시간 여행을 가능하게 한다. upsert를 구현할..
2022.02.07

1

티스토리툴바