데이터 엔지니어 기술 블로그

데이터 엔지니어 기술 블로그

  • 분류 전체보기 (73)
    • 데이터 엔지니어링 (48)
    • Infrastructure (1)
    • 기술 (3)
    • AWS (4)
    • 데이터 엔지니어링 위클리 (8)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

데이터 엔지니어 기술 블로그

컨텐츠 검색

태그

docker data engineering weekly spark Data engineering 스파크 s3 delta lake 카프카 kafka spark streaming Data Engineer airflow MySQL 에어플로우 데이터 데이터 엔지니어 Redshift AWS 데이터 엔지니어링 Ai

최근글

댓글

공지사항

아카이브

transaction(1)

  • [Delta Lake] 데이터 레이크하우스: 소개 및 예시

    Delta Lake는 데이터 레이크 위에 Lakehouse 아키텍처를 구축할 수 있는 오픈소스 프로젝트이다. 데이터 레이크의 문제점과 데이터 웨어하우스의 문제점을 보완해줄 수 있다. 데이터 레이크는 아주 큰 데이터를 저장할 수 있지만 체계가 정확하게 잡히지 않으면 데이터 늪이 되기가 쉽다. S3와 같은 클라우드 스토리지는 가장 비용 효율적인 스토리지 시스템이다. 그러나 key-value로 구현이 되어있어서 ACID 트랜잭션과 같은 고성능을 구현하기는 어렵다. listing object와 같은 메타데이터 동작은 비싸며 일관성 보장은 제한적이다. 델타레이크는 이런 문제점을 보완할 수 있다. ACID 성질을 가질 수 있게 하여 트랜잭션을 구현하며, 테이블에서의 시간 여행을 가능하게 한다. upsert를 구현할..

    2022.02.07
이전
1
다음
아이템즈
© 2025 Items. All rights reserved.

티스토리툴바