데이터 엔지니어 기술 블로그

데이터 엔지니어 기술 블로그

  • 분류 전체보기 (73)
    • 데이터 엔지니어링 (48)
    • Infrastructure (1)
    • 기술 (3)
    • AWS (4)
    • 데이터 엔지니어링 위클리 (8)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

데이터 엔지니어 기술 블로그

컨텐츠 검색

태그

Data Engineer 데이터 엔지니어링 docker MySQL 데이터 엔지니어 카프카 AWS Data engineering airflow spark Ai 스파크 에어플로우 Redshift delta lake spark streaming s3 kafka data engineering weekly 데이터

최근글

댓글

공지사항

아카이브

File Format(1)

  • [Apache Parquet] 공식 문서로 파케이 이해하기

    개발 동기 우리는 어떤 하둡 에코시스템에도 사용할 수 있고 압축과 컬럼 기반 데이터 표현의 이점을 만들기 위해 Parquet를 개발했습니다. Parquet는 처음부터 중첩된(nested) 데이터 구조를 위해 개발되었으며, Dremel의 논문에 작성된 record shredding and assembly algorithm을 사용합니다. 우리는 이 접근 방식이 중첩된 name space를 단순하게 붙이는 것보다 좋다고 믿고 있습니다. https://github.com/julienledem/redelm/wiki/The-striping-and-assembly-algorithms-from-the-Dremel-paper Parquet는 효율적인 압축과 인코딩 체계를 지원하도록 개발되었습니다. 여러 프로젝트에서 데이..

    2022.01.20
이전
1
다음
아이템즈
© 2025 Items. All rights reserved.

티스토리툴바