데이터 엔지니어 기술 블로그

데이터 엔지니어 기술 블로그

  • 분류 전체보기 (73)
    • 데이터 엔지니어링 (48)
    • Infrastructure (1)
    • 기술 (3)
    • AWS (4)
    • 데이터 엔지니어링 위클리 (8)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

데이터 엔지니어 기술 블로그

컨텐츠 검색

태그

airflow MySQL 카프카 Ai spark 데이터 엔지니어 data engineering weekly Data Engineer 데이터 데이터 엔지니어링 에어플로우 s3 스파크 kafka delta lake spark streaming docker Redshift Data engineering AWS

최근글

댓글

공지사항

아카이브

전체 글(73)

  • [데이터 엔지니어링] Apache Parquet 정리

    Apache Hadoop 에코 시스템의 column-oriented 데이터 스토리지 포맷입니다. Hadoop에서 사용할 수 있는 column-oriented 파일 형식 RCFile, ORC와 유사합니다. 향상된 성능과 함께 효율적인 데이터 압축 및 인코딩 체계를 제공합니다. 기존 Hadoop 컬럼 스토리지 형식인 Trevni을 개선하기 위해 설계되었습니다. 기능 column-oriented 1. 각 열의 값은 인접한 메모리 위치에 물리적으로 저장됩니다. 2. 열 단위 압축은 효율적이어서 저장 공간을 절약합니다. 3. 같은 열의 값은 비슷한 유형이므로 유형별 압축 기술이 필요하지 않습니다. 4. 특정 열 값을 가져오는 쿼리는 전체 행을 읽지 않고 일부 열만 읽습니다. 5. 열마다 다른 인코딩을 적용할 수 ..

    2021.03.08
이전
1 ··· 10 11 12 13
다음
아이템즈
© 2025 Items. All rights reserved.

티스토리툴바