반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Data Engineer
- 스파크
- 카프카
- 대용량 처리
- 레드시프트
- Redshift
- MySQL
- 에어플로우
- 델타레이크
- spark
- docker
- 데이터 엔지니어
- Data Warehouse
- 스파크 스트리밍
- delta lake
- s3
- Parquet
- Schema Registry
- 카프카 구축
- kafka rest api
- 데이터 엔지니어링
- 컬럼 기반
- 데이터
- spark streaming
- AWS
- 데이터 웨어하우스
- Data engineering
- airflow
- Zookeeper
- kafka
Archives
- Today
- Total
목록lzo (1)
데이터 엔지니어 기술 블로그
[압축 방식 비교] gzip vs snappy vs lz4 vs brotli vs zstd vs lzo
개요 데이터를 수집하고 가공하고 제공을 하기 위해서 보통 아주 많은 양의 데이터들을 다루게 된다. 파일을 저장할 때 압축을 하지 않는다면 파일의 크기가 커지는 동시에 비용도 증가하게 된다. 이것을 줄이기 위해서 보통은 압축을 해서 저장을 하게 된다. 저장하는 방식에는 여러가지가 있는데 이번에는 각 압축 방식마다 어떤 특징이 있는지 알아보려고 한다. 압축 방식들 gzip GNU zip의 줄임말이며 초기 유닉스 시스템에 쓰이던 압축 프로그램을 대체하기 위해 만들어졌다. 1992년 10월 31일에 처음 공개되었다. 무손실 압축 데이터 알고리즘(DEFLATE)을 사용한다. 파일 형식 중에 하나인 타르(tar)와 함께 .tar.gz 형식으로 자주 사용된다. 이 경우 다른 파일끼리 중복되는 부분을 압축시킬 수 있다..
데이터 엔지니어링
2021. 7. 10. 12:05