반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 데이터 엔지니어링
- s3
- 카프카
- 델타레이크
- kafka rest api
- spark
- 에어플로우
- spark streaming
- Redshift
- Zookeeper
- 스파크 스트리밍
- 스파크
- Parquet
- 카프카 구축
- AWS
- 레드시프트
- docker
- 대용량 처리
- 데이터
- 데이터 웨어하우스
- 데이터 엔지니어
- kafka
- Data Engineer
- Data Warehouse
- MySQL
- delta lake
- 컬럼 기반
- Schema Registry
- airflow
- Data engineering
Archives
- Today
- Total
목록압축 방식 (1)
데이터 엔지니어 기술 블로그
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/8JFEO/btq9aeibTkR/8qwFmiIe8hTsJDrpTyU361/img.png)
개요 데이터를 수집하고 가공하고 제공을 하기 위해서 보통 아주 많은 양의 데이터들을 다루게 된다. 파일을 저장할 때 압축을 하지 않는다면 파일의 크기가 커지는 동시에 비용도 증가하게 된다. 이것을 줄이기 위해서 보통은 압축을 해서 저장을 하게 된다. 저장하는 방식에는 여러가지가 있는데 이번에는 각 압축 방식마다 어떤 특징이 있는지 알아보려고 한다. 압축 방식들 gzip GNU zip의 줄임말이며 초기 유닉스 시스템에 쓰이던 압축 프로그램을 대체하기 위해 만들어졌다. 1992년 10월 31일에 처음 공개되었다. 무손실 압축 데이터 알고리즘(DEFLATE)을 사용한다. 파일 형식 중에 하나인 타르(tar)와 함께 .tar.gz 형식으로 자주 사용된다. 이 경우 다른 파일끼리 중복되는 부분을 압축시킬 수 있다..
데이터 엔지니어링
2021. 7. 10. 12:05