반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 델타레이크
- Data Warehouse
- s3
- Redshift
- kafka rest api
- 데이터 엔지니어링
- 데이터 웨어하우스
- 카프카
- Data engineering
- 카프카 구축
- 데이터 엔지니어
- 스파크 스트리밍
- docker
- spark
- 스파크
- MySQL
- AWS
- Zookeeper
- Data Engineer
- Schema Registry
- 컬럼 기반
- 에어플로우
- spark streaming
- delta lake
- 데이터
- airflow
- 레드시프트
- kafka
- Parquet
- 대용량 처리
Archives
- Today
- Total
목록airflow cluster (1)
데이터 엔지니어 기술 블로그

개요 에어플로우를 LocalExecutor를 사용해서 하나의 인스턴스에 실행시키고 있었다. 그러나 인스턴스에 문제가 생기면 Airflow도 동작하지 않을 수 있는 문제가 있고, 인프라가 커졌을 때 확장이 힘들어서 Worker를 분리해야했다. airflow에서 공식적으로 제공하는 docker-compose에서는 celery를 사용하며, 보통 airflow를 구축할 때 celery를 사용하는 것 같다. 이렇게 클러스터로 구축을 하게 되면 리소스가 필요할 때 worker의 갯수만 늘리면 되고, 리소스가 필요 없을 때 불필요하게 낭비하지 않고 worker의 갯수를 줄이면 되기 때문에 좋다. 구축할 때는 AWS ECS, AWS EFS 환경에서 구축했다. 구축 과정 Dask Cluster를 활용하여 구축 시도 가장..
데이터 엔지니어링
2021. 10. 15. 18:26