반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- kafka
- Parquet
- 데이터 엔지니어링
- airflow
- Data Warehouse
- 대용량 처리
- 카프카
- Zookeeper
- 카프카 구축
- 레드시프트
- Data engineering
- Redshift
- 컬럼 기반
- 스파크 스트리밍
- Schema Registry
- 데이터
- 에어플로우
- delta lake
- spark streaming
- s3
- docker
- 델타레이크
- MySQL
- AWS
- 데이터 웨어하우스
- 데이터 엔지니어
- Data Engineer
- spark
- kafka rest api
- 스파크
Archives
- Today
- Total
목록Writing job aborted (1)
데이터 엔지니어 기술 블로그
[🔥Spark] Spark Streaming + Kafka 연동하기
개요 카프카를 사용하는 경우 데이터를 가공해서 다시 카프카로 넣거나 다른 곳으로 보내는 등의 처리를 해줄 곳이 반드시 필요하다. Spark Streaming을 사용하면 문제를 쉽게 해결할 수 있다. 자체적으로 kafka에서 읽고 처리 후 kafka로 보내는 기능이 포함되어 있으며 Spark에서는 1.2버전부터 파이썬에서 Spark Streaming을 사용할 수 있게 되었다. Spark Streaming에는 DStreams라는 기능이 있고, 그 위에 DataFrame을 사용하여 더 쉽게 처리를 할 수 있는 Structed Streaming이 있다. 여기에서는 Structed Streaming을 사용하려고 한다. 방법 spark.readStream을 사용하여 카프카의 어떤 토픽에서 데이터를 가져올지 정한다...
데이터 엔지니어링
2021. 10. 29. 20:54