반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Schema Registry
- 데이터
- Data Engineer
- 데이터 엔지니어
- 카프카 구축
- 데이터 웨어하우스
- kafka rest api
- MySQL
- airflow
- 레드시프트
- docker
- Parquet
- Data engineering
- 델타레이크
- 데이터 엔지니어링
- 컬럼 기반
- Redshift
- 스파크
- 스파크 스트리밍
- Zookeeper
- 카프카
- kafka
- 에어플로우
- s3
- spark streaming
- 대용량 처리
- spark
- delta lake
- AWS
- Data Warehouse
Archives
- Today
- Total
목록스파크 카프카 통합 (1)
데이터 엔지니어 기술 블로그
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Ad1O8/btrjfDMQmO0/vXJMde4maA2nxzj3jXXoAK/img.png)
개요 카프카를 사용하는 경우 데이터를 가공해서 다시 카프카로 넣거나 다른 곳으로 보내는 등의 처리를 해줄 곳이 반드시 필요하다. Spark Streaming을 사용하면 문제를 쉽게 해결할 수 있다. 자체적으로 kafka에서 읽고 처리 후 kafka로 보내는 기능이 포함되어 있으며 Spark에서는 1.2버전부터 파이썬에서 Spark Streaming을 사용할 수 있게 되었다. Spark Streaming에는 DStreams라는 기능이 있고, 그 위에 DataFrame을 사용하여 더 쉽게 처리를 할 수 있는 Structed Streaming이 있다. 여기에서는 Structed Streaming을 사용하려고 한다. 방법 spark.readStream을 사용하여 카프카의 어떤 토픽에서 데이터를 가져올지 정한다...
데이터 엔지니어링
2021. 10. 29. 20:54