데이터 엔지니어 기술 블로그

데이터 엔지니어 기술 블로그

  • 분류 전체보기 (73)
    • 데이터 엔지니어링 (48)
    • Infrastructure (1)
    • 기술 (3)
    • AWS (4)
    • 데이터 엔지니어링 위클리 (8)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

데이터 엔지니어 기술 블로그

컨텐츠 검색

태그

kafka spark streaming 데이터 엔지니어 Redshift MySQL spark 데이터 데이터 엔지니어링 AWS airflow s3 delta lake 카프카 Ai docker 스파크 에어플로우 Data Engineer Data engineering data engineering weekly

최근글

댓글

공지사항

아카이브

Guide(1)

  • [🔥Spark] Spark Streaming + Kafka 연동하기

    개요 카프카를 사용하는 경우 데이터를 가공해서 다시 카프카로 넣거나 다른 곳으로 보내는 등의 처리를 해줄 곳이 반드시 필요하다. Spark Streaming을 사용하면 문제를 쉽게 해결할 수 있다. 자체적으로 kafka에서 읽고 처리 후 kafka로 보내는 기능이 포함되어 있으며 Spark에서는 1.2버전부터 파이썬에서 Spark Streaming을 사용할 수 있게 되었다. Spark Streaming에는 DStreams라는 기능이 있고, 그 위에 DataFrame을 사용하여 더 쉽게 처리를 할 수 있는 Structed Streaming이 있다. 여기에서는 Structed Streaming을 사용하려고 한다. 방법 spark.readStream을 사용하여 카프카의 어떤 토픽에서 데이터를 가져올지 정한다...

    2021.10.29
이전
1
다음
아이템즈
© 2025 Items. All rights reserved.

티스토리툴바