반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 데이터 웨어하우스
- 대용량 처리
- Parquet
- 에어플로우
- delta lake
- 스파크
- kafka rest api
- Redshift
- airflow
- 데이터
- 카프카
- 레드시프트
- 데이터 엔지니어링
- Schema Registry
- 카프카 구축
- Data engineering
- s3
- MySQL
- 컬럼 기반
- 스파크 스트리밍
- 델타레이크
- Data Engineer
- docker
- AWS
- spark
- kafka
- Data Warehouse
- spark streaming
- 데이터 엔지니어
- Zookeeper
Archives
- Today
- Total
데이터 엔지니어 기술 블로그
[🔥Spark] Spark Streaming 이란? 본문
반응형
Spark Streaming 개요
스트리밍 처리는 실시간으로 들어오는 데이터를 처리하는 것을 말하는데, 스파크 스트리밍은 배치 처리를 해준다. 배치 처리란 A시간 부터 B시간까지의 처리를 한 묶음, B시간 부터 C시간까지의 처리를 한 묶음으로, 처리를 하는 것을 말한다. n초에 한 번씩 실행하는 등의 지정을 할 수 있다.
스파크 스트리밍은 특정 포트를 통해 데이터를 받아들일 수 있으며 데이터를 전부 불러와서 처리하는 것이 아닌 특정 시간 사이에 들어온 데이터를 처리하는 방식이다.
Example
1. 스파크 세션을 생성한다.
2. 스트리밍 데이터프레임 생성한다.
3. 변형 작업을 한다.
4. 목적지로 출력한다.
5. 1을 더하는 출력 결과 예시는 다음과 같다.
-------------------------------------------
Batch: 1
-------------------------------------------
+-----------------------+-----+------+
|timestamp |value|result|
+-----------------------+-----+------+
|2021-04-01 11:40:37.867|0 |1 |
+-----------------------+-----+------+
-------------------------------------------
Batch: 2
-------------------------------------------
+-----------------------+-----+------+
|timestamp |value|result|
+-----------------------+-----+------+
|2021-04-01 11:40:38.867|1 |2 |
|2021-04-01 11:41:33.037|2 |3 |
+-----------------------+-----+------+
반응형
'데이터 엔지니어링' 카테고리의 다른 글
[🧙Kafka] 카프카 구축 (2) - 카프카 도커로 쉽게 설치하기 (0) | 2021.04.06 |
---|---|
[🧙Kafka] 카프카 구축 (1) - 주키퍼 앙상블 쉽게 구축하기 (2) | 2021.04.06 |
[데이터 엔지니어링 간단 정리] 스노우플레이크(Snowflake) - 클라우드 기반 데이터 웨어하우징 (0) | 2021.03.31 |
[🧙Kafka] 카프카 정리 - 주키퍼(ZooKeeper)란? (0) | 2021.03.15 |
[🧙Kafka] 카프카 정리 - 기본 개념 (0) | 2021.03.12 |
Comments