데이터 엔지니어 기술 블로그

데이터 엔지니어 기술 블로그

  • 분류 전체보기 (73)
    • 데이터 엔지니어링 (48)
    • Infrastructure (1)
    • 기술 (3)
    • AWS (4)
    • 데이터 엔지니어링 위클리 (8)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

데이터 엔지니어 기술 블로그

컨텐츠 검색

태그

spark streaming 에어플로우 delta lake Data Engineer AWS Ai Data engineering 카프카 데이터 엔지니어링 spark kafka MySQL 스파크 airflow s3 데이터 엔지니어 Redshift data engineering weekly docker 데이터

최근글

댓글

공지사항

아카이브

Machine Learning(1)

  • [🔥Spark] 스파크로 머신러닝 시작하기

    스파크 기본 파이썬에서 스파크 사용하기 SparkContext의 인스턴스를 만들면 스파크 클러스터에 연결해서 사용할 수 있게 해준다. SparkConf로 스파크에 대한 구성을 할 수 있다. sc = SparkContext.getOrCreate() # Verify SparkContext print(sc) # Print Spark version print(sc.version) 데이터프레임 사용하기 스파크의 코어 데이터 구조는 RDD라고 하는데 Resilient Distributed Dataset(탄력성있는 분산된 데이터셋) 이라는 뜻이다. RDD는 낮은 레벨에 있어서 사용하기 어렵기 때문에 Spark DataFrame 이라는 더 높은 레벨의 데이터프레임을 사용하는 것이 편하다. Spark DataFrames..

    2021.04.10
이전
1
다음
아이템즈
© 2025 Items. All rights reserved.

티스토리툴바