일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 데이터
- Data Warehouse
- 대용량 처리
- 카프카 구축
- Redshift
- 레드시프트
- 스파크
- AWS
- airflow
- delta lake
- 카프카
- spark
- kafka
- kafka rest api
- 데이터 엔지니어링
- Data engineering
- docker
- Schema Registry
- spark streaming
- 데이터 엔지니어
- 에어플로우
- 델타레이크
- 데이터 웨어하우스
- 스파크 스트리밍
- Zookeeper
- Data Engineer
- 컬럼 기반
- s3
- Parquet
- MySQL
- Today
- Total
목록전체 글 (62)
데이터 엔지니어 기술 블로그
글을 쓸 때는 피라미드 구조로 작성해야 한다. 피라미드 구조는 단순한 논리구조 규칙을 가지고 있다. 그 규칙을 따라 만들어진 글은 독자가 질의응답을 통해 필요한 정보만 정확히 제공받을 수 있다. 1. 피라미드 개념 1.1 규칙 어떤 계층에 있는 메세지든 하위 계층의 메시지를 요약해야 한다. 그룹 내의 메시지는 항상 동일한 종류여야 한다. 그룹 내의 메시지는 항상 논리적 순서로 배열되어야 한다. 1.2 상세 규칙 하위 계층을 약 4-5개 이하의 그룹으로 묶고 순서를 논리적으로 배열한다. 그룹으로 묶을 때는 귀납법 또는 연역법 중 하나를 사용한다. 독자가 필요한 정보만 정확히 제공받을 수 있도록 상위 계층에서의 질문에 하위 계층이 답해주어야 한다. 독자가 길을 잃지 않도록 질문이 생기기 전에 미리 답변하지 ..
OKR 소개 OKR(Objectives and Key Results)은 ”목표와 핵심 결과“를 의미하는 관리 기법이다. OKR의 시초인 MBO(Management by Objectives) 시스템은 두가지 기본 원칙을 바탕으로 한다. 일을 최고로 잘하도록 동기부여: “사람들에게 어떻게 할지를 알려주지 마라. 그들이 완수해야 하는 것을 알려주고 그들이 결과를 내게 해서 당신을 놀라게 만들어라” 성과를 의미 있게 측정 하기: ”당신이 원하는 모든 제품을 출시할 수 있지만 결과적으로 중요한 사업 문제를 해결하지 못한다면 실제로는 아무것도 해결하지 못한 것이다.“ 위의 기본 원칙들을 기반으로 발전한 OKR은 세 부분으로 이루어져있다. 영감을 주고 측정 가능한 목표를 세워라. 바라는 최종 상태를 향해 언제나 당신..
운영 시스템은 트랜잭션을 신속히 처리하는데 최적화되어있습니다. 데이터 웨어하우스는 신규 고객을 집계하고 월별 GMV를 비교하는 등의 요구사항을 처리할 수 있어야 합니다. 그러기 위해서는 운영 시스템과는 다른 구조가 필요하며 이를 다차원 모델링으로 해결합니다. 데이터 웨어하우스를 활용하는 사람들은 현업에 있는 다양한 직업을 가진 사람들입니다. 그래서 구축을 할 때는 기술보다 비즈니스 이슈를 중심으로 생각해야 합니다. 데이터 웨어하우스 구축을 위한 요구사항은 다음과 같습니다. 정보에 쉽게 접근 가능하도록 만들어야 한다. 의사결정을 위해 신뢰할 수 있는 토대가 되어야 하며 일관된 정보를 제공해야 한다. (데이터 신뢰성) 시스템 변화에 유연해야 한다. 정보를 적시에 제공해야 한다. (데이터 최신성) 현업에서 사..
Intro 1 Page Proposal은 8가지 구성요소로 기획서를 단순하고 명확하게 작성하는 방법입니다. 1 Page Proposal 이란? 기획서는 보통 수십 페이지 분량으로 두껍고 화려하게 작성되는 경우가 많습니다. 그러나 사람들은 결정을 내려야 하는 상황에는 쉬운 결정 먼저 내린다고 합니다. 기획서를 보는 결정권자는 화려하고 두꺼운 기획서를 검토하며 핵심 내용을 추출할 시간이 없습니다. 1 Page Proposal의 핵심 특징 투명함: 나쁜 아이디어를 좋아 보이게 하지 않는다. 완벽함: 많은 리서치와 완벽한 논리로 완벽할 때까지 작성한다. 거부하기 어려운 제안을 만든다. 간결함: 읽는 데 걸리는 시간은 4분이며 400단어 내외로 이루어져 있으며 읽기 쉽게 작성된다. 1 Page Proposal의 ..
(Data lakehouse in action의 1, 2장을 요약한 글입니다.) Data Lakehouse in Action - 저자 Pradeep Menon 출판 Packt Publishing 출판일 2022.03.17 1. 데이터 분석 패턴의 진화 엔터프라이즈 데이터 웨어하우스(EDW) 시대 EDW 시대가 시작된 배경은 다음과 같았습니다. 분석은 리포팅과 같은 말이었습니다. 데이터베이스 구조를 리포팅하는데 최적화하는 것이 최우선 목표였습니다. Ralph Kimball, Bill Inmon에 의해 1990, 2000년대에 활성화되었습니다. EDW의 패턴은 다음과 같았습니다. Flat Files, Databases -> ETL -> EDW -> Data Marts -> BI EDW는 오랜 시간동안 자리를..