데이터 엔지니어 기술 블로그

데이터 엔지니어링 위클리 #10 | Schema Evolution, Clean Code

Articles데이터 엔지니어링에서 스키마 진화를 이해하기이 글에서는 데이터 엔지니어링에서 중요한 개념인 스키마 진화(Schema Evolution)에 대해 설명하고 있습니다. 데이터의 구조는 시간이 지남에 따라 변할 수 있으며, 이를 관리하고 처리하는 방법에 대해 다룹니다. 현대 데이터 시스템은 데이터의 변화를 수용할 수 있도록 설계되어 있어 기존 시스템의 경직성을 극복합니다.스키마 진화는 데이터 파이프라인이나 데이터베이스가 데이터 구조의 변화에 적응할 수 있는 능력을 말합니다.전통적인 시스템에서는 구조의 변화가 문제를 일으키기 쉬웠지만, 현대의 데이터 레이크와 델타 레이크 기반 시스템은 이런 변화를 원활하게 처리합니다.실시간 데이터 스트리밍과 변화하는 데이터 소스에 대응하기 위해 스키마 진화의 중요성..

2025.05.18

데이터 엔지니어링 위클리 #9 | Vibe Coding, AI, Airbyte

Articles에어비앤비가 초당 100만 개의 이벤트로 개인화를 실현하는 방법Airbnb는 사용자 경험을 개인화하기 위해 1초에 100만 건의 이벤트를 처리하는 User Signals Platform (USP)을 운영하고 있습니다. 이 플랫폼은 사용자의 비선형적인 행동을 실시간으로 이해하고, 이를 통해 앱 내 개인화된 추천 및 고객 지원을 가능하게 합니다. 여기서는 USP의 아키텍처와 Airbnb 엔지니어링 팀이 직면한 문제들, 그리고 이를 해결하기 위한 주요 설계 결정을 다룹니다.User Signals Platform(USP)은 실시간 개인화를 위해 비선형 사용자 행동을 처리하는 시스템입니다.데이터 파이프라인과 온라인 서비스 레이어로 구성되어 있으며, Kafka와 Flink를 활용하여 1초 이내에 이벤..

2025.04.29

데이터 엔지니어링 위클리 #8 | Hadoop, Netflix Maestro, Senior Data Engineer

Articles넷플릭스가 Maestro로 수백만 개의 작업 흐름을 어떻게 조정하는지Netflix는 데이터를 활용한 작업과 머신러닝 워크플로우를 효과적으로 관리하기 위해 Maestro라는 새로운 워크플로우 오케스트레이터를 개발했습니다. Maestro는 이전의 Meson 시스템의 한계를 극복하고, 수십만 개의 작업을 효율적으로 관리할 수 있는 분산 아키텍처를 갖추고 있습니다. 이 글은 Maestro의 설계와 개발 과정에서의 도전 과제들을 다루고 있습니다.Netflix는 Meson을 통해 70,000개의 워크플로우와 500,000개의 작업을 관리했지만, 시스템의 한계로 인해 새로운 오케스트레이터인 Maestro를 개발하게 되었습니다.Maestro는 마이크로서비스 아키텍처를 기반으로 하여 높은 신뢰성과 낮은 운..

2025.04.23

데이터 엔지니어링 위클리 #7 | Lakehouse 2.0, Data Platform System

Articles엔지니어로서 조사 문서를 활용하여 혼돈을 명확성으로 바꾸는 방법이 글은 소프트웨어 엔지니어가 문제 해결 과정에서 Investigative Docs를 활용하여 혼돈을 정리하고 명확성을 얻는 방법에 대해 설명합니다. 이를 통해 팀 내 신뢰를 구축하고 경력을 개발하는 데 도움을 줄 수 있습니다.Investigative Docs는 문제를 명확히 정의하고, 해결 과정을 문서화하여 팀원들과의 소통을 원활하게 합니다.작성된 문서는 학습 자원으로 활용되며, 향후 유사한 문제를 예방하는 데 도움을 줍니다.이 문서의 구성 요소로는 요약(TLDR), 배경, 문제 감지, 조사 단계, 해결 방법 및 배운 내용이 포함됩니다. 더보기 개요이번 글에서는 Karthik Subramanian이라는 소프트웨어 엔지니어가 제..

2025.04.15

데이터 엔지니어링 위클리 #6 | Knowledge Graph, Data Observability, OpenTelemetry, OpenLineage

Articles부동산 검색에서 지식 그래프 활용이 글은 Zillow가 부동산 데이터를 구조화하고, 사용자 검색 경험을 개선하기 위해 Knowledge Graph(지식 그래프)를 어떻게 구축하고 활용하고 있는지를 설명하는 내용입니다. 다양한 데이터 출처를 연결해 사용자 맞춤형 검색, 자동완성, 추천 기능을 구현하는 방식과 기술적 구현 과정을 다룹니다.지식 그래프는 다양한 표현을 하나의 표준 개념으로 정리해 검색 일관성을 높여줍니다.Zillow는 자연어 처리(NLP), 이미지 인식, BERT 기반 모델 등을 활용하여 데이터를 정제하고 연결합니다.사용자 행동 데이터를 분석해 더 정교한 추천과 검색 결과를 제공하며, 지속적인 업데이트와 버전 관리를 통해 품질을 유지합니다. 더보기 개요인터넷 시대에는 정보가 넘쳐..

2025.04.08

데이터 엔지니어링 위클리 #5 | Shift Left, Karpenter, Data 3.0, Lakehouse

Articles왼쪽과 오른쪽으로 이동하기이 글에서는 데이터 엔지니어링의 변화와 미래 방향성을 다루고 있습니다. 특히, 데이터 엔지니어들이 '왼쪽으로 이동'하는 것뿐만 아니라, '오른쪽으로 이동'하는 경향도 있으며, 이는 데이터 품질 개선과 고객 가치 창출을 목표로 하는 새로운 데이터 작업 방식의 융합을 의미합니다.데이터 엔지니어들은 이제 더 이상 내부 IT 비용 센터로 한정되지 않고, 고객 가치 실현을 위해 다양한 역할을 수행해야 합니다.DataOps와 Data Mesh와 같은 혁신적인 개념들이 데이터 엔지니어링의 변화를 촉발하고 있습니다.데이터 엔지니어와 소프트웨어 엔지니어 간의 경계가 허물어지고 있으며, 데이터와 AI의 통합적 접근이 요구됩니다. 더보기 개요이 글에서 Joe Reis는 데이터 엔지니어..

2025.04.01

데이터 엔지니어 기술 블로그

데이터 엔지니어 기술 블로그

태그

최근글

댓글

공지사항

아카이브

전체 글(73)

티스토리툴바