데이터 엔지니어링(38)
-
데이터 엔지니어링 위클리 #10 | Schema Evolution, Clean Code
Articles데이터 엔지니어링에서 스키마 진화를 이해하기이 글에서는 데이터 엔지니어링에서 중요한 개념인 스키마 진화(Schema Evolution)에 대해 설명하고 있습니다. 데이터의 구조는 시간이 지남에 따라 변할 수 있으며, 이를 관리하고 처리하는 방법에 대해 다룹니다. 현대 데이터 시스템은 데이터의 변화를 수용할 수 있도록 설계되어 있어 기존 시스템의 경직성을 극복합니다.스키마 진화는 데이터 파이프라인이나 데이터베이스가 데이터 구조의 변화에 적응할 수 있는 능력을 말합니다.전통적인 시스템에서는 구조의 변화가 문제를 일으키기 쉬웠지만, 현대의 데이터 레이크와 델타 레이크 기반 시스템은 이런 변화를 원활하게 처리합니다.실시간 데이터 스트리밍과 변화하는 데이터 소스에 대응하기 위해 스키마 진화의 중요성..
2025.05.18 -
데이터 엔지니어링 위클리 #9 | Vibe Coding, AI, Airbyte
Articles에어비앤비가 초당 100만 개의 이벤트로 개인화를 실현하는 방법Airbnb는 사용자 경험을 개인화하기 위해 1초에 100만 건의 이벤트를 처리하는 User Signals Platform (USP)을 운영하고 있습니다. 이 플랫폼은 사용자의 비선형적인 행동을 실시간으로 이해하고, 이를 통해 앱 내 개인화된 추천 및 고객 지원을 가능하게 합니다. 여기서는 USP의 아키텍처와 Airbnb 엔지니어링 팀이 직면한 문제들, 그리고 이를 해결하기 위한 주요 설계 결정을 다룹니다.User Signals Platform(USP)은 실시간 개인화를 위해 비선형 사용자 행동을 처리하는 시스템입니다.데이터 파이프라인과 온라인 서비스 레이어로 구성되어 있으며, Kafka와 Flink를 활용하여 1초 이내에 이벤..
2025.04.29 -
데이터 엔지니어링 위클리 #6 | Knowledge Graph, Data Observability, OpenTelemetry, OpenLineage
Articles부동산 검색에서 지식 그래프 활용이 글은 Zillow가 부동산 데이터를 구조화하고, 사용자 검색 경험을 개선하기 위해 Knowledge Graph(지식 그래프)를 어떻게 구축하고 활용하고 있는지를 설명하는 내용입니다. 다양한 데이터 출처를 연결해 사용자 맞춤형 검색, 자동완성, 추천 기능을 구현하는 방식과 기술적 구현 과정을 다룹니다.지식 그래프는 다양한 표현을 하나의 표준 개념으로 정리해 검색 일관성을 높여줍니다.Zillow는 자연어 처리(NLP), 이미지 인식, BERT 기반 모델 등을 활용하여 데이터를 정제하고 연결합니다.사용자 행동 데이터를 분석해 더 정교한 추천과 검색 결과를 제공하며, 지속적인 업데이트와 버전 관리를 통해 품질을 유지합니다. 더보기 개요인터넷 시대에는 정보가 넘쳐..
2025.04.08 -
데이터 제품 중심 솔루션: DataOS란?
1. PhilosophyInsights - 선언형으로 구성하여 안정성을 확보하고 운영 리소스 감소시킬 수 있다. - 데이터 제품 중심으로 만들면 가치를 중심으로 효율적으로 발전할 수 있다. - DDP 기반의 기본 구성 요소를 통해 유연하게 조합할 수 있다. - 운영체제처럼 데이터 인프라를 숨기고 사용자에 따라 다르게 활용할 수 있게 할 수 있다. - 추상화하여 빠르게 변화하는 트렌드에서도 틀을 잡을 수 있다.사용자를 정의할 수 있다. ✅ DataOS란?데이터를 위한 운영체제(OS)로, 기존 시스템을 뜯어고치는 것이 아니라, 현재의 데이터 환경을 더 유연하고 효과적으로 운영하게 도와줍니다.전통적인 테이블 중심 구조에서 벗어나, 데이터 제품(Data Products) 중심으로 진화하는 것을 의미합니다.🎯 ..
2025.03.26 -
데이터 엔지니어링 위클리 #4 | LLM, AI, Netflix, Airbnb
Articles넷플릭스가 하루에 1억 4천만 시간의 시청 데이터를 저장하는 방법넷플릭스가 하루에 1억 4천만 시간의 시청 데이터를 처리하고 저장하는 방법에 대해 설명하는 글입니다. 데이터 양의 폭발적인 증가로 인한 기술적 도전 과제를 극복하기 위해, 넷플릭스는 데이터 저장 아키텍처를 발전시켜 시청 기록을 효과적으로 관리하고 사용자 경험을 향상시켰습니다.넷플릭스는 초기에는 Apache Cassandra를 사용하여 데이터를 저장했으나, 데이터 양의 증가로 인해 성능 한계에 직면하였습니다.새롭게 도입된 저장 아키텍처는 시청 기록을 세 가지 카테고리(전체 제목 재생, 비디오 미리보기, 언어 선호)로 분류하고, 데이터 형태 및 나이에 따라 샤딩하여 성능을 개선하였습니다.새로운 시스템은 사용자 요구에 맞추어 데이터..
2025.03.26 -
데이터 엔지니어링 위클리 #3 | 스파크 최적화, 데이터 제품, Late-Arriving Data
Articles⭐️ 페이스북의 수십억 개 메시지를 처리하는 Apache Cassandra 심층 분석이 글은 페이스북이 빌리언 단위의 메시지를 관리하기 위해 개발한 분산 데이터베이스 시스템인 아파치 카산드라(Apache Cassandra)에 대해 심도 있는 분석을 제공합니다. 카산드라의 구조와 작동 원리, 특히 데이터 저장 및 검색 방식에 대한 기술적인 특징을 상세히 설명하며 이를 통해 대규모 데이터 처리의 효율성을 강조하고 있습니다.아파치 카산드라는 분산 스토리지 방식으로 설계되어 있으며, 데이터의 고가용성과 내구성을 보장합니다.페이스북의 인박스 검색 기능을 지원하기 위해 특별히 고안되었으며, 수많은 메시지를 빠르게 검색할 수 있는 구조를 갖추고 있습니다.데이터 모델은 전통적인 관계형 데이터베이스와는 달..
2025.03.19