데이터 엔지니어링 위클리 #4 | LLM, AI, Netflix, Airbnb

2025. 3. 26. 00:51ㆍ데이터 엔지니어링 위클리

Articles

넷플릭스가 하루에 1억 4천만 시간의 시청 데이터를 저장하는 방법

넷플릭스가 하루에 1억 4천만 시간의 시청 데이터를 처리하고 저장하는 방법에 대해 설명하는 글입니다. 데이터 양의 폭발적인 증가로 인한 기술적 도전 과제를 극복하기 위해, 넷플릭스는 데이터 저장 아키텍처를 발전시켜 시청 기록을 효과적으로 관리하고 사용자 경험을 향상시켰습니다.

넷플릭스는 초기에는 Apache Cassandra를 사용하여 데이터를 저장했으나, 데이터 양의 증가로 인해 성능 한계에 직면하였습니다.
새롭게 도입된 저장 아키텍처는 시청 기록을 세 가지 카테고리(전체 제목 재생, 비디오 미리보기, 언어 선호)로 분류하고, 데이터 형태 및 나이에 따라 샤딩하여 성능을 개선하였습니다.
새로운 시스템은 사용자 요구에 맞추어 데이터를 보다 효율적으로 저장하고 접근성을 향상시켜, 사용자 경험을 극대화하는 데 기여했습니다.

개요

이 글에서는 Netflix가 하루에 1억 4천만 시간의 시청 데이터를 어떻게 저장하고 관리하는지에 대해 설명합니다. Netflix는 매일 수백만 명의 사용자가 영화와 TV 프로그램을 스트리밍하면서 생성되는 방대한 양의 시청 데이터를 효과적으로 처리해야 하는 기술적 도전을 맞닥뜨리고 있습니다. 이러한 데이터에는 시청 시간, 일시 정지, 되감기 등 사용자의 행동이 포함되어 있으며, 이 데이터를 통해 맞춤형 추천 및 기능이 제공됩니다.

Netflix의 초기 접근법

Netflix는 초기에는 Apache Cassandra®를 사용하여 시청 데이터를 관리하기 시작했습니다. 이 선택은 다음과 같은 이유 때문이었습니다:

- 유연한 데이터 구조

- 데이터 쓰기 작업이 읽기보다 훨씬 많음

- 사용자의 시청 기록을 항상 업데이트할 수 있는 신뢰성

성능의 한계와 데이터 모델

그러나 사용자가 증가하고 시청 기록이 늘어남에 따라 성능 한계에 부딪혔습니다. 여러 가지 데이터 검색 방법이 사용되었지만, 데이터 양이 많아지자 이 방법들이 효율적이지 않게 되었습니다. 그래서 Netflix는 캐싱 솔루션인 EVCache를 도입하여 효율성을 높였습니다.

새로운 저장 모델

Netflix는 데이터의 접근 빈도에 따라 두 가지 유형으로 시청 기록을 나누었습니다:

1. Live Viewing History (LiveVH): 자주 접근하는 최근 기록

2. Compressed Viewing History (CompressedVH): 덜 접근하는 오래된 기록

이러한 방식으로 성능 향상 및 저장 효율성을 도모했습니다.

대규모 데이터 관리

전 세계적으로 서비스를 확장하면서 Netflix는 추가적인 문제에 직면하게 되었는데, 특히 비디오 미리 보기 기능과 다국적 언어 지원으로 인해 데이터 저장 요구가 크게 증가했습니다. 이러한 새로운 난제들을 해결하기 위해 Netflix는 데이터 카테고리를 다시 정의하고, 다층 클러스터로 데이터를 샤딩하여 보다 효율적으로 저장하고 조회할 수 있도록 시스템을 재설계했습니다.

최적화 방안

Netflix는 데이터 저장의 효율성을 높이고 데이터 검색을 개선하기 위해 여러 전략적 최적화를 도입했습니다:

1. 데이터 유형별 구분 및 클러스터링

2. 최근 데이터와 오래된 데이터를 카테고리에 따라 분리

3. 데이터 자동 이동 및 캐싱 시스템 강화

결론

결국 Netflix는 데이터 저장소 아키텍처를 대대적으로 개선하여 시청 데이터 저장 및 조회 속도를 향상시키고, 글로벌 사용자에게 뛰어난 스트리밍 경험을 제공할 수 있게 되었습니다. 이러한 혁신은 데이터 저장 비용 절감, 효율적인 검색 속도 개선을 통한 사용자 경험 향상을 목표로 하였습니다.

이 글은 Netflix가 방대한 양의 데이터를 관리하기 위해 어떻게 기술적 도전을 극복했는지에 대한 사례를 통해 데이터 처리와 저장의 중요성을 강조하고 있습니다.

2025-03-19 00:36:36
ByteByteGo Newsletter
How Netflix Stores 140 Million Hours of Viewing Data Per Day

에어비앤비 검색을 위한 임베딩 기반 검색

이 글에서는 Airbnb에서 임베딩 기반 검색 시스템을 구축하기 위한 여정을 공유하며, 이를 통해 검색 효율성을 개선하고 사용자에게 더욱 관련성 높은 숙소를 제공하는 방법을 설명합니다. 특히 훈련 데이터 구축, 모델 아키텍처 설계, 온라인 제공 전략 개발에 대한 주요 도전 과제를 다룹니다.

Airbnb의 임베딩 기반 검색 시스템은 사용자 쿼리와 관련된 숙소를 정확히 그리고 신속하게 검색하도록 설계되었습니다.
모델은 쿼리와 숙소 정보를 각각 처리하는 두 개의 타워로 구성되며, 실시간 검색 요청을 효율적으로 처리합니다.
A/B 테스트 결과, 새로운 검색 시스템이 전체 예약 수에 유의미한 증가를 가져왔음을 확인했습니다.

개요

Airbnb의 기술 블로그 게시물에서는 임베딩 기반 검색 시스템(EBR)을 구축하는 여정을 다루고 있습니다. 이 시스템은 사용자 검색 쿼리와 관련하여 적합한 숙소를 효율적으로 찾기 위한 목적으로 개발되었습니다. Airbnb는 수백만 개의 숙소를 보유하고 있으며, 사용자가 원하는 결과를 빠르고 정확하게 보여주기 위해 많은 도전 과제에 직면해 있습니다. 특히, 넓은 지리적 범위나 수요가 높은 장소에서의 검색은 더욱 복잡합니다. 이 글에서는 1) 훈련 데이터 구축, 2) 모델 아키텍처 설계, 3) 온라인 서빙 전략 개발과 같은 세 가지 주요 도전 과제를 소개합니다.

훈련 데이터 구축

EBR 시스템의 첫 번째 단계는 숙소와 비공식 검색 쿼리를 수치 벡터로 변환하는 머신러닝 모델을 훈련시키는 것이었습니다. 이를 위해 사용자 트립 데이터를 기반으로 긍정 샘플과 부정 샘플을 생성하는 방법이 개발되었습니다. 예를 들어, 사용자가 예약한 숙소는 긍정 샘플로, 사용자가 검색했지만 예약하지 않은 다른 숙소는 부정 샘플로 사용됩니다. 이 과정은 사용자 검색 여정을 잘 반영하여 모델 성능을 극대화하는 데 중요한 역할을 합니다.

모델 아키텍처

EBR 시스템은 두 개의 타워 구조로 설계되었습니다. 하나의 타워는 숙소에 관한 특성(예: 과거의 인기, 편의 시설 등)을 처리하고, 다른 하나는 검색 쿼리에 대한 특성(예: 위치, 투숙 인원 등)을 처리합니다. 이러한 방식은 실시간 검색 요청의 경우 쿼리 타워만 평가하면 되기 때문에 지연(latency)을 크게 줄였습니다.

온라인 서빙

최종 단계에서는 온라인 서빙 인프라를 선택해야 했습니다. 여러 근사 최근접 이웃(ANN) 솔루션이 고려되었으나, IVF(역 인덱스 파일)가 속도와 성능 측면에서 최적의 트레이드오프를 제공했습니다. 이는 Airbnb 숙소 데이터가 지속적으로 업데이트되기 때문에 필요했던 결정이었습니다. 또한 클러스터 간 균형을 잘 유지하는 것이 EBR 시스템의 검색 성능에 긍정적인 영향을 미쳤습니다.

결론

새로운 EBR 시스템은 검색 및 이메일 마케팅 프로덕션에서 성공적으로 론칭되었으며, A/B 테스트 결과 전체 예약 수에 유의미한 증가를 가져왔습니다. 이 시스템은 쿼리 컨텍스트를 효과적으로 통합하여 검색 결과의 정확성을 크게 향상시켰습니다. 이러한 개선사항은 Airbnb의 숙소 검색 기능이 인공지능 기반의 모형으로 더욱 진화하고 있음을 보여줍니다.

2025-03-20 02:21:28
The Airbnb Tech Blog
Embedding-Based Retrieval for Airbnb Search

dbt의 8가지 단점 - 업데이트 및 설명

dbt(데이터 빌드 툴)는 데이터 변환 관리를 위한 도구로 인기를 얻고 있지만, 몇 가지 단점도 있습니다. 이 글에서는 dbt의 주요 문제점과 이를 해결하는 방법에 대해 설명합니다.

dbt는 주로 SQL에 초점을 맞추고 있어, Python이나 R을 많이 사용하는 경우 한계가 있을 수 있음.
최근 dbt는 일부 클라우드 데이터 웨어하우스 환경에서 Python 모델 지원을 추가하여 유연성을 높였지만, 여전히 SQL 중심의 흐름이 강함.
복잡한 머신러닝 작업이 필요할 경우, 보조 도구가 필요할 수 있음을 강조.

개요

최근 몇 년 동안 dbt(데이터 빌드 도구)는 데이터 팀들이 분석에 버전 관리 및 소프트웨어 엔지니어링의 모범 사례를 도입하는 데 있어 주요 선택지가 되었습니다. dbt는 분석가와 엔지니어가 SQL 기반 모델을 체계적으로 작성하도록 유도하여 데이터 웨어하우스에서 데이터 변환 관리를 효과적으로 할 수 있게 돕습니다. 그러나 인기 있는 기술인 만큼 dbt에는 몇 가지 단점도 존재합니다. 이 글에서는 dbt의 주요 단점 8가지를 설명하고, 그에 대한 해결책을 제시합니다.

dbt의 주요 단점

단일 언어 중심의 한계
- dbt는 주로 SQL에 중점을 두고 있습니다. 이는 팀이 일관성을 유지하는 데에는 유리하나, 머신 러닝이나 고급 분석을 위해 Python이나 R을 많이 사용하는 팀에게는 제약이 될 수 있습니다.
- 최근 dbt의 업데이트로 Python 모델의 지원이 시작되었으나 여전히 SQL 중심의 워크플로우가 강세입니다.
고급 기능 부족
- dbt는 고급 데이터 처리 기능이 부족하여 복잡한 변환에는 한계가 있습니다.

이처럼 dbt의 단점들은 특정 상황에서 데이터 처리를 어렵게 만들 수 있습니다. 따라서 데이터 파이프라인에 머신 러닝이나 비SQL 데이터 조작이 필요할 경우 추가적인 도구나 파이프라인을 고려해야 합니다.

결론

dbt는 데이터 분석 팀에 많은 이점을 제공하지만, 혁신적인 확장을 위해서는 여전히 해결해야 할 여러 가지 제한이 존재합니다. 특히 DBT 사용 시 단순히 SQL 모델에 의존하기보다는 다양한 도구를 활용하는 것이 중요합니다. 이를 통해 데이터 처리 작업의 유연성을 확보하고 팀의 요구사항을 충족할 수 있습니다.

2025-03-20 20:48:59
Data Engineer Things
8 Drawbacks of dbt—Updated and Explained

온톨로지 파이프라인이 의미론적 지식 시스템에 힘을 주는 방법

이 글은 온톨로지 파이프라인이 세멘틱 지식 관리 시스템을 어떻게 지원하는지를 설명합니다. 조직이 독특한 지식을 효과적으로 관리하고 AI 시스템의 성과를 향상시키기 위해 필요한 구조적 접근 방법과 워크플로우를 다루고 있습니다.

세멘틱 지식 시스템은 조직의 고유한 속성을 반영해야 하며, 단순한 텍스트 레이블이나 주석으로는 부족합니다.
온톨로지 파이프라인은 세멘틱 지식 관리 시스템을 구축하기 위한 체계적 방법론을 제공합니다.
단계적 접근을 통해 명확한 목표 설정 및 투자 정당화를 가능하게 합니다.
잘 정의된 메타데이터와 택소노미 구조는 AI 및 데이터 인프라의 품질을 향상시키는 데 중요합니다.

개요

이 글은 현대 데이터 관리의 중요한 요소인 온톨로지 파이프라인이 어떻게 의미 기반 지식 시스템을 구축하는 데 기여하는지를 설명합니다. 자주 간과되는 의미 기반 지식 시스템은 대규모 언어 모델(LLM) 및 인공지능(AI) 시스템의 높은 성능을 달성하는 데 필요한 구조적으로 조직된 시스템입니다. 저자가 강조하는 점은 단순한 텍스트 레이블이나 주석으로 구성된 것이 아니라, 각 조직의 고유한 특성을 모델링하고 표현함으로써 지식을 효율적으로 관리할 수 있는 시스템을 만들어야 한다는 것입니다.

주요 내용

구조화된 접근법의 필요성
- 의미 기반 지식 시스템은 인간과 도구에 대한 투자가 필요하지만, 복잡하고 노동 집약적이지 않아야 합니다. 효과적인 지식 관리 시스템을 위해서는 명확한 프레임워크와 워크플로우가 필요합니다.
온톨로지 파이프라인의 구조
- 온톨로지 파이프라인은 반복적인 구축 블록으로 구성되며, 각 단계에서 데이터 정리, 준비 및 구조화 작업이 진행됩니다. 이러한 단계는 통제된 어휘, 메타데이터 표준, 분류법, 유의어 사전, 온톨로지 및 지식 그래프 제작으로 이어집니다.
각 구성 요소의 중요성
- 통제된 어휘: 명확한 정의와 동의어의 정리를 통해 일관된 의사소통과 데이터 관리의 기초를 다집니다.
- 메타데이터 표준: 데이터 자산을 설명하는 데 필요한 필드를 정의하여 정보의 맥락과 의미를 부여합니다.
- 분류법: 통제된 어휘를 기반으로 계층 구조를 만들어 개념 간의 관계를 정의합니다.
- 유의어 사전: 범위가 넓거나 좁은 개념 간의 관계를 더욱 정교하게 정의하는 역할을 합니다.
- 온톨로지: 개념 간의 관계 및 논리적 규칙을 정의하여 데이터와 정보의 의미를 부여합니다.
지식 그래프의 역할
- 마지막으로, 모든 구성 요소를 결합하여 생성된 지식 그래프는 의미 기반 지식 관리 시스템의 시각화_layer을 형성합니다. 이는 사용자가 시스템에 상호작용하고 질의할 수 있는 기회를 제공합니다.

결론

온톨로지 파이프라인을 통해 조직은 구조적이고 확장 가능한 의미 기반 지식 관리 시스템을 구축하고, 투자에 대한 명확한 ROI 지표를 제공할 수 있습니다. 또한, AI의 발전과 데이터 품질의 중요성이 커짐에 따라, 온톨로지 파이프라인은 조직이 신뢰할 수 있고 고성능의 AI 시스템을 위한 기반을 마련할 수 있도록 돕습니다. 이 과정을 통해 데이터 품질과 거버넌스가 향상되며, 궁극적으로 AI의 성공에 기여하게 됩니다.

2025-03-20 21:29:01
Modern Data 101
How the Ontology Pipeline Powers Semantic Knowledge Systems

데이터 엔지니어링 주간 #213

Data Engineering Weekly #213에서는 데이터 엔지니어링의 최신 동향과 AI의 발전, 데이터 처리 및 추천 시스템 개선 등에 대한 다양한 주제를 다루고 있습니다. 블로그 글은 데이터 엔지니어링 분야의 변화와 이를 성취하기 위한 기술적인 접근 방법을 강조하며, 특히 현업에서의 경험과 학습의 중요성을 강조합니다.

AI 도구 통합에 따른 데이터 엔지니어링의 변화 전망
데이터 엔지니어링에 필요한 기술 및 지속적인 학습 강조
AI의 발전 방향에 대한 비관적 예측 및 LLM 연구 동향 소개
데이터 기반 전략 수립의 한계와 창의적 사고 필요성 강조
기업의 추천 시스템과 데이터 엔지니어링 플랫폼 개선 사례 소개

개요

이번 주 Data Engineering Weekly 제213호에서는 데이터 엔지니어링 분야의 최신 동향 및 예측, 기술 혁신에 대한 다수의 기사를 소개합니다. 주목할 만한 행사로는 2025년 4월 22일부터 24일까지 오클랜드에서 열리는 Data Council가 있으며, 구독자는 할인 코드를 통해 특별한 혜택을 받을 수 있습니다. 이번 뉴스레터는 데이터 엔지니어링에 AI의 영향을 탐구하고, 엔지니어들의 스킬 업그레이드 방법을 설명하며, 다양한 기업들이 데이터 시스템과 추천 알고리즘을 어떻게 개선하고 있는지를 다루고 있습니다. 기사의 내용은 다음과 같습니다.

주요 내용

AI의 데이터 엔지니어링 혁신 예측
- Tristan Handy는 AI 툴이 데이터 엔지니어링 업무의 변수와 작업 방식을 어떻게 변화시킬지에 대해 설명합니다.
데이터 엔지니어 업스킬 전략
- Georg Heiler는 데이터 엔지니어로서 성공하기 위한 스킬과 실무 경험의 중요성을 강조하며, 데이터 파이프라인의 자산 그래프 접근법을 설명합니다.
AGI 발전에 대한 비관적 전망
- Thane Ruthenis는 현재의 머신 러닝 모델들이 인공지능의 최종 목표인 AGI(인공지능 일반)의 개발에 어떻게 기여하지 못할 것인지에 대한 설명을 담고 있습니다.
LLM 추론 모델의 현황
- Sebastian Raschka는 최신 연구를 통해 LLM(대형 언어 모델)의 추론 방식과 처리 방법을 분석합니다.
데이터 기반 전략의 한계
- Collin Prather는 단순히 데이터에 의존하는 전략이 조직에 미치는 부정적 영향을 설명하며, 보다 심층적인 전략 개발의 필요성을 강조합니다.
개인화 추천 플랫폼 개발
- 넷플릭스는 대형 언어 모델에서 영감을 받아 개인화된 추천 시스템 개발에 대한 경험을 공유합니다.
페이로드 안정성 강화
- Grab은 데이터 플랫폼의 모니터링과 자동화를 통해 안정성을 강화한 사례를 다룹니다.
Trino을 이용한 대규모 ETL
- Salesforce는 Trino를 사용하여 대규모 ETL 프로세스를 어떻게 구현할 수 있는지를 설명합니다.

주제	기여자	핵심 내용
AI와 데이터 엔지니어링 혁신	Tristan Handy	향후 4년 내 데이터 엔지니어링의 변화 가능성
데이터 엔지니어 업스킬 전략	Georg Heiler	스킬 향상과 실무 경험 아울러야 함
AGI 발전 비관적 전망	Thane Ruthenis	현재 방법론의 한계와 새로운 접근 필요성
LLM 추론 모델의 현황	Sebastian Raschka	추론 처리 기술 및 최신 연구 동향
데이터 전략 한계	Collin Prather	데이터 기반 전략의 부작용과 개선 방향
개인화 추천 시스템 개발	넷플릭스	사용자 선호 학습을 위한 모델 구축
데이터 안정성 강화	Grab	자동화를 통한 데이터 플랫폼 안정화
대규모 ETL 구현	Salesforce	ETL 설계 시 Trino의 최적화 방법

결론

이번 주 뉴스레터는 데이터 엔지니어링 분야의 다양한 측면에서 중요한 통찰과 리포트를 제공하여, 현업에서의 기준을 이해하고 개선 방향을 모색하도록 돕습니다. 독자들은 AI, 데이터 기반 전략, 최신 기술과 그 활용 사례를 통해 앞으로의 데이터 엔지니어링에 대한 비전을 세울 수 있는 중요한 정보를 얻을 수 있습니다.

2025-03-24 06:17:31
Data Engineering Weekly
Data Engineering Weekly #213

멀티플랫폼 문서를 관리하는 한 가지 방법, 싱글 소싱

이 글에서는 LINE Planet의 VoIP 플랫폼 문서에서 싱글 소싱(single sourcing)을 적용하여 문서 관리 효율성을 높이고 문서 품질을 개선한 사례를 설명합니다. 싱글 소싱의 개념과 그 실천 방법, 그리고 LINE Planet의 구체적인 문서 사이트 구조와 요구 사항에 대해 다룹니다.

싱글 소싱은 동일한 내용을 여러 문서에서 반복 작성하지 않고 효율적으로 관리하기 위한 기법입니다.
조건부 콘텐츠, 변수 처리 및 콘텐츠 재사용 등의 주요 기법을 통해 문서의 일관성을 유지하며 유지보수 작업을 간소화했습니다.
LINE Planet의 문서화 구조는 다국어 지원 및 SDK 버전 관리 필요성을 충족하며, 기술 문서 품질을 향상시키는 데 기여하고 있습니다.

개요

이 글에서는 LINE Plus Tech Content Strategy 팀의 하성창님이 멀티플랫폼 문서 관리의 효율성을 제고하기 위해 적용한 '싱글 소싱' 기법에 대해 설명하고 있습니다. 싱글 소싱은 단일 소스에서 여러 결과물을 생산하는 문서화 기법으로, 두 가지 주요 방식이 있습니다. 하나는 여러 포맷으로의 문서 생성, 다른 하나는 맥락에 따라 다양한 문서를 생산하는 것입니다. 두 번째 방식인 '맥락에 따른 문서 생성'에 중점을 두고 있으며, 이를 통해 문서 품질 및 관리 효율성을 개선할 수 있는 사례를 공유합니다.

싱글 소싱의 필요성과 기법

싱글 소싱을 사용하여 문서 관리의 효율성을 높이고자 할 때, 공통된 부분이 많은 제품군의 문서나, 소프트웨어 배포 환경에 따라 다르게 필요할 때 적용할 수 있습니다. 주요 기법으로는 조건부 콘텐츠, 변수 처리, 콘텐츠 재사용 등이 있으며, 이러한 기법들을 통해 불필요한 반복작업을 줄이고, 문서의 일관성을 높일 수 있습니다.

문서 관리 사례

LINE Planet은 VoIP 플랫폼으로, 다양한 기능을 제공하는 SDK를 갖추고 있습니다. 문서 사이트에서 요구되는 SDK 문서의 경우, 버전 관리 및 다국어화가 필요합니다. 이러한 상황에서 싱글 소싱을 설계하고 적용하여 관리할 인스턴스 수를 대폭 줄일 수 있었습니다. 예를 들어, 싱글 소싱을 적용하지 않은 경우와 적용한 경우의 문서 수정 필요량을 비교하여 효율성을 강조하는 방식으로 설명하였습니다.

구체적 구현 예

글에서는 구체적으로 조건부 콘텐츠 및 변수 처리의 구현 방식을 소개하고 있으며, 각 플랫폼에 따른 API 정보와 문서 내용에서 조건부 콘텐츠 및 변수를 통해 맞춤형 정보를 제공하는 과정을 기술하고 있습니다. 예를 들어, Docusaurus 를 사용하여 마크다운 파일로 다양한 플랫폼에서 콘텐츠를 재사용하는 방법 등을 설명하고 있습니다.

결론

현존하는 API 메타데이터의 구조와 명명 규칙, 그리고 그에 따른 변수처리 및 내용 링크 제공 방식에 대해 구체적으로 다루며, 싱글 소싱의 도입 전제조건, 제약사항, 기대되는 효과 등을 정리했습니다. 향후에도 AI를 활용한 개선 방안 모색 등으로 효율성을 더욱 높여 나갈 계획임을 알리며 마무리하고 있습니다. 이를 통해 관련 분야에 관심 있는 독자들에게 유용한 정보가 제공되기를 기대하고 있습니다.

2025-03-24 11:04:10
LY Corporation Tech Blog
멀티플랫폼 문서를 관리하는 한 가지 방법, 싱글 소싱

Jobs

원티드 채용공고(최근 7일)

필요한 기술(최근 7일)

주요 업무(최근 7일)

필요한 소프트 스킬(최근 7일)

필요한 경험(최근 7일)

'데이터 엔지니어링 위클리' 카테고리의 다른 글

데이터 엔지니어링 위클리 #6 \| Knowledge Graph, Data Observability, OpenTelemetry, OpenLineage (0)	2025.04.08
데이터 엔지니어링 위클리 #5 \| Shift Left, Karpenter, Data 3.0, Lakehouse (1)	2025.04.01
데이터 엔지니어링 위클리 #3 \| 스파크 최적화, 데이터 제품, Late-Arriving Data (0)	2025.03.19
데이터 엔지니어링 위클리 #2 \| Data Lineage, SQLMesh, DBT, Synthetic Data (0)	2025.03.11
데이터 엔지니어링 위클리 #1 \| Medallion Architecture, Trino, LLM (0)	2025.03.05

데이터 엔지니어 기술 블로그

▪ dahuin000@gmail.com ▪ linkedin ▪ medium

태그

최근글

댓글

공지사항

아카이브

Articles

개요

Netflix의 초기 접근법

성능의 한계와 데이터 모델

새로운 저장 모델

대규모 데이터 관리

최적화 방안

결론

개요

훈련 데이터 구축

모델 아키텍처

온라인 서빙

결론

개요

dbt의 주요 단점

결론

개요

주요 내용

결론

개요

주요 내용

결론

개요

싱글 소싱의 필요성과 기법

문서 관리 사례

구체적 구현 예

결론

Jobs

원티드 채용공고(최근 7일)

필요한 기술(최근 7일)

주요 업무(최근 7일)

필요한 소프트 스킬(최근 7일)

필요한 경험(최근 7일)

'데이터 엔지니어링 위클리' 카테고리의 다른 글

관련글

티스토리툴바