data engineering weekly(3)
-
데이터 엔지니어링 위클리 #6 | Knowledge Graph, Data Observability, OpenTelemetry, OpenLineage
Articles부동산 검색에서 지식 그래프 활용이 글은 Zillow가 부동산 데이터를 구조화하고, 사용자 검색 경험을 개선하기 위해 Knowledge Graph(지식 그래프)를 어떻게 구축하고 활용하고 있는지를 설명하는 내용입니다. 다양한 데이터 출처를 연결해 사용자 맞춤형 검색, 자동완성, 추천 기능을 구현하는 방식과 기술적 구현 과정을 다룹니다.지식 그래프는 다양한 표현을 하나의 표준 개념으로 정리해 검색 일관성을 높여줍니다.Zillow는 자연어 처리(NLP), 이미지 인식, BERT 기반 모델 등을 활용하여 데이터를 정제하고 연결합니다.사용자 행동 데이터를 분석해 더 정교한 추천과 검색 결과를 제공하며, 지속적인 업데이트와 버전 관리를 통해 품질을 유지합니다. 더보기 개요인터넷 시대에는 정보가 넘쳐..
2025.04.08 -
데이터 엔지니어링 위클리 #3 | 스파크 최적화, 데이터 제품, Late-Arriving Data
Articles⭐️ 페이스북의 수십억 개 메시지를 처리하는 Apache Cassandra 심층 분석이 글은 페이스북이 빌리언 단위의 메시지를 관리하기 위해 개발한 분산 데이터베이스 시스템인 아파치 카산드라(Apache Cassandra)에 대해 심도 있는 분석을 제공합니다. 카산드라의 구조와 작동 원리, 특히 데이터 저장 및 검색 방식에 대한 기술적인 특징을 상세히 설명하며 이를 통해 대규모 데이터 처리의 효율성을 강조하고 있습니다.아파치 카산드라는 분산 스토리지 방식으로 설계되어 있으며, 데이터의 고가용성과 내구성을 보장합니다.페이스북의 인박스 검색 기능을 지원하기 위해 특별히 고안되었으며, 수많은 메시지를 빠르게 검색할 수 있는 구조를 갖추고 있습니다.데이터 모델은 전통적인 관계형 데이터베이스와는 달..
2025.03.19 -
데이터 엔지니어링 위클리 #2 | Data Lineage, SQLMesh, DBT, Synthetic Data
ArticlesLLM as a Judge를 활용한 CodeBuddy 성능 평가LLM을 활용한 자동화된 코드 리뷰 평가 방식인 LLM as a Judge를 CodeBuddy에 적용하여, 코드 변경 사항을 신속하고 일관되게 분석하는 방법을 실험했습니다. 이를 통해 평가 자동화의 가능성을 확인했으나, 자기 편향(Self Bias), 장황 편향(Verbosity Bias), 위치 편향(Position Bias) 등 다양한 한계를 발견하고 이를 완화하기 위한 전략을 모색했습니다.PR 기반 코드 리뷰 평가에서 LLM을 활용하여 평가 자동화를 시도함Pointwise, Pairwise, Listwise 평가 방식 비교 및 적용LLM 평가자의 자기 편향 문제 및 이를 해결하기 위한 모델 선정 전략 검토장황 편향을 방지하..
2025.03.11