전체 글(65)
-
데이터 엔지니어링 위클리 #3 | 스파크 최적화, 데이터 제품, Late-Arriving Data
Articles⭐️ 페이스북의 수십억 개 메시지를 처리하는 Apache Cassandra 심층 분석이 글은 페이스북이 빌리언 단위의 메시지를 관리하기 위해 개발한 분산 데이터베이스 시스템인 아파치 카산드라(Apache Cassandra)에 대해 심도 있는 분석을 제공합니다. 카산드라의 구조와 작동 원리, 특히 데이터 저장 및 검색 방식에 대한 기술적인 특징을 상세히 설명하며 이를 통해 대규모 데이터 처리의 효율성을 강조하고 있습니다.아파치 카산드라는 분산 스토리지 방식으로 설계되어 있으며, 데이터의 고가용성과 내구성을 보장합니다.페이스북의 인박스 검색 기능을 지원하기 위해 특별히 고안되었으며, 수많은 메시지를 빠르게 검색할 수 있는 구조를 갖추고 있습니다.데이터 모델은 전통적인 관계형 데이터베이스와는 달..
2025.03.19 -
데이터 엔지니어링 위클리 #2 | Data Lineage, SQLMesh, DBT, Synthetic Data
ArticlesLLM as a Judge를 활용한 CodeBuddy 성능 평가LLM을 활용한 자동화된 코드 리뷰 평가 방식인 LLM as a Judge를 CodeBuddy에 적용하여, 코드 변경 사항을 신속하고 일관되게 분석하는 방법을 실험했습니다. 이를 통해 평가 자동화의 가능성을 확인했으나, 자기 편향(Self Bias), 장황 편향(Verbosity Bias), 위치 편향(Position Bias) 등 다양한 한계를 발견하고 이를 완화하기 위한 전략을 모색했습니다.PR 기반 코드 리뷰 평가에서 LLM을 활용하여 평가 자동화를 시도함Pointwise, Pairwise, Listwise 평가 방식 비교 및 적용LLM 평가자의 자기 편향 문제 및 이를 해결하기 위한 모델 선정 전략 검토장황 편향을 방지하..
2025.03.11 -
데이터 엔지니어링 위클리 #1 | Medallion Architecture, Trino, LLM
좋은 글Trino로 타임아웃 개선하기 Trino로 타임아웃 개선하기 : NHN Cloud MeetupTrino로 타임아웃 개선하기meetup.nhncloud.comTrino와 OBS를 도입하여 1억 건 이상의 집계 쿼리 실행 시 발생하는 타임아웃 문제를 해결했고, 집계 시간이 43% 단축되며 데이터 보관 기간이 60일에서 1년으로 연장되었지만 약 100만원의 추가 비용이 발생했습니다.집계 쿼리 실행 시 목표 행(row)이 1억 건을 초과하는 문제Trino와 OBS(오브젝트 스토리지) 도입을 통해 해결집계 시간 43% 단축, 데이터 보관 기간 60일에서 1년으로 연장작성자: (NHN) 이태형 클라우드AI팀 SmartThings, OpenSearch 도입으로 성능과 비용 절감 Samsung Tech Blog..
2025.03.05 -
민토 피라미드란?
글을 쓸 때는 피라미드 구조로 작성해야 한다. 피라미드 구조는 단순한 논리구조 규칙을 가지고 있다. 그 규칙을 따라 만들어진 글은 독자가 질의응답을 통해 필요한 정보만 정확히 제공받을 수 있다. 1. 피라미드 개념 1.1 규칙 어떤 계층에 있는 메세지든 하위 계층의 메시지를 요약해야 한다. 그룹 내의 메시지는 항상 동일한 종류여야 한다. 그룹 내의 메시지는 항상 논리적 순서로 배열되어야 한다. 1.2 상세 규칙 하위 계층을 약 4-5개 이하의 그룹으로 묶고 순서를 논리적으로 배열한다. 그룹으로 묶을 때는 귀납법 또는 연역법 중 하나를 사용한다. 독자가 필요한 정보만 정확히 제공받을 수 있도록 상위 계층에서의 질문에 하위 계층이 답해주어야 한다. 독자가 길을 잃지 않도록 질문이 생기기 전에 미리 답변하지 ..
2024.02.24 -
OKR이란?
OKR 소개 OKR(Objectives and Key Results)은 ”목표와 핵심 결과“를 의미하는 관리 기법이다. OKR의 시초인 MBO(Management by Objectives) 시스템은 두가지 기본 원칙을 바탕으로 한다. 일을 최고로 잘하도록 동기부여: “사람들에게 어떻게 할지를 알려주지 마라. 그들이 완수해야 하는 것을 알려주고 그들이 결과를 내게 해서 당신을 놀라게 만들어라” 성과를 의미 있게 측정 하기: ”당신이 원하는 모든 제품을 출시할 수 있지만 결과적으로 중요한 사업 문제를 해결하지 못한다면 실제로는 아무것도 해결하지 못한 것이다.“ 위의 기본 원칙들을 기반으로 발전한 OKR은 세 부분으로 이루어져있다. 영감을 주고 측정 가능한 목표를 세워라. 바라는 최종 상태를 향해 언제나 당신..
2024.02.22 -
데이터 웨어하우스란?
운영 시스템은 트랜잭션을 신속히 처리하는데 최적화되어있습니다. 데이터 웨어하우스는 신규 고객을 집계하고 월별 GMV를 비교하는 등의 요구사항을 처리할 수 있어야 합니다. 그러기 위해서는 운영 시스템과는 다른 구조가 필요하며 이를 다차원 모델링으로 해결합니다. 데이터 웨어하우스를 활용하는 사람들은 현업에 있는 다양한 직업을 가진 사람들입니다. 그래서 구축을 할 때는 기술보다 비즈니스 이슈를 중심으로 생각해야 합니다. 데이터 웨어하우스 구축을 위한 요구사항은 다음과 같습니다. 정보에 쉽게 접근 가능하도록 만들어야 한다. 의사결정을 위해 신뢰할 수 있는 토대가 되어야 하며 일관된 정보를 제공해야 한다. (데이터 신뢰성) 시스템 변화에 유연해야 한다. 정보를 적시에 제공해야 한다. (데이터 최신성) 현업에서 사..
2024.02.20