Data engineering(18)
-
데이터 엔지니어링 위클리 #3 | 스파크 최적화, 데이터 제품, Late-Arriving Data
Articles⭐️ 페이스북의 수십억 개 메시지를 처리하는 Apache Cassandra 심층 분석이 글은 페이스북이 빌리언 단위의 메시지를 관리하기 위해 개발한 분산 데이터베이스 시스템인 아파치 카산드라(Apache Cassandra)에 대해 심도 있는 분석을 제공합니다. 카산드라의 구조와 작동 원리, 특히 데이터 저장 및 검색 방식에 대한 기술적인 특징을 상세히 설명하며 이를 통해 대규모 데이터 처리의 효율성을 강조하고 있습니다.아파치 카산드라는 분산 스토리지 방식으로 설계되어 있으며, 데이터의 고가용성과 내구성을 보장합니다.페이스북의 인박스 검색 기능을 지원하기 위해 특별히 고안되었으며, 수많은 메시지를 빠르게 검색할 수 있는 구조를 갖추고 있습니다.데이터 모델은 전통적인 관계형 데이터베이스와는 달..
2025.03.19 -
데이터 엔지니어링 위클리 #2 | Data Lineage, SQLMesh, DBT, Synthetic Data
ArticlesLLM as a Judge를 활용한 CodeBuddy 성능 평가LLM을 활용한 자동화된 코드 리뷰 평가 방식인 LLM as a Judge를 CodeBuddy에 적용하여, 코드 변경 사항을 신속하고 일관되게 분석하는 방법을 실험했습니다. 이를 통해 평가 자동화의 가능성을 확인했으나, 자기 편향(Self Bias), 장황 편향(Verbosity Bias), 위치 편향(Position Bias) 등 다양한 한계를 발견하고 이를 완화하기 위한 전략을 모색했습니다.PR 기반 코드 리뷰 평가에서 LLM을 활용하여 평가 자동화를 시도함Pointwise, Pairwise, Listwise 평가 방식 비교 및 적용LLM 평가자의 자기 편향 문제 및 이를 해결하기 위한 모델 선정 전략 검토장황 편향을 방지하..
2025.03.11 -
데이터 엔지니어링 위클리 #1 | Medallion Architecture, Trino, LLM
좋은 글Trino로 타임아웃 개선하기 Trino로 타임아웃 개선하기 : NHN Cloud MeetupTrino로 타임아웃 개선하기meetup.nhncloud.comTrino와 OBS를 도입하여 1억 건 이상의 집계 쿼리 실행 시 발생하는 타임아웃 문제를 해결했고, 집계 시간이 43% 단축되며 데이터 보관 기간이 60일에서 1년으로 연장되었지만 약 100만원의 추가 비용이 발생했습니다.집계 쿼리 실행 시 목표 행(row)이 1억 건을 초과하는 문제Trino와 OBS(오브젝트 스토리지) 도입을 통해 해결집계 시간 43% 단축, 데이터 보관 기간 60일에서 1년으로 연장작성자: (NHN) 이태형 클라우드AI팀 SmartThings, OpenSearch 도입으로 성능과 비용 절감 Samsung Tech Blog..
2025.03.05 -
데이터 레이크하우스의 개념
(Data lakehouse in action의 1, 2장을 요약한 글입니다.) Data Lakehouse in Action - 저자 Pradeep Menon 출판 Packt Publishing 출판일 2022.03.17 1. 데이터 분석 패턴의 진화 엔터프라이즈 데이터 웨어하우스(EDW) 시대 EDW 시대가 시작된 배경은 다음과 같았습니다. 분석은 리포팅과 같은 말이었습니다. 데이터베이스 구조를 리포팅하는데 최적화하는 것이 최우선 목표였습니다. Ralph Kimball, Bill Inmon에 의해 1990, 2000년대에 활성화되었습니다. EDW의 패턴은 다음과 같았습니다. Flat Files, Databases -> ETL -> EDW -> Data Marts -> BI EDW는 오랜 시간동안 자리를..
2024.01.15 -
[Kerberos] Kerberos Authentication Explained | A deep dive 번역
Source https://www.youtube.com/watch?v=5N242XcKAsM Kerberos Authentication Explained | A deep dive So you want to connect to an application over an insecure network, but you're a wee bit paranoid. 안전하지 않은 네트워크를 통해 애플리케이션에 연결하고 싶지만 편집증에 시달리고 있습니다. Someone may be listening in. 누군가 엿듣고 있을지도 모르기 때문입니다. How do you solve this problem? One possible solution is a protocol designed to provide secure auth..
2023.03.14 -
[Delta Lake] 데이터 레이크하우스: 프로토콜
1. 개요 1.1 Delta의 트랜잭션 구현 방법 다중 버전 동시성 제어(MVCC) 테이블이 변경될 경우 즉시 교체하지 않고 데이터의 여러 복사본을 유지한다. Reader는 트랜잭션 로그를 사용하여 처리할 데이터의 파일을 선택적으로 가져온다. Writer는 새 데이터 파일이나 기존 파일의 업데이트된 복사본을 작성한다. 그 후 커밋하고 로그에 새 항목을 추가하여 테이블의 새로운 버전을 생성한다. 이 로그에는 테이블에 대한 메타데이터 변경 사항과 함께 논리적으로 추가 및 제거할 데이터 파일이 기록된다. vacuum 명령을 사용하여 추후에 지연 삭제할 수 있다. 2. Delta Table Specification 2.1 테이블 스냅샷 테이블에는 연속적으로 증가하는 정수를 사용한 로그가 있다. 특정 버전에서 테..
2022.03.18