데이터 엔지니어링 위클리 #1 | Medallion Architecture, Trino, LLM

2025. 3. 5. 03:30데이터 엔지니어링 위클리

Data Engineering #1


좋은 글


Trino로 타임아웃 개선하기

 

Trino로 타임아웃 개선하기 : NHN Cloud Meetup

Trino로 타임아웃 개선하기

meetup.nhncloud.com

Trino와 OBS를 도입하여 1억 건 이상의 집계 쿼리 실행 시 발생하는 타임아웃 문제를 해결했고, 집계 시간이 43% 단축되며 데이터 보관 기간이 60일에서 1년으로 연장되었지만 약 100만원의 추가 비용이 발생했습니다.

  • 집계 쿼리 실행 시 목표 행(row)이 1억 건을 초과하는 문제
  • Trino와 OBS(오브젝트 스토리지) 도입을 통해 해결
  • 집계 시간 43% 단축, 데이터 보관 기간 60일에서 1년으로 연장
작성자: (NHN) 이태형 클라우드AI팀

 


SmartThings, OpenSearch 도입으로 성능과 비용 절감

 

Samsung Tech Blog - SmartThings, OpenSearch 도입으로 성능과 비용 절감

이 글에서는 SmartThings 기록 시스템의 DB 교체 여정에 대해 소개합니다. 기존 HBase는 다양한 서비스의 요구를 충족하지 못해 SPOF 및 확장성 부족 등의 문제가 있었습니다. 이를 해결하기 위해 다양

techblog.samsung.com

HBase의 확장성 한계와 비용 낭비 문제를 극복하기 위해 OpenSearch를 도입, 시스템 안정성과 성능 개선으로 효율적인 운영을 달성했습니다.

  • HBase를 사용했을 때 확장성이 부족하고 낭비되는 비용 문제
  • HBase의 기능 제한으로 작업 지연이 발생되는 문제
  • HBase가 단일 장애 지점이 되는 문제
작성자: (samsung) 이장결 SmartThings서버개발그룹(DPC)

LLM을 활용한 스마트폰 시세 조회 서비스 구축

 

LLM을 활용한 스마트폰 시세 조회 서비스 구축

LLM을 활용해 중고거래 게시글에서 스마트폰 정보를 추출하고, 이를 통해 시세를 산출한 방법과 벡터 DB를 이용하여 유사게시글을 제공한 방법에 대해 설명해요.

medium.com

LLM을 이용해 텍스트 정보를 추출하고 JSON 데이터로 변환, 사용자가 판매할 스마트폰의 적정 가격을 손쉽게 확인할 수 있도록 돕는 서비스를 구축했습니다.

  • LLM을 활용한 스마트폰 시세 조회 서비스 구축 유저가 판매할 스마트폰 가격 설정에 어려움을 겪는 문제가 있음
  • LLM을 통해 텍스트에서 정보를 추출하고, 이를 JSON 데이터로 변환하여 시세 정보 제공
작성자: (당근마켓) GyeongHoe Koo, Software Engineer, Backend — 중고거래

Data engineering my way through new parenthood

 

Data engineering my way through new parenthood

My first child was born on September third, and my whole life flipped completely upside down. Suffice it to say that the cliches from…

medium.com

개인 육아 데이터를 추적하고 시각화함으로써 데이터 엔지니어링 접근법의 새로운 가능성을 제시하며, 실제 경험에서 우러나온 인사이트를 공유합니다.

 

작성자: Jonathan Kyle

Best Data Engineering 'Influencers'

 

From the dataengineering community on Reddit

Explore this post and more from the dataengineering community

www.reddit.com

다양한 플랫폼에서 활동하는 데이터 엔지니어 인플루언서들을 통해 최신 트렌드와 깊이 있는 인사이트를 얻을 수 있는 자료들이 모아져 있습니다.


How to Build Modern Data Architectures

이해관계자의 다양한 요구와 전략의 부재가 성과에 미치는 영향을 분석하며, 정기적인 보고서 리뷰를 통해 효과적인 데이터 아키텍처 구축의 중요성을 강조합니다.

  • 이해관계자의 요구에 쫓기다 보면, 전략에 대한 고려 없이 무작정 진행하게 되고, 이는 전반적인 성과에 영향을 미친다.
  • 보고서의 절반 이상이 사용되지 않거나 드물게 사용되고 있음을 알게 되었다. 데이터 팀은 정기적으로 보고서를 리뷰하고 관리하는 것이 필요하다는 점을 강조한다.
  • 결과 중심의 데이터 엔지니어링(output-led data engineering)
  • 여러 보고서에 재사용할 수 있는 구조적인 데이터 모델을 설정하는 것이 중요하다.
  • 적은 수의 소스 테이블만을 식별하여 데이터 웨어하우스를 효과적으로 구축하는 목표를 갖는다.
  • 기본적인 네이밍 규칙을 수립하고, 중요하게 여기는 소스 시스템에 대해서만 해당 규칙을 설정하는 과정이 포함된다.
작성자: Kahan Data Solutions

Maximizing the ROI of Data Projects: A Practical Guide for Data Teams

 

Maximizing the ROI of Data Projects: A Practical Guide for Data Teams

How to Prioritize High-Value Data Initiatives and Demonstrate Their Impact in an AI-Driven World

blog.det.life

데이터 프로젝트의 가치를 매출 증가, 비용 절감, 생산성 향상 등으로 평가하는 실용적인 ROI 계산법을 통해 데이터 투자의 효과를 극대화하는 방법을 설명합니다.

  • 데이터 프로젝트의 가치 평가 방법: ROI 계산하기
    • (Value of project + Residual Impact) / (Cost to Acquire Data + Labor Hours + Cloud Costs)
  • Value of Project
    • 매출 증가: 데이터 프로젝트가 매출을 증가시키는 효과
    • 비용 절감: 최적화 및 효율성 개선으로 인한 비용 절감
    • 생산성 향상: 업무 속도 증가로 절약된 시간의 가치
    • 고객 만족도 증가: 고객 유지율 및 매출 상승으로 측정 가능
  • Residual Impact
    • 장기적 매출 증가: 프로젝트 효과가 지속될 경우 예상 매출 증가
    • 미래 비용 절감: 프로세스 개선을 통해 장기적으로 절약되는 비용
    • 생산성 지속 향상: 시간이 지나도 계속되는 업무 효율 증가
  • Cost to Acquire Data
    • 데이터 구매: 외부 데이터 구매 비용
    • 데이터 수집 비용: 하드웨어, 소프트웨어, 인건비 포함
    • 데이터 라이선스 비용: 데이터 사용을 위한 라이선스 비용
작성자: Clay Gambetti

The Future of Data Engineering: Trends to Watch in 2025

 

The Future of Data Engineering: Trends to Watch in 2025

As we navigate through 2025, the field of data engineering is undergoing significant transformations, driven by advancements in artificial…

medium.com

실시간 데이터 처리, AI 통합, DataOps/MLOps 및 분산형 데이터 관리 등 2025년 데이터 엔지니어링 분야의 주요 트렌드를 전망합니다.

  • 실시간 데이터 처리 수요 증가
  • AI를 위한 데이터 엔지니어링
  • 지능형 데이터 파이프라인(AI + Data Pipeline): 데이터 품질 향상, 데이터 작업 자동화, 분석
  • DataOps & MLOps
  • Data Governance
  • Data Mesh Architecture: 데이터 관리에 대한 분산형 접근 방식
작성자: Kunal

Is Data Engineering Dying? The AI Takeover & The Future of Data Roles!

 

Is Data Engineering Dying? The AI Takeover & The Future of Data Roles!

For years, Data Engineers have been the Architects of scalable, robust Data pipelines. But with AI-driven automation making its way into…

blog.det.life

No Code ETL, 자동화된 쿼리 최적화, AI 기반 데이터 품질 모니터링 등 기술 발전이 데이터 엔지니어링 역할에 미칠 영향을 분석하며 미래 변화를 예측합니다.

  • No Code ETL(AWS Glue DataBrew)
  • 자동화된 쿼리 최적화(실행 속도 개선)
  • AI 기반 실시간 데이터 품질 모니터링
  • 데이터 거버넌스 및 규정 준수 자동화
작성자: Shashwath Shenoy

Data Products: A Case Against Medallion Architecture

 

Data Products: A Case Against Medallion Architecture

The Significance of Medallion, Crux of the Differences between the two 3-Tiered DataFlow Models, and a Colourful Visual Journey!

medium.com

Medallion 아키텍처의 한계를 지적하고, 데이터 제품 아키텍처로 전환하여 비즈니스 중심의 유연하고 효율적인 데이터 관리를 실현할 필요성을 강조합니다.

  • Medallion 아키텍처의 한계
    • 겉보기에만 좋은 구조
    • Medallion 아키텍처는 데이터 관리의 심리적 안정감을 주었지만, 실제 데이터 품질 문제를 해결하지는 못했다.
    • 3단계 병목(Bottleneck) 형성
    • 비즈니스 요구와의 괴리
  • Data Product 아키텍처의 장점
    • 데이터를 제품처럼 관리
    • 도메인 중심의 데이터 관리
    • 빠르고 유연한 접근
  • Medallion 아키텍처의 레이어별 문제
    • 강제된 브론즈
      • 비용 증가 문제
      • 품질 관리 없음
    • 강제된 실버
      • 비즈니스 요구사항 없이 정제
      • 골드 계층에서 재작업
    • 강제된 골드
      • 비즈니스 계층과 가깝지만 여전히 비효율적
      • 비즈니스와의 괴리로 인한 병목 현상
  • 해결책
    • 비즈니스 중심의 데이터 아키텍처로 전환해야 한다
    • 데이터를 단계별 변환이 아닌, 비즈니스 도메인 기반으로 구조화
    • 데이터를 적극적으로 활용할 수 있는 방식으로 제공
    • 데이터 거버넌스를 비즈니스 의미 중심으로 개선
작성자: Animesh Kumar, Shubhanshu Jain, and Samadrita Ghosh

Mastering Spark: The Art and Science of Table Compaction

 

Mastering Spark: The Art and Science of Table Compaction

If there anything that data engineers agree about, it’s that table compaction is important. Often one of the first big lessons that folks will learn early on is that not compacting tables can present serious performance issues: you’ve gotten your lakeh

milescole.dev

Spark 테이블 압축의 다섯 가지 방법을 소개하며, 자동 압축과 Optimized Write 조합이 최상의 성능을 발휘한다는 점을 실험 결과로 보여줍니다.

  • 테이블 압축의 5가지 방법
    • 압축 없음: 무한히 작은 파일이 쌓임
    • 사전 쓰기 압축: 미리 적당한 크기로 씀
    • 사후 수동 압축: OPTIMIZE와 같은 명령어로 압축
    • 예약 압축: 스케줄로 OPTIMIZE 실행
    • 자동 압축: 데이터가 작성될 때 자동으로 압축
  • 측정 결과
    • 자동 압축 + Optimized Write 조합이 가장 성능이 우수
  • 옵션
    • spark.databricks.delta.autoCompact.enabled 활성화 필요
    • maxFileSize: 128MB
    • minNumFiles: 50
작성자: Miles Cole

릴리즈


Polars - v1.24.0

 

Release Python Polars 1.24.0 · pola-rs/polars

🚀 Performance improvements Provide a fallback skip batch predicate for constant batches (#21477) Parallelize the passing in new streaming multiscan (#21430) ✨ Enhancements Add lossy decoding to ...

github.com

  • 성능 개선 사항
    • 상수 배치에 대한 fallback skip batch predicate 제공
    • 스트리밍 멀티스캔의 병렬 처리 최적화
  • 주요 기능
    • 비-UTF8 인코딩 CSV 파일 읽기 시 lossy decoding 지원
    • DataFrame.write_iceberg 기능 추가
    • rolling 연산(std, var, cov, corr)의 수치 안정성 개선

Trino - v471

 

Release 471 (19 Feb 2025) — Trino 472 Documentation

Add AI functions for textual tasks on data using OpenAI, Anthropic, or other LLMs using Ollama as backend. (#24963)

trino.io

  • General 개선 사항
    • 텍스트 데이터 처리를 위한 AI 함수 추가 (Ollama 백엔드 활용)
    • EXPLAIN ANALYZE 출력에 split count와 전체 split 분배 시간을 포함
    • 콘솔 로그 형식을 JSON으로 설정 가능 (log.console-format=JSON)
    • Python UDF 지원 라이브러리 확대 및 성능 개선
    • ORDER BY ... LIMIT 쿼리 성능 최적화
  • 커넥터별 개선 사항
    • Delta Lake 커넥터: variant 타입 읽기 지원, 로컬 파일 시스템 지원, 클론 테이블 읽기 지원, S3 저장 클래스 구성 및 대용량 체크포인트 파일 쓰기 문제 수정
    • Hive 커넥터: 로컬 파일 시스템 지원, S3 저장 클래스 구성 지원, S3 glacier 복원 객체 읽기 문제 수정
    • Hudi 커넥터: 로컬 파일 시스템 지원, S3 저장 클래스 구성 지원
    • Iceberg 커넥터: 로컬 파일 시스템 지원, S3 테이블 지원, S3 저장 클래스 구성 지원, 동시 MERGE 쿼리 충돌 감지 개선, 파티션 테이블 쓰기 시 task.max-writer-count 설정 준수
    • MongoDB 커넥터: 대소문자 구분 이름 충돌로 인한 실패 수정
반응형