데이터 엔지니어링 위클리 #2 | Data Lineage, SQLMesh, DBT, Synthetic Data

2025. 3. 11. 20:48데이터 엔지니어링 위클리

Data Engineering Weekly #2


Articles


LLM as a Judge를 활용한 CodeBuddy 성능 평가

LLM을 활용한 자동화된 코드 리뷰 평가 방식인 LLM as a Judge를 CodeBuddy에 적용하여, 코드 변경 사항을 신속하고 일관되게 분석하는 방법을 실험했습니다. 이를 통해 평가 자동화의 가능성을 확인했으나, 자기 편향(Self Bias), 장황 편향(Verbosity Bias), 위치 편향(Position Bias) 등 다양한 한계를 발견하고 이를 완화하기 위한 전략을 모색했습니다.

  • PR 기반 코드 리뷰 평가에서 LLM을 활용하여 평가 자동화를 시도함
  • Pointwise, Pairwise, Listwise 평가 방식 비교 및 적용
  • LLM 평가자의 자기 편향 문제 및 이를 해결하기 위한 모델 선정 전략 검토
  • 장황 편향을 방지하기 위한 프롬프트 최적화 기법 적용
  • 위치 편향(Position Bias) 실험을 통해 코드 평가 결과의 신뢰도 확보 방안 분석
  • 평가 신뢰도를 높이기 위해 평가 프롬프트 구성 방식을 개선하고 다중 평가를 활용하는 전략 제시
  • 참고: CodeBuddy 와 함께하는 AI 코드리뷰 / if(kakaoAI)2024

Unlocking the Power of Synthetic Data: The Future of AI and Innovation

합성 데이터는 실제 데이터의 특성을 인공적으로 재현한 데이터로, 비용 효율적이고 개인정보 보호 문제가 없으며, 불균형 데이터 문제를 해결해 다양한 산업 분야에서 혁신적인 AI 모델 학습과 테스트를 가능하게 하는 핵심 기술입니다.

  • 비용 효율성: 실제 데이터 수집에 드는 시간과 비용을 절감할 수 있음
  • 개인정보 보호: 민감한 정보 없이도 유사한 데이터 환경을 구축할 수 있어 보안 위험을 줄임
  • 다양한 활용 분야: 자율주행, 헬스케어, 금융, 게임, 로보틱스 등 여러 분야에서 시뮬레이션과 모델 학습에 큰 도움을 줌
  • 첨단 기술 접목: GAN, 시뮬레이션 기반 방법, 규칙 기반 모델 등 다양한 기법으로 정교함과 현실감을 지속적으로 높이고 있음

Is Apache Iceberg the New Hadoop? Navigating the Complexities of Modern Data Lakehouses

Apache Iceberg는 Hadoop의 한계를 극복하며 대규모 데이터 레이크하우스를 혁신할 수 있는 차세대 솔루션으로 부상하고 있습니다. 이 글은 Iceberg의 스키마 진화, 타임 트래블, ACID 트랜잭션 같은 핵심 기능들이 기존 Hadoop의 운영 복잡성과 높은 실패율 문제를 어떻게 개선할 수 있는지, 그리고 에코시스템 구성, 메타데이터 관리 및 소규모 파일 문제 등 여전히 도전적인 요소들을 어떻게 해결할 수 있는지 심도 있게 탐구합니다.


Real-time Medication Intake Monitoring with MotherDuck and SQLMesh

이 글은 Estuary, MotherDuck, SQLMesh를 활용하여 HL7 FHIR 기반의 모의 약 복용 데이터를 실시간으로 수집, 저장, 분석하는 데이터 파이프라인 구축 과정을 소개합니다.

  • Estuary를 통해 HTTP Webhook 방식으로 실시간 데이터를 수집
  • MotherDuck은 DuckDB 기반 클라우드 데이터 웨어하우스로 빠른 분석을 지원
  • SQLMesh를 사용해 SQL 기반 데이터 변환 및 핵심 지표 계산을 자동화

How Meta discovers data flows via lineage at scale

Meta의 데이터 리니지 기술은 다양한 시스템에서 데이터가 생성되어 이동하는 경로를 자동으로 추적해, 개인정보 보호와 프라이버시 제어를 효율적으로 지원하는 방법을 소개합니다. 이 글은 Facebook Dating 앱 등에서 사용자의 민감한 정보가 어떻게 수집되고 처리되는지를 분석하여, 개발자가 빠르게 필요한 보호 조치를 적용할 수 있도록 돕는 기술적 접근 방식을 설명합니다.

  • 데이터가 생성되는 소스부터 최종 저장 위치까지의 흐름을 그래프로 시각화함
  • 정적 코드 분석과 런타임 데이터 캡처를 결합해 데이터 이동을 정확하게 추적함
  • 개인정보 보호 및 정책 적용을 위한 실시간 모니터링과 자동화된 도구 활용 방법 제시

Is "Medallion Architecture" an actual architecture?

"Medallion Architecture"를 기존 데이터 파이프라인의 단계별 정제를 설명하는 디자인 패턴으로 보며, 아키텍처라고 하기에는 데이터브릭스의 마케팅 용어에 불과하다는 의견이 지배적입니다.

  • 논의 요점: 아키텍처와 디자인 패턴의 구분, 마케팅 용어의 과대 포장 문제
  • 실무 시 고려사항: 이해관계자 소통에는 유용하지만, 용어에 집착하면 불필요한 복잡성을 초래할 수 있음

SQLMesh versus dbt Core - Seems like a no-brainer

이번 글은 SQLMesh와 dbt Core의 성능과 기능 차이를 Reddit 토론 내용을 바탕으로 비교 분석한 내용으로, SQLMesh가 개발 환경 구축과 변경 사항 반영, 롤백 등의 작업에서 뛰어난 성능을 보이는 반면, dbt Core는 성숙한 생태계와 다양한 통합 지원 등 안정성을 제공한다는 점을 다룹니다.

  • SQLMesh는 가상 데이터 환경과 세밀한 계보 추적으로 빠른 실행 시간을 보장함
  • dbt Core는 풍부한 커뮤니티와 리소스로 초보자 및 소규모 팀에 적합함
  • 각 도구의 선택은 조직의 규모, 변경 빈도, 기존 시스템과의 통합 요구사항에 따라 달라짐

People who joined Big Tech and found it disappointing... What was your experience?

빅 테크 기업에서의 경험은 데이터 엔지니어와 소프트웨어 엔지니어가 높은 보상과 뛰어난 동료, 빠른 경력 성장을 제공받는 동시에, 단조로운 역할, 빠른 업무 변화, 한정된 학습 기회 등으로 실망감을 느낀 다양한 사례를 보여줍니다.

  • 높은 보상과 우수한 네트워크 형성
  • 빠른 조직 변화와 업무 속도로 인한 스트레스

Did I make a mistake going with MongoDB? Should I rewrite everything in Postgres?

이 글은 MongoDB와 PostgreSQL 중 어느 데이터베이스가 프로젝트에 적합한지, 초기 개발의 유연성과 장기 유지보수 및 확장성 측면에서 고려해야 할 요소들을 정리한 내용입니다.

  • MongoDB: 유연한 스키마로 빠른 개발이 가능하지만, 복잡한 집계나 대규모 데이터 처리에는 한계가 있음.
  • PostgreSQL: 강력한 쿼리 성능과 데이터 무결성 보장을 통해 유지보수가 용이하며, JSONB 등으로 유연성을 제공함.

Releases


DataHub - v0.15.0.1

DataHub v0.15.0.1 릴리즈는 데이터 엔지니어들이 보다 효율적으로 데이터를 관리하고 메타데이터를 수집할 수 있도록 UI, 인증, 플랫폼별 데이터 수집 기능을 대폭 개선한 업데이트입니다. 이 버전은 구조화 속성 관리 강화, 개발자 경험 개선, 그리고 Garbage Collection 도입을 통해 데이터 처리 속도와 보안을 크게 향상시켰습니다.

  • 구조화 속성 관리: 생성, 수정, 삭제 및 다양한 표시 옵션 지원
  • UI/UX 및 인증: 사용자 인터페이스 개선과 기본 API 권한 활성화
  • 메타데이터 수집: 다양한 플랫폼 지원 및 SQL 처리 최적화
  • Garbage Collection: 메타데이터 정리 및 성능 최적화 지원

vscode - February 2025

VS Code 1.98 버전(2025년 2월 업데이트)은 Copilot의 에이전트 모드, 노트북 지원, 터미널 IntelliSense 등 다양한 개발 도구와 사용자 편의 기능을 대폭 개선하여 개발 환경 전반의 생산성과 접근성을 향상시켰습니다.

  • Next Edit Suggestions (preview): 다음에 수정할 코드를 예측하여 제안합니다.
  • Agent mode (preview): 작업을 자율적으로 수행하여 코드 편집을 지원합니다.
  • Copilot Edits for notebooks: 노트북 파일의 수정을 빠르게 반복할 수 있습니다.
  • Code search: 대화 프롬프트와 관련된 파일을 자동으로 찾아줍니다.
  • Terminal IntelliSense (preview): 터미널에서 풍부한 자동 완성 기능을 제공합니다.
  • Drag & drop references: 참조 파일을 쉽게 열어볼 수 있습니다.
  • Linux custom title bar: Linux에서 기본적으로 맞춤 제목 표시줄을 지원합니다.
  • Unresolved diagnostics (preview): 커밋 시 미해결 진단이 있으면 알림을 제공합니다.
  • Soft-delete in source control: 추적되지 않은 파일을 삭제 대신 휴지통으로 이동합니다.
  • Custom instructions GA: Copilot을 사용자의 필요에 맞게 조정할 수 있는 맞춤 지침 기능을 제공합니다.

Jobs


원티드 채용공고(최근 7일)


필요한 기술(최근 7일)

  • 최근 7일 동안 원티드 채용 공고에서 LLM을 활용해 집계한 자주 발견된 기술들을 확인할 수 있습니다.

주요 업무(최근 7일)

  • 최근 7일 동안 원티드 채용 공고에서 LLM을 활용해 집계한 자주 발견된 업무들을 확인할 수 있습니다.

필요한 경험(최근 7일)

  • 최근 7일 동안 원티드 채용 공고에서 LLM을 활용해 집계한 자주 발견된 경험들을 확인할 수 있습니다.

필요한 소프트 스킬(최근 7일)

  • 최근 7일 동안 원티드 채용 공고에서 LLM을 활용해 집계한 자주 발견된 소프트 스킬들을 확인할 수 있습니다.

 

 

반응형