Data Engineer(4)
-
데이터 엔지니어링 위클리 #1 | Medallion Architecture, Trino, LLM
좋은 글Trino로 타임아웃 개선하기 Trino로 타임아웃 개선하기 : NHN Cloud MeetupTrino로 타임아웃 개선하기meetup.nhncloud.comTrino와 OBS를 도입하여 1억 건 이상의 집계 쿼리 실행 시 발생하는 타임아웃 문제를 해결했고, 집계 시간이 43% 단축되며 데이터 보관 기간이 60일에서 1년으로 연장되었지만 약 100만원의 추가 비용이 발생했습니다.집계 쿼리 실행 시 목표 행(row)이 1억 건을 초과하는 문제Trino와 OBS(오브젝트 스토리지) 도입을 통해 해결집계 시간 43% 단축, 데이터 보관 기간 60일에서 1년으로 연장작성자: (NHN) 이태형 클라우드AI팀 SmartThings, OpenSearch 도입으로 성능과 비용 절감 Samsung Tech Blog..
2025.03.05 -
[⚡AWS] Redshift 상관관계가 있는 서브 쿼리 오류
개요 This type of correlated subquery pattern is not supported due to internal error 레드시프트에서 쿼리를 보낼 때 위와 같은 에러를 반환할 때가 있다. Redshift는 쿼리 플래너에서 쿼리 재작성을 이용하여 상관관계가 있는 패턴 등을 최적화한다. MySQL과는 처리해주는 방식이 다르기 때문에 지원하지 않는 상관관계를 가진 서브쿼리들이 있다. 지원하지 않는 서브쿼리 1번) 건너뛰기 수준의 상관관계 참조 event 테이블은 가장 상위 레벨에 있으나 가장 하위의 서브쿼리에 event 테이블이 상관관계로 사용되고 있다. select event.eventname from event where not exists ( select * from list..
2021.05.27 -
[⚡AWS] Redshift에서 View 사용하기
개요 View는 실제 테이블은 아니고 참조를 할 때마다 쿼리를 보내 테이블처럼 보여주는 기능이며 이 기능을 Redshift에서도 사용할 수 있다. 시작하기 1. View 생성 문법 CREATE [ OR REPLACE ] VIEW name [ ( column_name [, ...] ) ] AS query [ WITH NO SCHEMA BINDING ] OR REPLACE: 같은 이름의 뷰가 이미 있을 경우 쿼리를 교체한다. name: 뷰 이름 column_name: 뷰에서 사용할 컬럼명, 입력하지 않으면 쿼리를 보고 자동으로 생성한다. query: 쿼리 WITH NO SCHEMA BINDING: 뷰가 데이터베이스 객체에 바인딩 되지 않도록 하여 종속성을 없앤다. Late Binding 쿼리될 때까지 데이터..
2021.05.25 -
[🧙Kafka] 카프카 구축 (5) - 카프카 UI 간단하게 구성하기
About 카프카를 GUI로 보기 위해서 kafdrop 이라는 라이브러리를 사용하려고 한다. docker로 미리 만들어진 이미지가 있어서 정말 간단하게 사용할 수 있다. Tutorial & Example 1. 작업할 폴더를 생성한다. 2. docker-compose.yml 파일을 생성하고 아래처럼 입력한다. - KAFKA_BROKERCONNECT에 기존에 생성했던 카프카 브로커를 입력해주었다. version: "3.8" services: kafdrop: image: obsidiandynamics/kafdrop restart: "always" ports: - "9000:9000" environment: KAFKA_BROKERCONNECT: "pipeline-kafka-1:9092,pipeline-kafka..
2021.04.08