일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 대용량 처리
- Data Warehouse
- AWS
- spark streaming
- 스파크 스트리밍
- spark
- Zookeeper
- Data Engineer
- 데이터 웨어하우스
- Redshift
- 컬럼 기반
- 레드시프트
- MySQL
- 에어플로우
- s3
- 데이터
- Schema Registry
- 카프카 구축
- 데이터 엔지니어링
- 데이터 엔지니어
- airflow
- 델타레이크
- delta lake
- kafka rest api
- 스파크
- Data engineering
- docker
- 카프카
- Parquet
- kafka
- Today
- Total
목록전체 글 (62)
데이터 엔지니어 기술 블로그
Source https://www.youtube.com/watch?v=outcGtbnMuQ GPT-4 Developer Livestream To the GPT-4 developer demo livestream. GPT-4 개발자 데모 라이브스트림에 오신 것을 환영합니다. Honestly, it's kind of hard for me to believe that this day is here. 솔직히 오늘이 왔다는 사실이 믿기지 않습니다. OpenAI has been building this technology really since we started the company, but for the past two years, we've been really focused on delivering GPT-4..
Source https://www.youtube.com/watch?v=5N242XcKAsM Kerberos Authentication Explained | A deep dive So you want to connect to an application over an insecure network, but you're a wee bit paranoid. 안전하지 않은 네트워크를 통해 애플리케이션에 연결하고 싶지만 편집증에 시달리고 있습니다. Someone may be listening in. 누군가 엿듣고 있을지도 모르기 때문입니다. How do you solve this problem? One possible solution is a protocol designed to provide secure auth..
1. 개요 1.1 Delta의 트랜잭션 구현 방법 다중 버전 동시성 제어(MVCC) 테이블이 변경될 경우 즉시 교체하지 않고 데이터의 여러 복사본을 유지한다. Reader는 트랜잭션 로그를 사용하여 처리할 데이터의 파일을 선택적으로 가져온다. Writer는 새 데이터 파일이나 기존 파일의 업데이트된 복사본을 작성한다. 그 후 커밋하고 로그에 새 항목을 추가하여 테이블의 새로운 버전을 생성한다. 이 로그에는 테이블에 대한 메타데이터 변경 사항과 함께 논리적으로 추가 및 제거할 데이터 파일이 기록된다. vacuum 명령을 사용하여 추후에 지연 삭제할 수 있다. 2. Delta Table Specification 2.1 테이블 스냅샷 테이블에는 연속적으로 증가하는 정수를 사용한 로그가 있다. 특정 버전에서 테..
1. 테이블 읽기 및 쓰기 1.1 테이블 생성하는 방법 spark.sql CREATE TABLE delta.`s3://bucket_name/foo/bar/table_name` ( id INT, firstName STRING, middleName STRING, lastName STRING, ) USING DELTA write df.write.format("delta").mode("overwrite").save("s3://bucket_name/foo/bar/table_name") 1.2 시간 여행 델타레이크에서는 timestamp와 version으로 시간 여행을 할 수 있다. 사용자의 실수로 테이블의 어떤 데이터를 삭제하나 업데이트 한 경우 시간 여행으로 과거의 테이블로 돌아가 다시 쓸 수 있다. df1 =..
Delta Lake는 데이터 레이크 위에 Lakehouse 아키텍처를 구축할 수 있는 오픈소스 프로젝트이다. 데이터 레이크의 문제점과 데이터 웨어하우스의 문제점을 보완해줄 수 있다. 데이터 레이크는 아주 큰 데이터를 저장할 수 있지만 체계가 정확하게 잡히지 않으면 데이터 늪이 되기가 쉽다. S3와 같은 클라우드 스토리지는 가장 비용 효율적인 스토리지 시스템이다. 그러나 key-value로 구현이 되어있어서 ACID 트랜잭션과 같은 고성능을 구현하기는 어렵다. listing object와 같은 메타데이터 동작은 비싸며 일관성 보장은 제한적이다. 델타레이크는 이런 문제점을 보완할 수 있다. ACID 성질을 가질 수 있게 하여 트랜잭션을 구현하며, 테이블에서의 시간 여행을 가능하게 한다. upsert를 구현할..