Log #4 - Databricks

lavella·2025년 10월 22일

DATA FLOW LOG

목록 보기
4/20
post-thumbnail

※ 이 블로그는 과거에 공부한 내용을 실제 경제·시장 데이터와 연결하여 정리한 기록입니다.

Table of Contents

databricks


1. Introduction

한국 데이터 엔지니어가 직접 강의 해주는 'databricks'의 온라인 강의를 들었습니다.

그 바탕으로 이번 Log에서는 데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)의 통합환경 데이터 레이크하우스(Data lakehouse)에 대해 다뤄보겠습니다.

2. Learning | Perspective

databricks Customer Academy
출처: https://customer-academy.databricks.com/learn

'Databricks Data + AI 러닝 페스티벌' 행사로 고객 계정으로 온라인 교육에 참여해 들었습니다.

워크스페이스 사용법부터 여러가지 실습을 통해 기본 Apache Spark SQL 언어를 사용한 Notebook의 데이터 조작을 해봤습니다.

델타레이크

메달리온 아키텍처(Medallion Architecture)의 설계 패턴

  • 브론즈 레이어 : 원시 데이터 수집한 상태 / 데이터 확보에 중점
  • 실버 레이어 : 브론즈에 있는 데이터를 정비 / 데이터 레이크를 구성하는 단계
  • 골드 레이어 : 목적별로 모델링 / 데이터 분석에 사용할 수 있는 단계

스트리밍 테이블 만들기

JSON 파일에서 브론즈 테이블 만들기 (쿼리 스크립트)

---- Convert the JSON formatted string as a VARIANT
---- NOTE: The VARIANT decoded_value_variant column is included in this solution to display the column
---- NOTE: Variant data type will not work on Serverless Version 1.
CREATE OR REPLACE TABLE lab7_lab_kafka_events_flattened_variant
AS
SELECT
  key,
  timestamp,
  parse_json(decoded_value) AS decoded_value_variant,
  cast(decoded_value_variant:user_id AS STRING),
  decoded_value_variant:event_type :: STRING,
  decoded_value_variant:event_timestamp :: TIMESTAMP,
  decoded_value_variant:items
FROM lab7_lab_kafka_events_raw;


---- Display the table
SELECT *
FROM lab7_lab_kafka_events_flattened_variant;

처음 사용해 본 환경은 Jupyter 상위 호환 노트북의 느낌이 났습니다. 막 던지는 질문에도 AI어시스턴트가 실시간으로 보조하고, GPT의 Codex처럼 실행시 문제가 있으면 바로 수정사항을 나타내줘서 사용 편의성이 좋았습니다.


뉴스기사 : 케이뱅크, 생성형 AI 기반 혁신금융서비스 3건 지정 (2025.09.18)
출처 : https://www.fnnews.com/news/202509180953342250

본문:
케이뱅크에 따르면 이번에 지정된 3건은 ▲생성형 AI 앱 번역 ▲생성형 AI 상담 어시스턴트(Assistant) ▲생성형 AI 내부 업무 생산성 향상 서비스다.

생성형 AI 앱 번역 서비스는 케이뱅크 앱 내 주요 콘텐츠를 실시간으로 다국어 번역하는 기능이다. 영어, 중국어, 베트남어 등 다양한 언어를 지원해 국내 거주 외국인 고객의 금융 서비스 접근성을 높인다.

생성형 AI 상담 어시스턴트 서비스는 고객정보와 상담 이력을 분석해 상담원에게 실시간으로 맞춤형 가이드를 제공하는 지능형 상담 지원 시스템이다.

AWS SageMaker AI와 Bedrock

'AI 상담 어시스턴트나 '지능형 챗봇 서비스'의 기반 주요 기술 스택 두 가지

  • Amazon SageMaker: ML 모델을 학습·배포·모니터링하는 통합 MLOps 환경
  • Amazon Bedrock: 여러 LLM (Claude, Titan, Llama 등)을 API로 연결해 엔터프라이즈용 생성형 AI 서비스를 만드는 플랫폼

지난 주 AI x Industry week 3일차 (금융 & 핀테크)에서 있었던 '케이뱅크'의 기조연설 장면입니다.

▲ AI x Industry week '케이뱅크' 기조연설 중

이 외에도 보안성을 높히고자 온프레미스로 자체 서버를 구축하는게 중요하다는 내용도 있었으며 에이전트의 활용으로 인한 재무 분석 Agent, 펀드 매니저 Agent, 리스크 관리 Agent 등을 소개해주었습니다.

온프레미스를 강조한 점은 금융권의 보안 민감도를 반영한 전략으로 보입니다

Data Lakehouse

▲ AI x Industry week '케이뱅크' 기조연설 중

보시는 바와 같이 현실적으로 금융사는 두 시스템을 함께 써야 하는데 통합 분석 환경을 만드는 게 어렵다는 내용입니다.
데이터 웨어하우스는 안정적이지만 AI 분석엔 한계가 있고, 데이터 레이크는 유연하지만 거칠고 규제에 약하다는 단점이 있습니다.

통합 분석 환경까지 만들게되면 금융권에도 혁신적인 기술변화가 일어나지 않을까 하는 조심스러운 추측을 해봅니다. 앞서 데이터브릭스의 델타레이크가 그 중심에 있는데, 지난 언론에 따르면 '금융권에 적용 가능하다'라는 조건은 마련된 상태라고 합니다


3. Data Flow Log

#커피 #기프티콘

커피와 차

통계 자료

나라별 커피 수출 점유율
출처: https://en.wikipedia.org/wiki/List_of_countries_by_coffee_exports?utm_source=chatgpt.com

순위국가수출(백만 포대)점유율비고
1브라질41.37630.1%
2베트남28.60020.8%
3콜롬비아10.8987.9%
............
9에티오피아3.5892.6%아라비카 최대산지
...그외 기타국52.81038.5%

※ 커피 업계 표준 1포대 = 60 kg(ICO 기준)라고 가정.


최근 5년간 커피 가격 동향입니다.
주 원인으로 엘니뇨 환경 문제로 브라질과 베트남의 커피 수확량의 감소하며 공급난이 일어났던 것이 24년도인데요. 거의 2배 가까이 가격이 올랐습니다

Trading Economics - Commodity/Coffee - / 2025년 10월 22일 기준

추가자료

뉴스기사: The amount of prepaid recharge by Starbucks Korea, Shinsegae's affiliate...
본문:
According to Kang Min-guk's office at the National Assembly on the 19th, a total of 81.13 million prepaid recharges were made over the past six years from 2020 to August 2025, with a total of 2.62 trillion won in prepaid recharges.

번역: 강민국 국회 사무처에 따르면 2020년부터 2025년 8월까지 최근 6년간 선불충전은 총 8,113만 건, 선불충전 규모는 총 2조6,200억원에 달한다.

뉴스기사: 전 세계적 인기에 말차 품귀...폭염·관세 겹쳐 가격 급등

커피 생태계도 눈에 띄는 데이터인거 같습니다. 저도 요즘에 스타벅스 기프티콘이 선물로 많이 들어오고, 제 주변에서도 카페를 접는 사례가 있었습니다. 옛날에는 카페가 커뮤니티 장소로 분위기 맛집의 의미가 많았었는데 이젠 단가, 경쟁력 등 여러 조건을 만족해야 할거 같죠. 반면, 기본 6,000원이 넘어가는 대형 브랜드의 커피 가격은 부담스럽다는 느낌을 느끼긴 합니다.

이렇게 커피 가격이 오르면 대체제 상품인 찻잎도 덩달아 오르는 경향이 있습니다. 이런 상관관계가 지난 Log #2에서 보여주었던 '호주 양모'에 대한 내용과 일치합니다.

커피보다 카페인이 2,3배 낮은 마테차와 녹차가 몸에 좋을 수 있습니다. 세포 노화를 줄여주는 향산화 성분도 있기 때문이죠.


4. Conclusion

Recap & Remarks

Databricks Data + AI 러닝 페스티벌을 통해 워크스페이스와 Delta Lake의 핵심 개념을 실습으로 체득했습니다.

데이터 레이크하우스와 데이터 웨어하우스의 통합하는 데이터 레이크하우스의 개념과 주요 기술 스택을 살펴보며 분석과 AI 워크플로우 통합의 가능성을 확인했습니다.

금융 규제와 보안 요건을 반영한 온프레미스 구축은 이번 Log에서 깊게 다루지 않았지만 필수 전략으로 판단됩니다

Looking Ahead

  • 2025-10-13(월)~16(목): Welcome to Oracle AI World 2025
  • 2025-10-14(화)~16(목): AI x Industry Week (코엑스 더 플라츠)
  • 2025-10-22(수): Databricks Data + AI 러닝 페스티벌 (09:00~16:00 / 온라인 교육)
  • 2025-11-02(일)~03(월): SK AI SUMMIT 2025 (10:00 - 17:30 / 코엑스 오디토리움)
  • 2025-11-07(금): Gencon AI Conference For AI Future 2025 (10:00~18:00 / 코엑스 오디토리움)
  • 2025-11-10(월)~11(화): AI Summit Seoul & Expo 2025 (10:00~18:00 / 코엑스 그랜드볼룸 & B홀)
  • 2025-11-12(수): The Future of AI: Build Agents That Work (09:30 / 온라인 교육)
  • 2025-12-05(금): Data Governance Forum (서울 강남)

모든 사람은 결핍을 안고 살아간다. 그러나 그 결핍을 애써 숨기고 완벽하게 보이려고 한다고 해서 온전해지지는 않는다. 진정한 극복은 스스로의 부족함을 인정하고 하나씩 넘어서는 용기에서 시작된다. 흔들리더라도 그 순간에 자신을 새롭게 조각해나가야 한다. 넘어지더라도 그 경험을 토대로 더 넓은 길을 걸어가야 한다.
- 프리드리히 니체 ‘위버멘쉬’

profile
김지환

0개의 댓글