OLTP와 OLAP

서버란·2024년 10월 8일

CS 지식

목록 보기

16/25

OLTP(Online Transaction Processing)와 OLAP(Online Analytical Processing)는 데이터베이스 시스템의 두 가지 주요 처리 방식으로, 각각의 목적과 사용 사례가 다릅니다.

1. OLTP(Online Transaction Processing)

정의: OLTP는 온라인 트랜잭션 처리 시스템으로, 주로 빠르고 일관된 방식으로 많은 수의 단순한 트랜잭션을 처리하는 시스템을 의미합니다. OLTP 시스템은 실시간 데이터를 저장하고 관리하며, 주로 애플리케이션의 운영 환경에서 사용됩니다. 은행 시스템, 온라인 쇼핑몰, 항공사 예약 시스템 등이 대표적인 예입니다.

특징:

짧고 빈번한 트랜잭션: OLTP 시스템은 짧고 간단한 트랜잭션을 자주 처리합니다. 이러한 트랜잭션은 보통 삽입(INSERT), 수정(UPDATE), 삭제(DELETE)와 같은 데이터 조작이 주된 작업입니다.
예: 고객 주문, 은행 이체, 제품 등록 등.
실시간 데이터 처리: 실시간으로 데이터를 삽입, 수정, 삭제하며, 즉각적인 응답이 필요합니다. 따라서 지연 시간이 짧고, 빠른 트랜잭션 처리가 매우 중요합니다.
높은 동시성: 많은 사용자가 동시에 데이터를 조회하고 수정하는 상황을 처리할 수 있어야 하므로, 동시성 제어가 중요합니다. 데이터 일관성과 무결성을 유지하기 위해 ACID(Atomicity, Consistency, Isolation, Durability) 특성을 준수해야 합니다.
데이터의 최신 상태 유지: OLTP 시스템은 현재 데이터의 상태를 유지하는 데 중점을 둡니다. 따라서 항상 최신 상태의 데이터를 기반으로 작업이 수행됩니다.
작은 데이터 조각: 트랜잭션은 보통 작은 데이터 조각에 집중되며, 테이블의 일부 데이터만을 처리하는 경우가 많습니다.
스키마 설계: OLTP 시스템은 정규화된 데이터베이스 구조를 사용하는 경우가 많습니다. 이를 통해 중복을 최소화하고, 빠른 데이터 조작이 가능합니다.

사용 사례:

은행 시스템(계좌 이체, 잔액 조회)
온라인 쇼핑몰(주문 처리, 상품 정보 업데이트)
고객 관리 시스템(CRM)
항공사 예약 시스템

장점:

빠르고 안정적인 트랜잭션 처리.
데이터 무결성 및 일관성 유지.
실시간 처리 및 즉각적인 응답.

단점:

대량의 데이터 분석에 비효율적.
과도한 정규화로 인해 복잡한 쿼리가 성능에 영향을 미칠 수 있음.

2. OLAP(Online Analytical Processing)

정의: OLAP는 온라인 분석 처리 시스템으로, 대규모 데이터를 분석하고, 복잡한 질의를 실행하여 의사결정을 지원하는 시스템입니다. 주로 비즈니스 인텔리전스(BI) 도구와 함께 사용되며, 데이터 분석, 트렌드 파악, 보고서 생성 등의 용도로 사용됩니다. OLAP는 과거의 데이터를 분석하여 통찰력을 얻는 데 중점을 둡니다.

특징:

복잡한 질의: OLAP 시스템은 매우 복잡한 질의를 처리하는 데 최적화되어 있습니다. 주로 데이터 집계(aggregation), 다차원 분석(Multidimensional Analysis), 트렌드 분석 등이 포함됩니다.
예: 월별 매출 분석, 특정 제품의 시간대별 판매 트렌드 분석.
대용량 데이터 처리: OLAP는 일반적으로 수년간 축적된 대규모 데이터를 처리합니다. 따라서 처리하는 데이터의 양이 매우 크며, 트랜잭션보다는 분석 작업에 중점을 둡니다.
데이터의 집계 및 요약: OLAP 시스템은 데이터를 다차원적으로 분석할 수 있는 기능을 제공합니다. 이를 위해 데이터를 요약하고 집계하여, 사용자가 다양한 차원(dimension)에서 데이터를 분석할 수 있도록 도와줍니다.
예: 제품, 지역, 시간대별로 나누어 매출 데이터를 분석할 수 있는 다차원 데이터 모델(큐브)을 사용.
데이터 웨어하우스: OLAP 시스템은 보통 데이터 웨어하우스라는 대규모 데이터 저장소에서 데이터를 가져와 분석합니다. 이 데이터는 OLTP 시스템에서 추출된 후, 데이터 웨어하우스에 저장되어 분석에 최적화된 형식으로 가공됩니다.
비정규화된 데이터: OLAP 시스템은 보통 데이터를 비정규화하여 저장합니다. 정규화된 데이터는 분석 질의의 성능을 저하시킬 수 있으므로, 비정규화된 테이블로 성능을 향상시킵니다.
역사적 데이터 분석: OLAP 시스템은 실시간 데이터보다는 과거의 대량 데이터를 분석하여 트렌드 및 패턴을 파악하는 데 중점을 둡니다.

사용 사례:

비즈니스 인텔리전스(BI) 도구에서의 보고서 생성.
데이터 마이닝 및 트렌드 분석.
경영진을 위한 매출, 비용, 이익 분석.
마케팅 캠페인 성과 분석.

장점:

복잡한 데이터 분석과 질의에 매우 효율적.
다차원적으로 데이터를 분석하고, 의사결정에 필요한 인사이트를 도출할 수 있음.
대량의 데이터를 처리하면서도 빠르게 결과를 도출할 수 있음.

단점:

실시간 데이터 처리가 어려움.
OLAP 시스템 구축 및 유지에 큰 비용이 발생할 수 있음.

3. OLTP와 OLAP의 차이점

구분	OLTP	OLAP
목적	일상적인 트랜잭션 처리	데이터 분석 및 의사결정 지원
트랜잭션 유형	짧고 자주 발생하는 트랜잭션 (INSERT, UPDATE, DELETE)	복잡한 분석 질의 (SELECT, 집계, 트렌드 분석)
데이터 유형	실시간 데이터	과거 데이터, 집계된 데이터
데이터 크기	소규모, 단일 레코드 중심	대규모, 전체 데이터 세트 또는 다차원 데이터
스키마 구조	정규화된 데이터베이스 구조	비정규화 또는 부분적으로 정규화된 데이터 구조
사용자	최종 사용자 (직원, 고객 등)	경영진, 데이터 분석가
데이터 변경	빈번한 데이터 변경 발생	주로 읽기 전용, 변경 빈도가 적음
응답 시간	밀리초 수준의 빠른 응답	상대적으로 긴 응답 시간 (분 또는 시간 단위일 수 있음)
도구	MySQL, PostgreSQL 등 관계형 데이터베이스	데이터 웨어하우스, BI 도구 (Tableau, Power BI 등)
중점	데이터 무결성 및 동시성 처리	데이터 분석 및 통찰력 도출

4. OLTP와 OLAP의 상호보완적인 관계

OLTP와 OLAP는 각각의 목적에 따라 다른 요구 사항을 충족시키지만, 이 두 시스템은 상호보완적인 관계에 있습니다. OLTP 시스템은 실시간 트랜잭션을 관리하는 데 최적화되어 있지만, OLTP 시스템에서 수집된 데이터를 분석하고 트렌드를 파악하는 데는 OLAP 시스템이 필요합니다. OLTP 시스템의 데이터를 주기적으로 추출하여 OLAP 시스템이나 데이터 웨어하우스에 저장하고, 이를 바탕으로 비즈니스 인사이트를 얻는 것이 일반적인 패턴입니다.

ETL 프로세스: OLTP 시스템의 데이터를 OLAP 시스템으로 전달하기 위해 ETL(Extract, Transform, Load) 프로세스가 사용됩니다. ETL은 데이터를 추출(Extract)하고, 분석에 적합한 형태로 변환(Transform)한 후, 데이터 웨어하우스에 적재(Load)하는 과정입니다.

결론적으로

OLTP는 빠르고 안정적인 트랜잭션 처리를 필요로 하는 운영 환경에서 사용됩니다. 은행 거래, 온라인 쇼핑 등 실시간 처리가 중요한 시스템에 적합합니다.
OLAP는 대량의 데이터를 기반으로 복잡한 분석 작업을 수행하는 데 중점을 둡니다. 경영진이나 데이터 분석가는 OLAP 시스템을 통해 데이터에서 의미 있는 패턴을 발견하고, 이를 바탕으로 전략적인 결정을 내립니다.
이 두 시스템은 목적이 다르지만, OLTP에서 생성된 데이터를 OLAP에서 분석하는 형태로 기업의 비즈니스 성과를 개선하는 데 중요한 역할을 합니다.

Q1: OLTP 시스템에서 트랜잭션의 동시성 문제를 해결하기 위한 방법은 무엇인가요?

OLTP 시스템에서 여러 사용자가 동시에 데이터를 조회하거나 수정할 수 있기 때문에, 동시성 문제를 해결하는 것이 매우 중요합니다. 동시성 문제는 여러 트랜잭션이 동시에 같은 데이터에 접근할 때 발생할 수 있는 데이터 무결성 문제를 의미합니다. 이를 해결하기 위한 주요 기법은 다음과 같습니다.

트랜잭션 격리 수준(Transaction Isolation Levels):

트랜잭션 격리 수준은 여러 트랜잭션이 동시에 실행될 때 데이터를 어떻게 격리할지 결정하는 방식입니다. 자주 사용되는 격리 수준은 다음과 같습니다:

Read Uncommitted: 다른 트랜잭션에서 아직 커밋되지 않은 데이터를 읽을 수 있습니다(Dirty Read). 동시성은 높지만 데이터 무결성이 낮습니다.
Read Committed: 다른 트랜잭션에서 커밋된 데이터만 읽을 수 있습니다. 데이터 무결성이 보장되지만 약간의 동시성 문제가 발생할 수 있습니다.
Repeatable Read: 트랜잭션 내에서 같은 데이터를 여러 번 읽어도 값이 변하지 않도록 보장합니다. 동시성 문제는 줄지만 성능에 약간의 부담이 있을 수 있습니다.
Serializable: 가장 높은 격리 수준으로, 트랜잭션 간의 상호작용을 완전히 차단하여 동시성 문제를 해결합니다. 하지만 성능에 가장 큰 영향을 미칠 수 있습니다.

락(Locking):

트랜잭션 중에 특정 데이터에 대해 락(잠금)을 거는 방식입니다. 두 가지 주요 락 타입이 있습니다:

Shared Lock(공유 락): 데이터를 읽는 동안 다른 트랜잭션도 읽을 수는 있지만, 쓰는 동안에는 쓰기 작업이 제한됩니다.
Exclusive Lock(배타적 락): 데이터를 읽거나 쓰는 동안 다른 트랜잭션이 해당 데이터에 접근하지 못하게 합니다. 동시성은 줄지만 데이터 무결성이 강화됩니다.

낙관적 동시성 제어(Optimistic Concurrency Control):

트랜잭션이 데이터를 수정할 때 충돌이 발생할 가능성이 낮다고 가정하고, 데이터를 수정하기 전에 별도의 잠금을 사용하지 않습니다. 수정 후에 충돌이 발생하면 롤백 처리합니다. 이는 동시성 성능을 최대한 유지하면서도 데이터 충돌을 해결할 수 있는 방식입니다.

비관적 동시성 제어(Pessimistic Concurrency Control):

충돌이 자주 발생할 것으로 가정하고, 트랜잭션이 데이터를 수정할 때 즉시 락을 걸어 다른 트랜잭션이 접근하지 못하게 합니다. 데이터 무결성을 확실히 보장하지만 동시성 처리 성능이 저하될 수 있습니다.

MVCC(Multi-Version Concurrency Control):

데이터를 동시에 읽고 수정할 수 있도록 다중 버전 관리를 사용하는 방법입니다. 트랜잭션이 데이터를 수정할 때 새로운 버전을 생성하고, 이를 통해 다른 트랜잭션은 이전 버전의 데이터를 읽을 수 있어 동시성을 보장합니다. PostgreSQL과 같은 DBMS에서 많이 사용됩니다.

Q2: OLAP에서 사용되는 다차원 데이터 모델(OLAP 큐브)에 대해 설명해줄 수 있나요?

OLAP 큐브는 데이터를 여러 차원(dimension)에서 분석하기 위한 구조입니다. 일반적인 관계형 데이터베이스에서 데이터를 테이블 형식으로 저장하는 반면, OLAP 큐브는 다차원적으로 데이터를 저장하고 분석할 수 있게 해줍니다.

OLAP 큐브의 주요 요소:

차원(Dimension): OLAP 큐브에서 데이터를 분류하는 기준입니다. 예를 들어, 매출 데이터를 분석할 때 '시간', '지역', '제품' 등의 차원이 있을 수 있습니다. 각각의 차원은 데이터를 나눌 기준이 됩니다.

예:
시간: 연도, 월, 일 등으로 나눌 수 있는 차원.
지역: 국가, 도시, 지점 등으로 나눌 수 있는 차원.
제품: 제품군, 카테고리, 제품명 등으로 나눌 수 있는 차원.

측정값(Measure): 큐브에서 실제로 분석되는 데이터 값입니다. 예를 들어, 매출액, 주문 수량, 비용 등이 측정값이 될 수 있습니다. 차원에 따라 분류된 데이터를 요약하고, 각 차원에 맞춰 계산된 값이 측정값으로 나타납니다.
계층 구조(Hierarchy): 각 차원은 세부적인 계층 구조를 가질 수 있습니다. 예를 들어, '시간' 차원은 '연도 > 월 > 일'로 계층적으로 구성될 수 있고, '지역' 차원은 '국가 > 도시 > 지점'으로 나눌 수 있습니다. 이 계층 구조를 통해 데이터를 더 상세히 분석하거나, 요약된 형태로 조회할 수 있습니다.
롤업(Roll-up)과 드릴다운(Drill-down):

롤업: 데이터를 상위 수준에서 요약하는 과정입니다. 예를 들어, 월별 데이터를 연도별로 요약하는 것이 롤업입니다.
드릴다운: 상위 수준의 데이터를 더 세부적으로 분석하는 과정입니다. 예를 들어, 연도별 매출 데이터를 월별로 세분화하여 보는 것이 드릴다운입니다.

OLAP 큐브의 장점:

데이터를 다양한 관점에서 분석할 수 있습니다. 예를 들어, 특정 제품의 월별 판매량을 지역별로 구분해서 볼 수 있습니다.
데이터 분석을 빠르게 수행할 수 있으며, 사전 계산된 요약 데이터를 사용해 복잡한 분석 작업을 실시간으로 처리할 수 있습니다.

Q3: ETL 프로세스에서 데이터를 변환하는 단계(Transform)에서 어떤 작업들이 수행되나요?

ETL(Extract, Transform, Load) 프로세스에서 Transform(변환) 단계는 데이터를 분석이나 저장하기에 적합한 형태로 가공하는 과정입니다. 이 단계에서 수행되는 주요 작업들은 다음과 같습니다:

데이터 정제(Data Cleansing):

데이터에서 오류, 중복, 결측값(null 값)을 제거하거나 수정하는 작업입니다. OLTP 시스템에서 수집된 원시 데이터는 불완전하거나 잘못된 값이 포함될 수 있기 때문에, 분석을 위해 정제된 데이터가 필요합니다.
예: 중복된 고객 기록 제거, 잘못된 형식의 날짜 수정, 결측값 대체.

2.데이터 변환(Data Transformation):

데이터를 분석에 맞게 변환하는 작업입니다. 원래 시스템의 데이터 형식이 다르거나, 분석 목적에 맞게 새로운 형식으로 변환해야 할 경우가 있습니다.
예: 다양한 단위의 데이터(USD, EUR)를 하나의 통화 단위로 변환, 문자열 형식의 날짜를 표준화된 날짜 형식으로 변환.

데이터 집계(Aggregation):

대량의 데이터를 요약하거나 집계하는 과정입니다. 분석에 필요한 데이터를 구체적으로 나누거나 결합하여 계산된 값을 제공합니다.
예: 일별 매출 데이터를 월별로 집계하여 요약, 제품별 판매 수량을 카테고리별로 합산.

데이터 통합(Data Integration):

여러 소스에서 추출한 데이터를 하나의 통합된 형식으로 결합하는 과정입니다. 다양한 OLTP 시스템에서 수집한 데이터를 하나의 데이터 웨어하우스나 분석 시스템으로 통합하는 것이 필요합니다.
예: 서로 다른 시스템에서 수집한 고객 정보와 구매 기록을 결합하여 전체적인 구매 패턴 분석.

데이터 필터링(Data Filtering):

분석에 불필요한 데이터를 걸러내는 작업입니다. 트랜잭션 로그나 이벤트 로그처럼 대규모로 수집되는 데이터는 분석에 필요한 부분만 남기고 나머지는 필터링해야 합니다.
예: 최근 5년간의 데이터만 남기고, 그 이전의 데이터를 필터링하여 제거.

데이터 변환 규칙 적용(Transformation Rules):

변환 규칙을 적용하여 데이터를 변형합니다. 예를 들어, 특정 조건에 따라 데이터를 변형하거나 분류하는 규칙을 적용할 수 있습니다.
예: 고객 등급에 따라 고객 정보를 분류하거나, 특정 값에 따라 범주화하는 작업.

변환 단계는 ETL 프로세스에서 가장 중요한 단계 중 하나로, 데이터를 원하는 분석 형태로 가공하는 작업입니다. 이 과정을 통해 데이터의 일관성을 유지하고, 분석에 적합한 데이터를 준비할 수 있습니다.

서버란

백엔드에서 서버엔지니어가 된 사람

이전 포스트

B-tree 자바 직접구현

다음 포스트