Flink, 도입 검토

Jeonghak Cho·2025년 9월 21일

flink 도입 검토

Bigdata

목록 보기

30/30

Flink 같은 스트리밍 엔진을 도입하는 이유
- 하드웨어/전통 방식으로 충분한 경우
- Flink를 쓰는 이유
Flink가 꼭 필요한 이유
Flink CDC 연계
Flink VS 카프카 컨수머 프로그래밍 비교
Flink 도입 필요성 - 실시간 분석, 상태 기반 스트림 처리, 이벤트 시간 집계
- 언제 Kafka Consumer만 써도 되는가
- 언제 Flink가 필요해지는가
Flink 도입 필요성 - “고가용성(HA) + 확장성(Scalability)” 관점
Kafka Consumer 프레임워크 vs Flink 기능 매핑표
Flink 도입의 어려움
Flink를 꼭 써야 하는 이유
Flink 러닝커브
Flink 도입 러닝커브 vs 장기 효과
참고
- Flink Sink별 지연 시간 비교
- Flink 도입 사례

Flink 같은 스트리밍 엔진을 도입하는 이유

하드웨어/전통 방식으로 충분한 경우

초단타 매매(HFT, High Frequency Trading)
네트워크 장비/FPGA 기반의 마이크로초 단위 거래 처리

이 경우 Flink 같은 범용 스트리밍 엔진은 오버헤드가 커서 쓰지 않는다.즉, “순수 속도”가 최우선이면 직접 코딩 + 좋은 하드웨어가 낫다.

Flink를 쓰는 이유

Flink를 도입하는 이유는 속도 + 확장성 + 안정성의 균형 때문입니다.

정확한 상태 관리

Flink는 Exactly-once 보장을 위해 체크포인트/세이브포인트와 분산 상태 관리를 지원

직접 구현하면 코드가 매우 복잡해짐 (특히 장애 시 복구 로직)

금융 거래/이상 탐지에서는 “중복 없는 정확성”이 필수라 Flink의 장점이 크게 작용

복잡 이벤트 처리 (CEP)

예: “5분 이내 다른 계좌로 3회 이상 이체 후 고액 송금” 같은 패턴 기반 탐지

Flink CEP는 이런 규칙을 선언적으로 작성 가능 → 전통적인 저수준 코드보다 유지보수 용이

확장성과 유연성

기존 프로그램은 특정 케이스만 최적화 → 새로운 규칙/데이터 소스가 생기면 재개발 필요

Flink는 Kafka, DB, 파일 등 다양한 소스와 싱크를 연결할 수 있고, 새로운 비즈니스 룰 추가가 상대적으로 간단

장애 복구와 운영

금융 시스템은 절대 멈추면 안 됨 → Flink는 장애 발생 시 체크포인트 기반 자동 복구

전통 시스템은 하드웨어 장애/네트워크 이슈 대응에 큰 운영 비용이 듦

Flink가 꼭 필요한 이유

Kafka만 쓰면 데이터는 쌓이지만, 실시간으로 가치를 뽑아낼 수 없다. Flink가 있어야 데이터가 움직이는 순간 의사결정을 자동화할 수 있다. Flink는 Kafka의 로그를 실시간 비즈니스 인사이트로 바꿔주는 엔진이다.

실시간 데이터 처리/분석

Kafka만 있으면 데이터는 쌓이지만 가공이 안 됨.
Flink는 들어오는 데이터를 즉시 집계·필터링·조인·패턴 탐지 가능 → 지연 시간 수 ms~초 단위.
예) "10분 동안 3번 이상 결제 실패 → 경고 알림" 같은 패턴 인식은 Flink 없이는 불가능.

상태 기반 스트리밍 (Stateful Streaming)

Flink는 수억 건 이벤트 속에서도 “상태(state)”를 유지하며 실시간 연산 가능.
Kafka Consumer는 이벤트만 읽을 뿐, 상태 관리 불가.
예) “고객이 장바구니에 담은 상품 총액”을 실시간으로 추적.

Exactly-once 보장

Kafka는 기본적으로 "at least once" 전달 → 중복 발생 가능.
Flink는 Kafka와 통합 시 exactly-once 처리 보장 → 금융/결제/재고 같은 민감한 시스템에 필수.

배치와 스트리밍 통합

Flink는 Batch + Streaming 하나의 API로 처리 → 운영 효율.
Kafka Streams도 있긴 하지만 분산 스케일링, 상태 관리, 복잡한 연산은 Flink가 훨씬 강력.

실시간 대시보드 / 알림

Flink → Kafka / Elastic / ClickHouse / Redis 등으로 출력 가능
즉시 실시간 모니터링, 이상 탐지, 고객 알림 시스템 구축 가능.

Flink CDC 연계

“실시간 + 최신 상태 보장” 을 원하면 CDC가 사실상 필수이고, 단순히 이벤트 로그나 센서 데이터 스트림만 처리할 거라면 CDC는 필요 없다.

CDC 사용 필요한 상황

RDBMS 같은 기존 시스템의 변경 사항(INSERT, UPDATE, DELETE)을 실시간으로 스트리밍으로 흘려보낼 수 있음
Flink SQL이 변경 이벤트 단위로 테이블 상태를 맞춰서 유지할 수 있음
Kafka 같은 메시지 브로커와 결합하면 “실시간 데이터 파이프라인”을 안정적으로 구축 가능

CDC를 안 쓰면 발생하는 문제

초기 적재 후 변경 반영 불가 → 새 데이터가 DB에 들어와도 Flink 쪽 테이블은 그대로.
전체 덤프 방식 → 매번 full dump를 읽어야 해서 성능/리소스 낭비.
정합성 깨짐 → 운영 DB와 Flink가 처리하는 스트리밍 뷰가 달라짐.
업데이트/삭제 추적 불가 → append-only 데이터만 반영 가능, 실시간 최신 상태 유지가 어려움.

CDC 없이 Flink 활용가능한 경우

CDC는 DB 기반 실시간 동기화가 필요한 경우만 필수이다. 하지만 Flink는 파일, 메시지 큐, API, Lakehouse 등 다양한 소스를 직접 ingestion 가능하다. 초기 진입 장벽을 낮추려면 CDC 대신 파일/큐 기반으로 먼저 시작하는 게 자연스러운 전략이다.

파일 기반 이벤트 처리

소스: S3, MinIO, HDFS, NFS 등 Object Storage / 파일 시스템

로그 파일(Parquet, JSON, CSV 등) 실시간 ingestion, IoT 장비가 주기적으로 업로드하는 센서 데이터 처리한다.DB나 CDC 필요 없음, 운영 단순하다.

Flink FileSource → 파케이 변환 → Iceberg 테이블 적재 → Trino/Presto로 조회

메시지 큐 기반

소스: Kafka, RabbitMQ, Pulsar
애플리케이션에서 직접 이벤트 발행 (주문 이벤트, 결제 이벤트, 로그 이벤트)한다. Flink가 이를 구독해서 변환/집계 후 싱크로 전달한다. CDC 대신 서비스 코드에서 직접 이벤트 발행하기 때문에 단순하고 빠르다.

Kafka(주문 이벤트) → Flink 집계 → ElasticSearch 대시보드

API/스트리밍 소스 직접 연결

소스: REST API, WebSocket, gRPC

외부 서비스 실시간 데이터 수집 (주가 API, 날씨 API, SNS 데이터 등)한다. Flink Connector나 커스텀 소스로 직접 ingestion한다. 기존 시스템에 영향 없고, 구현이 단순하다.

WebSocket API → Flink → Redis 캐시

배치 + Micro-Batch 하이브리드

소스: DB 덤프, DW Export, Data Lake Snapshot
CDC는 부담되지만 "준실시간"이면 충분한 경우 (예: 5분 단위 분석) 사용한다. 배치 데이터를 Flink로 ingestion → Flink가 Micro-Batch처럼 집계/필터링 처리한다. CDC 없이도 quasi-realtime 운영 가능하다.

매 5분마다 DB 덤프 파일 → Flink ingestion → KPI 집계

데이터 레이크(Lakehouse) 기반

소스: Iceberg, Hudi, Delta Lake
실시간 ingestion 대신 "테이블에 append" → Flink가 테이블에서 직접 읽는다. Flink SQL로 Iceberg 테이블에 실시간 질의한다. CDC 불필요, 표준 테이블 포맷에 활용 가능하다.

IoT 장비 → S3/Iceberg Append → Flink SQL → 실시간 대시보드

Flink VS 카프카 컨수머 프로그래밍 비교

역할과 범위의 차이

Kafka Consumer 프로그래밍 (단순 소비자 앱)

특정 토픽을 구독하고, 메시지를 읽어서 → 로직 실행 → 결과 저장(파일/DB/다른 카프카 토픽)
보통 레코드 단위 처리에 집중.
개발자가 직접 스레드/파티션 할당, 오류 처리, 리밸런싱 처리 등을 신경써야 함. 즉, "데이터를 소비하고 처리하는 작은 앱"

Flink 스트리밍 애플리케이션

Kafka Consumer는 단지 소스일 뿐이고, Flink는 그 뒤에 오는 복잡한 처리 파이프라인 전체를 관리.
Kafka 메시지를 읽은 뒤 윈도우 집계, 조인, 필터링, 상태 저장, exactly-once 보장, 이벤트 시간 기반 처리 등 고급 기능 제공.
분산 환경에서 클러스터 단위로 병렬 처리, 스케일 아웃, 장애 복구까지 자동 관리. 즉, "실시간 데이터 처리 엔진"

처리 모델

Kafka Consumer

메시지 단위 "순차 처리"
보통 poll() 호출 후 record 루프 돌면서 처리
상태(state) 관리나 이벤트 시간 개념은 없어 개발자가 직접 구현해야 함

Flink

메시지를 데이터 스트림으로 추상화해서 연산자(operators)로 파이프라인 구성
Window / Watermark / Event Time 개념이 있어 실제 발생 시각 기준으로 집계 가능
연속된 메시지 스트림을 "SQL처럼" 다룰 수 있음

장애 복구 & 정확성 보장

Kafka Consumer

오프셋을 직접 커밋해야 함 (enable.auto.commit=false라면 직접 관리)
장애 시 중복 처리, 유실 가능성이 존재해서 정확성 보장은 애플리케이션 책임

Flink

체크포인트(checkpoint)와 savepoint를 이용해 Exactly-Once / At-Least-Once 처리 보장
Kafka 오프셋과 Flink의 상태(state)를 함께 관리해서 장애가 나도 같은 위치부터 정확히 이어감

확장성 & 운영

Kafka Consumer

파티션 수 = 소비자 수 제한
컨슈머 그룹 리밸런싱이 잦으면 성능 저하 발생
스케일 아웃은 있지만, 로직 복잡성이 증가

Flink

병렬도(parallelism) 조정만으로 쉽게 확장 가능
파티션 ↔ 병렬 인스턴스 매핑 자동 관리
Kubernetes, YARN, Mesos 같은 클러스터 환경에서 안정적으로 운영

예시 비교

Kafka Consumer 코드 (Java, 단순 소비자)

KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singletonList("topic"));

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        System.out.printf("key=%s value=%s%n", record.key(), record.value());
    }
}

Flink Kafka Source 사용 (Java, 스트림 처리)

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

KafkaSource<String> source = KafkaSource.<String>builder()
    .setBootstrapServers("localhost:9092")
    .setTopics("topic")
    .setGroupId("flink-consumer")
    .setValueOnlyDeserializer(new SimpleStringSchema())
    .build();

DataStream<String> stream = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");

stream
    .filter(value -> value.contains("error"))
    .map(String::toUpperCase)
    .print();

env.execute("Flink Kafka Stream Processing");

Flink 도입 필요성 - 실시간 분석, 상태 기반 스트림 처리, 이벤트 시간 집계

언제 Kafka Consumer만 써도 되는가

단순히 메시지 받아서 DB나 로그로 저장
약간의 전처리(포맷 변환, 필터링) 정도만 필요
데이터 정합성(중복, 순서 보장, 이벤트 시간 처리 등)이 크게 중요하지 않음
트래픽이 크지 않아 장애 복구를 직접 관리해도 부담이 없음

이 경우는 경량 Kafka Consumer App이 더 단순하고 유지보수가 쉬움

언제 Flink가 필요해지는가

이벤트 시간(event time) 기준 집계가 필요할 때 → 예: "지난 10분 동안 사용자별 평균 클릭 수"
윈도우/세션 처리 → 단순 소비자가 아닌 스트림 분석이 필요한 경우
Exactly-once 보장이 중요한 경우 → 결제, 재고 관리, 금융 로그 등
상태 기반 처리(Stateful Processing) → 예: 사용자별 카운트 유지, 조인, 이상 탐지
고가용성 + 장애 복구 → 파드가 죽어도 같은 오프셋부터 이어서 정확히 처리
운영 환경에서 확장성 필요 → 파티션 수와 무관하게 병렬도 조절, 클러스터 리소스 관리

Flink 도입 필요성 - “고가용성(HA) + 확장성(Scalability)” 관점

고가용성 (High Availability)

Kafka Consumer

컨슈머 앱이 죽으면 해당 파티션의 처리는 중단
재시작 시 오프셋을 다시 읽어오지만, 중복 처리/유실이 생길 수 있음
정확한 복구 로직은 개발자가 직접 구현해야 함 (ex. DB 트랜잭션과 오프셋 commit 동기화)
컨슈머 그룹 리밸런싱 시 잠시 동안 데이터 처리가 중단됨

Flink

체크포인트(Checkpoint) + 상태 저장(Stateful Processing)
- Flink는 Kafka 오프셋과 내부 상태를 원자적으로 스냅샷
- 장애 시 가장 최근 체크포인트에서 정확히 이어서 처리헤사 Exactly-Once 보장
JobManager HA 지원. JobManager가 죽어도 standby JobManager가 takeover
TaskManager 자동 복구
TaskManager가 죽으면 동일 파티션을 다른 인스턴스가 이어받음

운영자는 장애를 신경 안 써도 되는 수준까지 자동화

Kafka Consumer = 개발자가 복구 로직 직접 관리 / Flink = 프레임워크 차원에서 자동 복구

확장성 (Scalability)

Kafka Consumer

병렬성 = 파티션 수
- 파티션이 10개면, 컨슈머 인스턴스도 최대 10개까지만 병렬 처리 가능
- 파티션보다 많은 컨슈머를 추가해도 놀고 있음
리밸런싱 오버헤드
- 컨슈머 수를 늘리면 리밸런싱 비용 발생 → 처리 지연 가능

Flink

파티션 수와 병렬도(Parallelism)를 분리 가능
- 예: Kafka 파티션은 10개인데 Flink 병렬도를 40으로 설정 가능
- 내부적으로 파티션 → 서브태스크 → 다운스트림 작업 분산 처리
연산자 체인(Operator Chain)
- Kafka에서 읽은 데이터는 여러 연산자로 흘러가면서 동시에 분산 처리 가능 (filter, map, join, aggregation 등)
- 컨슈머 앱은 보통 "읽기-처리-저장" 직선 구조지만, Flink는 "병렬 DAG" 구조
자동 리소스 조절 (K8s 연동)
- Kubernetes, YARN 등과 통합 → TaskManager를 scale-out / scale-in 가능
- 컨슈머 앱은 직접 오토스케일링 로직 짜야 함

Kafka Consumer = 파티션 수에 종속된 확장성 / Flink = 클러스터 리소스 기반 확장성

운영 효율성

Kafka Consumer

확장/복구/오프셋 관리 모두 직접 구현
규모가 커질수록 운영 복잡도 ↑

Flink

상태, 오프셋, 병렬성, 장애 복구를 프레임워크에서 일괄 제공
운영자는 “비즈니스 로직” 에만 집중 가능

Kafka Consumer 프레임워크 vs Flink 기능 매핑표

직접 구현한 기능 (Kafka Consumer 기반)	Flink에서의 대체 기능	설명
스레드 풀 관리 (ExecutorService 등)	병렬도(Parallelism)	Flink는 연산자마다 병렬도를 지정할 수 있고, 클러스터가 자동 분산 실행
큐/버퍼 관리 (poll → queue → worker)	연산자 체인 + 내부 버퍼	Flink가 각 TaskManager 내부에서 큐·버퍼를 자동 관리
잡 스케줄링 (주기적 집계, 배치 흉내)	윈도우(Window), Trigger, Timer	이벤트 시간 기반의 윈도우/세션/주기적 연산을 API로 제공
상태 관리 (DB/Redis에 임시 저장)	내장 상태 관리(StateBackend)	RocksDB/메모리 기반 상태 관리, Checkpoint와 함께 Exactly-once 보장
오프셋 커밋 전략 (commitSync, async)	체크포인트(Checkpoint)	Kafka 오프셋을 Flink 체크포인트와 함께 원자적으로 저장
에러 처리 / 재시도 큐 (DLQ 구현)	내장 Retry + Dead Letter Sink	Flink는 연산자 실패 시 자동 재시도 / DLQ Sink로 에러 전송
장애 복구 로직 (중복/유실 방지 코드)	Checkpoint & Savepoint 복구	장애 시 마지막 체크포인트부터 자동 복원, Exactly-once 유지
리밸런싱 대응 코드 (파티션 재할당 처리)	소스 커넥터 + Task 재분배	Flink가 컨슈머 그룹/파티션 리밸런싱을 자동 관리
멀티 파이프라인 관리 (토픽 별 프로세스 분리)	DataStream → DAG	여러 토픽/소스를 하나의 DAG로 관리, 연산자 간 병렬 처리 가능
스케일 아웃 로직 (컨슈머 수 증가)	클러스터 병렬도 조정	파티션 수와 병렬도를 분리, Kubernetes/YARN에서 동적 확장 지원

Flink 도입의 어려움

초기 진입 장벽이 높음

운영 난이도: Flink는 단순 라이브러리가 아니라 클러스터 런타임(JobManager, TaskManager, StateBackend, Checkpoint 관리 등)이 필요해서 Kafka Consumer같은 단일 자바 프로세스보다 훨씬 무겁다.
러닝 커브: DataStream API, SQL API, State, Window, Watermark, Exactly-once 개념 등을 모두 배워야 함.
운영팀/개발팀 협업이 필요 → DevOps, SRE, Data Engineering 조직이 성숙하지 않으면 도입이 어렵다.

“간단히 돌려도 된다”는 경우가 많음

많은 기업의 스트리밍은 사실상 ETL + 저장 수준 (Kafka → DB/Elastic → BI)이며 이 경우는 Kafka Consumer + Spark Batch + DB 정도로 충분하다고 생각
“정확히 1번만 처리” 같은 엄격한 요구가 없으면, Flink 도입 비용이 더 커 보임

기존 레거시/투자와 충돌

이미 Spark Batch 파이프라인이 크게 자리잡은 경우
“굳이 Flink를 또 배워야 하나?” 라는 저항이 있음
자체 개발한 Kafka Consumer 프레임워크가 수년간 운영되어 안정화됨
“지금 잘 돌고 있는데, 왜 굳이 바꿔?”라는 의사결정자 관성
일부 기업은 DB Trigger + Batch Job으로도 충분히 SLA 충족

인력/생태계 부족

Spark는 데이터 과학/분석 쪽에서도 많이 쓰여 인력이 풍부
Flink는 실시간 스트리밍 전문 엔지니어가 필요 → 채용/교육 비용 부담
특히 한국/일본 같은 시장은 Spark > Flink 인재 풀이 훨씬 큼

실시간 처리의 ROI 문제

모든 기업이 실시간 처리가 꼭 필요한 것은 아님

예: 재고, 추천, 실시간 광고 → Flink 유용

하지만 월별 리포트, 일 단위 집계, 배치 ETL이 주 업무라면 굳이 Flink 필요 없음.
결국 “투자 대비 효과(ROI)”가 안 나온다고 보는 경우가 많음

최근 변화

대규모 IT 기업 (넷플릭스, 알리바바, 우버, 모빌리티/핀테크 등) 은 Flink 적극 도입하나 일반 기업은 Kafka + Spark + DB 조합에 안주하는 경우가 많음
요즘은 Flink SQL + Kubernetes Operator가 나오면서 점차 진입 장벽이 낮아지고 있음

Flink를 꼭 써야 하는 이유

데이터 정확성과 신뢰성 (Exactly-Once)

Kafka Consumer 직접 개발: 장애가 발생하면 중복 처리·누락 발생 가능하고 보정 로직 직접 구현해야 함.
Flink: Kafka, Iceberg, JDBC Sink 등과 결합 시 트랜잭션 단위의 exactly-once 보장해서 재처리 비용 절감.

"데이터 신뢰성이 보장되지 않으면 리포트·분석·모델 결과가 틀리게 되어 직접적인 손실(금융, 제조 불량, 광고비 낭비 등)이 발생할 수 있다."

확장성 (Elastic Scaling)

직접 구현: Consumer group rebalance, partition re-assign, thread pool 관리까지 직접 코드로 관리.
Flink: 운영자가 parallelism 파라미터만 조정하면 자동으로 operator-level scale-out.

"트래픽 급증 시 안정적인 처리가 가능해, 장애 대신 매출 확대 기회를 살릴 수 있다."

운영 비용 절감 (개발·운영 단순화)

직접 구현: 장애 복구, 백프레셔 관리, 비동기 처리, 재처리 로직 모두 자체 개발·테스트·운영 인력 소모.
Flink: 이미 battle-tested 된 분산 시스템 기능 내장 (HA, checkpointing, 상태 복구).

"내부 개발·운영팀이 ‘비즈니스 로직 개발’에 집중할 수 있어 생산성이 올라간다. (운영 유지보수 비용 절감 효과)."

실시간 분석 및 의사결정 가능

Consumer 직접 구현: 단순 이벤트 처리 후 후속 batch 분석 필요.
Flink: 스트리밍 SQL, CEP, Windowing, ML serving 연계로 실시간 패턴 탐지 가능.

"이상 징후를 조기에 감지하고 즉시 대응 가능해서 생산 불량 줄이기, 금융 사기 탐지, 광고 실시간 입찰 최적화 등 ‘돈을 벌거나 잃지 않게 해주는’ 효과."

미래 확장성 (데이터 레이크·AI 연계)

Flink는 Kafka, Iceberg, Trino, Spark, AI inference 시스템까지 연결할 수 있는 데이터 파이프라인 허브 역할.
고객 입장에서는 투자 보호: 지금은 단순 소비만 해도, 추후 Lakehouse·AI 모델 서빙까지 확장 가능.

Flink 러닝커브

Flink는 러닝커브가 있다. 하지만 이 곡선을 넘으면 운영 자동화 및 신뢰성 확보라는 보상을 얻는다. Kafka Consumer는 빨리 시작할 수 있지만, 장애/운영 복잡성/데이터 불일치 문제로 장기적 비용이 더 커질 수 있다.즉, 러닝커브는 초기 투자 비용이지만, 결과적으로 운영 리스크 감소와 확장성 확보로 회수 가능하다.

개발 난이도

학습 난이도: 중~상급 (특히 스트리밍 이론이 약한 팀은 진입장벽 큼)

Kafka Consumer 직접 개발

API 단순, poll/commit 기반. 로직 단순하면 바로 동작.

Flink

DataStream API, Table/SQL API, CEP(Complex Event Processing) 등 선택지가 많음.
Windowing, Watermark, State 같은 개념을 반드시 이해해야 해서 초기에 난관.
상태 관리/체크포인트 설계가 중요하며, 잘못하면 성능·정확성 문제.

운영 난이도

Kafka Consumer 직접 운영

쿠버네티스 pod 몇 개 띄우고 모니터링하면 끝.

Flink 운영

JobManager, TaskManager, HA 구성, Savepoint/Checkpoint 관리 필요.
YARN/K8s/Standalone 중 클러스터 모드 선택과 리소스 튜닝 필요.
Backpressure 모니터링, State backend (RocksDB, Memory, FileSystem) 선택도 고려해야 함.

운영 난이도측면에서 Kafka consumer보다 확실히 높다. 단, 한번 정착하면 오히려 안정적이고 자동화된 운영 가능하다

팀 역량 요구

Flink는 단순 코드 작성이 아니라 분산 스트리밍 시스템 이해를 요구함.
필요 역량:
- 스트리밍 이론 (event-time vs processing-time, watermark)
- 분산 시스템 개념 (checkpoint, recovery, HA)
- 데이터 레이크 연계 (Iceberg/Hudi/Delta Lake 등)

개발자 + 데이터 엔지니어 + 운영자 협업 필요해서 초기 진입 부담.

생태계 및 툴링

Flink 자체는 강력하지만, UI/운영 툴은 Spark보다 빈약.
SQL 기반 접근은 상대적으로 쉽지만, 고급 기능(CEP, ML)로 가면 자바/스칼라 코드 필요.
Kafka Connect 같은 "플러그인 느낌"보다는, "풀프레임워크" 학습 필요.

시간·비용 측면

단순 이벤트 소비(로그 적재, ETL 수준)라면 Kafka Consumer + Connect가 더 저렴.
Flink는 러닝커브 + 클러스터 운영비용이 더 크지만, 정확성·확장성·실시간 분석이 필요한 경우 ROI가 커짐.

Flink 도입 러닝커브 vs 장기 효과

Flink는 초반에 학습 곡선이 있지만, 일단 안착하면 운영 리스크가 크게 줄고, 실시간 분석과 확장성 면에서 기업 경쟁력을 보장한다.

구분	초기 러닝커브 (단점)	장기 효과 (장점)
개발	- Window, Watermark, State 등 스트리밍 개념 학습 필요 - 단순 소비/적재만 하는 경우 코드 복잡도 ↑	- 코드에서 retry/재처리/중복제거 로직 불필요 - SQL 기반 개발 가능 → 유지보수 용이
운영	- JobManager/TaskManager, HA, Checkpoint 운영 부담 - Kafka Consumer 대비 초기 구성 복잡	- 장애 복구 자동화 (checkpoint & savepoint) - 확장성 (parallelism 조정으로 스케일 아웃) - 운영 표준화 가능
비용	- 초기 인력 교육/PoC 필요 - 클러스터 운영 비용 존재	- 데이터 품질 문제로 인한 재처리 비용 절감 - 운영 자동화로 인력 비용 절감
확장성	- 단순 이벤트 소비 수준에서는 과한 솔루션으로 보일 수 있음	- 실시간 분석, CEP, AI 연계 등으로 확장 가능 - 기존 Kafka Consumer 코드를 버리지 않고 보강 가능
비즈니스 가치	- 단기간 ROI 불명확 - 의사결정자 설득 필요	- 실시간 이상 탐지, 정확한 분석, 장애 최소화 → 금전적 손실 방지 - 미래 데이터 레이크/AI 아키텍처 기반 마련

참고

Flink Sink별 지연 시간 비교

Sink 종류	예시 시스템	보통 지연 시간 (엔드투엔드)	특징	적합한 용도
오브젝트 스토리지	S3, MinIO, HDFS	1~10초 (체크포인트/commit 단위)	대용량, 저비용, 내구성 우수. 하지만 write/commit 오버헤드가 큼	데이터 레이크, 장기 저장, BI/배치 분석
인메모리 DB/캐시	Redis, Hazelcast, Memcached	1~10ms	메모리 기반 초고속, 쓰기/읽기 모두 빠름. 데이터 유실 위험 있음(디스크 백업 필요)	세션 관리, 실시간 룰 매칭, 임시 결과 저장
OLTP RDBMS	PostgreSQL, Oracle, MySQL, DB2	10~100ms	트랜잭션 보장, 정합성 강함. TPS 제한이 있음	금융 거래 기록, 계정 관리, 핵심 업무 데이터
메시징 시스템	Kafka, Pulsar	<10ms (publish)	다운스트림에서 바로 소비 가능. 내구성 있음.	실시간 이벤트 전달, 알람 시스템, 파이프라인 허브
초저지연 OLAP DB	ClickHouse, Pinot, Druid	50~500ms (쿼리 기준)	컬럼 지향, 빠른 집계/검색. ingest 속도도 빠름	대시보드, 모니터링, 로그/이벤트 분석
직접 API 호출 / 알람	gRPC, REST API → 보안시스템	ms~수십 ms	저장 없이 바로 액션. 내구성 부족, 실패 처리 필요	실시간 이상 탐지, 보안 알람, 거래 차단

Flink 도입 사례

금융: 실시간 이상 거래 탐지 (Flink → Kafka)
제조/반도체: 센서 데이터 이상 탐지 (Flink → 알람/예지보전)
리테일: 장바구니 추천, 가격 변동 알림
게임: 실시간 유저 행동 분석, 치팅 탐지

Jeonghak Cho

khagor

이전 포스트

Flink, 도입 검토

Bigdata

Flink 같은 스트리밍 엔진을 도입하는 이유

하드웨어/전통 방식으로 충분한 경우

Flink를 쓰는 이유

정확한 상태 관리

복잡 이벤트 처리 (CEP)

확장성과 유연성

장애 복구와 운영

Flink가 꼭 필요한 이유

실시간 데이터 처리/분석

상태 기반 스트리밍 (Stateful Streaming)

Exactly-once 보장

배치와 스트리밍 통합

실시간 대시보드 / 알림

Flink CDC 연계

CDC 사용 필요한 상황

CDC를 안 쓰면 발생하는 문제

CDC 없이 Flink 활용가능한 경우

파일 기반 이벤트 처리

메시지 큐 기반

API/스트리밍 소스 직접 연결

배치 + Micro-Batch 하이브리드

데이터 레이크(Lakehouse) 기반

Flink VS 카프카 컨수머 프로그래밍 비교

역할과 범위의 차이

Kafka Consumer 프로그래밍 (단순 소비자 앱)

Flink 스트리밍 애플리케이션

처리 모델

Kafka Consumer

Flink

장애 복구 & 정확성 보장

Kafka Consumer

Flink

확장성 & 운영

Kafka Consumer

Flink

예시 비교

Flink 도입 필요성 - 실시간 분석, 상태 기반 스트림 처리, 이벤트 시간 집계

언제 Kafka Consumer만 써도 되는가

언제 Flink가 필요해지는가

Flink 도입 필요성 - “고가용성(HA) + 확장성(Scalability)” 관점

고가용성 (High Availability)

Kafka Consumer

Flink

확장성 (Scalability)

Kafka Consumer

Flink

운영 효율성

Kafka Consumer

Flink

Kafka Consumer 프레임워크 vs Flink 기능 매핑표

Flink 도입의 어려움

초기 진입 장벽이 높음

“간단히 돌려도 된다”는 경우가 많음

기존 레거시/투자와 충돌

인력/생태계 부족

실시간 처리의 ROI 문제

최근 변화

Flink를 꼭 써야 하는 이유

데이터 정확성과 신뢰성 (Exactly-Once)

확장성 (Elastic Scaling)

운영 비용 절감 (개발·운영 단순화)

실시간 분석 및 의사결정 가능

미래 확장성 (데이터 레이크·AI 연계)

Flink 러닝커브

개발 난이도

Kafka Consumer 직접 개발

Flink

운영 난이도

Kafka Consumer 직접 운영

Flink 운영

팀 역량 요구

생태계 및 툴링

시간·비용 측면

Flink 도입 러닝커브 vs 장기 효과

참고

Flink Sink별 지연 시간 비교

Flink 도입 사례

Lakehouse, Trinio insert 대안