내일인턴 후기

김엣취·2026년 1월 5일

etc.

목록 보기
23/23

인턴십 개요

원라인에이아이에서 데이터 파이프라인 자동화 인턴으로 참여하며, 수작업 중심의 대규모 시계열 금융 데이터 ETL 및 거버넌스 구축을 담당했습니다. 주가 종가 데이터 전처리·라벨링 프로세스를 자동화하여 데이터 품질과 운영 효율을 높이는 데 초점을 맞췄습니다. 이전 경험(Docker, Airflow 등)을 활용해 End-to-End 파이프라인을 설계했습니다.

문제 인식

기존 프로세스는 사람이 직접 주가 종가 데이터를 전처리하고 라벨링해 처리 속도가 느리고 휴먼 에러가 빈번했습니다. 또한 데이터 품질 관리와 라인리지 추적이 불가능해 재현성이 떨어졌습니다. 이러한 문제를 자동화 파이프라인으로 전환해 해결하고자 했습니다.

파이프라인 설계 및 구현

Airflow DAG를 기반으로 데이터 수집 → 정제 → 라벨링 → 품질 검증의 End-to-End 워크플로를 자동화했습니다.
주요 기술 스택은 다음과 같습니다:

구성 요소역할사용 기술
환경 관리컨테이너화Docker
워크플로 오케스트레이션DAG 자동화Airflow
메타데이터 관리카탈로그 구축Datahub
데이터 저장영속성 확보PostgreSQL

Datahub을 도입해 메타데이터 카탈로그를 구축함으로써 파이프라인 상태를 운영 관점에서 실시간 추적할 수 있게 했습니다.

주요 성과와 배운 점

Airflow DAG 설계를 통해 전처리·라벨링 워크플로를 완전 자동화하여 처리 속도를 크게 향상시켰고, 휴먼 에러를 최소화했습니다. Datahub 도입으로 데이터 거버넌스가 강화되어 팀 내 재사용성과 추적성이 개선되었습니다. 이 경험으로 데이터 엔지니어링 실무에서 Airflow와 Datahub의 실전적 활용을 깊이 이해하게 되었습니다.

향후 계획

이번 인턴십을 통해 ETL 자동화 역량을 강화했으며, 이를 바탕으로 분산 시스템과 실시간 데이터 처리 프로젝트에 적용할 계획입니다. 원라인에이아이 팀의 피드백과 멘토링에 깊이 감사드립니다.

0개의 댓글