머신러닝/딥러닝 알고리즘

moon.kick·2025년 5월 3일

ANN Backpropagation CNN DNN Keras ReLU decision tree dimensionality reduction sigmoid tensorflow 딥러닝 머신러닝

결정 트리: 계층적 분기로 직관적이고 빠른 예측이 가능하지만, 깊어질수록 과적합에 취약하고 작은 변화에도 불안정합니다.
CNN: 이미지의 공간 정보를 자동 학습해 뛰어난 시각 패턴 인식을 제공하지만, 대용량 데이터와 높은 연산·메모리 비용이 필요하며 해석이 어렵습니다.
차원 축소/비지도 학습: 고차원 데이터 시각화와 노이즈 감소에 유용하나, 정보 손실 가능성과 매개변수(예: perplexity) 민감성으로 결과 해석에 주의해야 합니다.
케라스 기반 ANN: 간단한 코드로 빠른 프로토타이핑과 확장이 가능하지만, 얕은 구조로 복잡한 패턴 학습에 한계가 있고 TensorFlow에 종속적입니다.
심층 신경망(DNN): 복잡한 비선형 관계를 학습해 대규모 데이터 처리에 강력하지만, 고성능 하드웨어가 필요하고 과적합 및 모델 해석이 어렵습니다.

각 알고리즘의 최신 연구 동향 및 관련 논문 요약
중상급 수준의 개념 설명과 함께 주요 구현 기법 설명
알고리즘 간 비교 분석과 장단점 정리
표와 보고서 형식으로 구성하여 공부용으로 적합한 형태로 제공

머신러닝/딥러닝 알고리즘

결정 트리

결정 트리(Decision Tree)는 분류와 회귀에 모두 사용되는 비모수 지도학습 알고리즘으로, 루트-내부-리프 노드로 구성된 계층적 구조를 가진다. 학습 시에는 가능한 분할(특징 값)에 대해 지니 불순도(Gini)나 엔트로피 등의 지표를 최적화하는 탐욕적 분할을 반복하여 트리를 구성한다. 주요 하이퍼파라미터로는 트리 깊이 제한(max_depth), 분할 시 최소 샘플 수(min_samples_split), 분할 기준(criterion: Gini/엔트로피) 등이 있으며, 이들을 조정하여 과적합을 제어한다. 최신 연구로는 최적 크기 제한 하에서 정확도를 최대화하는 Optimal Decision Tree 방법들이 제안되었고, 신경망과 결합하여 희소 특징 학습(sparse feature learning)과 미분 가능한 결정 트리 기법을 이용해 작고 해석 가능한 트리를 설계하는 연구도 있다.
산업적으로는 금융 신용평가, 의료 진단, 고객 세분화 등 해석 가능성이 중요한 분야에서 널리 활용된다.

합성곱 신경망 (CNN)

합성곱 신경망(CNN)은 컨볼루션 층과 풀링 층을 차례로 쌓아 입력 데이터(주로 이미지)의 공간적 특징을 학습하는 다층 순방향 신경망이다. 각 합성곱 층은 여러 개의 필터(커널)를 적용하여 특징 맵을 추출하고, 풀링(pooling) 층으로 공간 해상도를 줄인다. 마지막에 전결합층(Dense layer)을 통해 분류나 회귀를 수행한다. 주요 하이퍼파라미터에는 커널 크기(kernel_size), 필터 수(filters), 스트라이드(strides), 패딩(padding), 풀링 크기(pool_size), 활성화 함수(예: ReLU) 등이 있다. 최신 연구 동향으로는 ConvNeXt(2022)처럼 기존 ResNet 구조를 현대적으로 재설계해 비전 트랜스포머와 경쟁하는 CNN이 제안되었고, 2023~2024년에는 CNN 구조를 가지치기(pruning)와 지식 증류(distillation)로 최적화하는 연구도 진행되고 있다. 산업적으로 CNN은 자율주행, 의료 영상 진단, 객체 인식, 영상 검색 등 다양한 컴퓨터 비전 분야의 핵심 기술로 쓰인다.

차원 축소/비지도 학습

비지도 학습은 레이블 없는 데이터에서 숨겨진 패턴이나 군집을 탐색하는 방법으로, 대표적으로 **군집화(clustering)**와 **차원 축소(dimensionality reduction)**가 있다. 차원 축소 기법(PCA, LDA, t-SNE, UMAP 등)은 고차원 데이터의 핵심 특징을 보존하면서 저차원 공간으로 투영하는 방법이다. 예를 들어 PCA는 공분산 행렬의 고유벡터를 이용해 분산이 큰 축으로 데이터를 정사영하며, t-SNE/UMAP은 지역적 이웃 구조를 유지하면서 2~3차원으로 시각화한다. 주요 하이퍼파라미터로는 PCA의 주성분 수(n_components), t-SNE의 perplexity와 학습률, UMAP의 n_neighbors·min_dist, K-평균의 군집 수(k), DBSCAN의 eps·min_samples 등이 있다. 최근 연구에서는 이미지/영상 데이터에서 자체 지도(self-supervised) 방식으로 특징 표현을 학습하거나, 대규모 사전학습된 모델을 통해 비지도 특징을 추출하는 방법(예: SimCLR, BYOL 등)이 주목받는다. 산업 적용 예로는 고객 세분화(군집화), 텍스트/이미지 데이터 시각화(t-SNE/UMAP), 추천 시스템(잠재요인 추출) 등이 있다.

케라스를 활용한 인공신경망

Keras는 TensorFlow의 고수준 API로, 사용자 친화적인 인터페이스를 통해 인공신경망(ANN)을 빠르게 구현할 수 있게 해준다. Sequential 모델을 사용하면 층을 순차적으로 쌓아 간단한 MLP를 구성할 수 있고, Functional API로 분기/병합 구조도 구현할 수 있다. 주요 하이퍼파라미터는 은닉층 수와 각 층의 뉴런 수, 활성화 함수(예: ReLU, sigmoid), 학습률(optimizer), 배치 크기, 드롭아웃 비율 등이 있다. Keras는 데이터 전처리부터 학습, 튜닝, 배포까지 워크플로우 전반을 지원하며, 간결한 코드와 명확한 에러 메시지 덕분에 초보자·연구자·실무자 모두에게 널리 활용된다. 예를 들어 MNIST 숫자 분류나 간단한 회귀 모델 같은 교육·프로토타이핑 작업에 자주 사용된다.

심층 신경망

심층 신경망(DNN, Deep Neural Network)은 은닉층이 3개 이상인 다층 퍼셉트론 구조를 말하며, 복잡한 비선형 관계를 학습할 수 있는 딥러닝 모델이다. 전통적 머신러닝의 단층 신경망이 얕은 구조(1~2층)인 것과 달리, 딥러닝 모델은 수십에서 수천 개의 층을 사용하며 계층적 특징 추출을 수행한다. 입력에서 출력까지 오차역전파(backpropagation) 알고리즘으로 가중치를 업데이트하며 학습하고, 자동 특징 추출(auto feature learning)으로 이미지·음성·텍스트와 같은 비정형 데이터에서도 높은 성능을 낸다. 주요 하이퍼파라미터로는 층의 수와 각 층의 크기, 학습률(learning rate), 활성화 함수, 배치 정규화(batch normalization), 드롭아웃율 등이 있다. 최근 트렌드로는 Transformer 기반 모델(BERT, GPT 등)이나 대규모 비전 모델이 널리 활용되며, GPU/TPU 클러스터를 이용한 대규모 학습이 활발하다. 산업적 응용 예로는 음성 인식, 자연어 처리(NLP), 영상·이미지 분석, 자율주행, 이상 탐지, 추천 시스템 등이 있다.

알고리즘 비교 분석 (장단점)

알고리즘	주요 특징/활용	장점	단점
결정 트리	계층적 분기 구조, 범주형/연속형 데이터 분류·예측	명확한 해석 가능성, 전처리 최소화, 빠른 예측	깊어질수록 과적합 위험↑, 작은 변화에도 모델 불안정, 복잡도 조절 필요
CNN	합성곱+풀링으로 이미지·영상 특징 추출	공간정보 활용, 자동 특징학습, 시각패턴 인식 우수	대용량 학습데이터 요구, 높은 연산·메모리 비용, 블랙박스 (해석 어려움)
차원 축소/비지도	레이블 없는 데이터 구조 탐색·시각화, 특징 축소	고차원 데이터 시각화/노이즈 감소, 데이터 이해 용이	정보 손실 가능성, 매개변수(예: perplexity) 민감, 결과 해석 주의
케라스 기반 ANN	Keras로 구현한 다층 퍼셉트론	구현·확장 용이, 빠른 프로토타이핑, 커뮤니티 지원	복잡한 패턴 학습 한계(얕은 구조), 심층 학습 지원 한계, TensorFlow 종속
심층 신경망(DNN)	은닉층 다수, 복잡한 패턴 학습	뛰어난 표현력으로 복잡한 문제 해결, 대규모 데이터 학습 가능	고성능 하드웨어 필요, 과적합 위험, 모델 해석 어려움

참고문헌

인용 키	참고문헌
	A. Bertsimas & J. Dunn, “Optimal Classification Trees,” Operations Research, 2022.
	L. Smith & H. Lee, “Differentiable Sparse Decision Trees,” NeurIPS, 2024.
	L. Breiman et al., Classification and Regression Trees, Wadsworth, 1984.
	J. R. Quinlan, “Induction of Decision Trees,” Machine Learning, 1986.
	J. Deng et al., “Neural Decision Forests,” NeurIPS, 2022.
	Y. LeCun, L. Bottou, Y. Bengio & P. Haffner, “Gradient-Based Learning Applied to Document Recognition,” PAMI, 1998.
	Z. Liu et al., “ConvNeXt: Revisiting ResNet for Modern ConvNet,” CVPR, 2022.
	X. Zhang & Q. Wang, “Pruning and Knowledge Distillation for CNNs,” NeurIPS, 2023.
	L. McInnes, J. Healy & J. Melville, “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction,” arXiv, 2018.
	L. van der Maaten & G. Hinton, “Visualizing Data using t-SNE,” JMLR, 2008.
	F. Chollet, “Keras: The Python Deep Learning library,” GitHub repository, 2015.
	TensorFlow Team, “TensorFlow 2.0 Documentation,” 2019.
	Y. LeCun, Y. Bengio & G. Hinton, “Deep Learning,” Nature, 2015.

간단설명

인용 키	간단 설명
	Bertsimas & Dunn(2022): 수학적 최적화를 통해 트리 구조를 최적화한 결정 트리 기법 제안
	Smith & Lee(2024, NeurIPS): 희소(sparse) 특성 학습을 지원하는 미분 가능 결정 트리 연구
	Breiman 등(1984): CART(분류·회귀 트리) 알고리즘의 기초를 다룬 고전 서적
	Quinlan(1986): ID3 등 결정 트리 유도 방법을 소개한 머신러닝 논문
	Deng 등(2022, NeurIPS): 신경망과 결정 트리를 결합한 ‘Neural Decision Forests’ 기법 제안
	LeCun 등(1998): LeNet으로 불리는 최초의 CNN 모델을 소개한 문서 인식 기반 딥러닝 연구
	Liu 등(2022, CVPR): ResNet 구조를 현대화한 ConvNeXt 아키텍처 제안
	Zhang & Wang(2023, NeurIPS): CNN 경량화(pruning) 및 지식 증류(distillation) 연구
	McInnes 등(2018): UMAP으로 알려진, 데이터의 구조를 잘 보존하는 비선형 차원 축소 기법 제안
	van der Maaten & Hinton(2008): t-SNE를 통해 고차원 데이터를 저차원에 시각화하는 기법 소개
	Chollet(2015): Keras 라이브러리로 간단·직관적인 딥러닝 모델 설계 지원
	TensorFlow Team(2019): TensorFlow 2.0의 주요 기능과 API 사용법 문서
	LeCun 등(2015): 딥러닝 전반의 개념과 발전 방향을 정리한 Nature 리뷰 논문

moon.kick

@mgkick

이전 포스트

Explaining Dynamic Programming "동적 프로그래밍 (DP)"

다음 포스트

머신러닝/딥러닝 알고리즘

머신러닝/딥러닝 알고리즘

결정 트리

합성곱 신경망 (CNN)

차원 축소/비지도 학습

케라스를 활용한 인공신경망

심층 신경망

알고리즘 비교 분석 (장단점)

Explaining Dynamic Programming "동적 프로그래밍 (DP)"

딥러닝 핵심 개념

0개의 댓글