- Numpy: 수치 연산(벡터, 행렬 등)을 빠르고 효율적으로 처리하기 위한 배열 기반 계산 라이브러리
- Pandas: 표(데이터프레임) 형태의 데이터를 다루기 위한 데이터 분석용 라이브러리
엑셀처럼 행과 열을 기반으로 데이터 조작, 필터링, 통계 분석을 수행
- TensorFlow: 딥러닝 모델을 구축·학습·배포하기 위한 머신러닝 프레임워크
수학적 연산 그래프 기반으로 GPU/TPU를 활용해 대규모 연산을 수행
그러면 Tensorflow와 Keras는 어떤 차이가 있는데?
TensorFlow | Keras ------------------------------------------------------------------- 저수준(엔진, 연산) | 고수준(모델 설계, 학습) 수학적 계산, GPU 연산, 자동 미분 | 신경망 설계, 학습 관리, 평가 복잡하고 코드가 김 | 직관적이고 코드가 짧음 tf.GradientTape(), tf.Variable() | Sequential(), Dense(), fit() 엔진(Back-end) | 인터페이스(Front-end, API)
훈련 데이터 (Training Data)
모델이 학습하는 데 사용되는 데이터.
입력값(Input)과 정답(Label, Target)이 모두 주어져 있으며,
모델이 데이터의 패턴, 규칙, 관계를 학습하는 데 사용.
테스트 데이터 (Test Data)
학습 완료된 모델이 새로운 데이터에 대해 얼마나 잘 작동하는지 평가하는 데이터.
모델은 이 데이터를 처음 보는 것처럼 예측을 수행.
지도학습 (Supervised Learning)
입력(Input)과 정답(Label, Target)이 함께 주어지는 데이터를 이용하여 학습하는 방법.
“이 입력에는 이런 결과가 나온다”는 것을 이미 알고 있는 상태에서, 모델이 그 관계를 학습하도록 하는 방식.
비지도학습 (Unsupervised Learning)
입력 데이터만 주어지고 정답(Label,Target)이 없는 데이터를 이용해 학습하는 방법.
“정답이 없는 상황에서 데이터의 구조나 패턴을 스스로 찾아내" 학습하도록 하는 방식.
원시(raw) 텍스트 데이터를 모델이 이해할 수 있는 형태로 정리하는 과정텍스트를 숫자 형태(벡터)로 변환하는 과정이 반드시 필요하다.
- 계산 가능성 확보 (수학적 연산을 위해 텍스트를 숫자로 변환해야 함)
- 의미 표현 가능 (단어 간 유사도를 벡터 공간에서 표현 가능)
- 딥러닝 입력 형태 통일 (신경망의 입력은 반드시 숫자 행렬이어야 함)
Python에서 데이터를 시각화(Visualization)하기 위한 대표적인 그래프 라이브러리.
기본적이면서도 강력한 데이터 시각화 도구로, 선 그래프(line plot), 막대그래프(bar chart), 히스토그램(histogram), 산점도(scatter plot) 등 다양한 형태의 그래프를 그릴 수 있다.