📚 NumPy 개요 >Numpy(Numerial Python)는 대규모 다차원 배열과 행렬 연산에 있어 상당한 편의성을 제공하는 python module이다. 또한, Pandas와 Matplotlib의 기반이 되는 module이며 Machine Learning,
📚 ndarray indexing과 slicing ndarray indexing과 slicing 위와 같이 indexing을 할 경우 기본 Python의 list와 똑같이 실행된다. 그러나 slicing의 경우 Python의 list는 slicing을 할 때
Numpy가 과학 계산에 초점을 맞추고 있다면 Pandas는 편리한 데이터 처리와 분석 작업을 위해 많은 기능을 제공하는 Python module이다.Pandas는 고유하게 정의한 Series와 DataFrame이라는 자료구조를 사용한다.Series : 동일한 데이터
일반적으로 사용하는 데이터 파일의 형식1\. CSV 파일 (.csv) - Comma Seperated Value장점 : 부가적인 데이터가 적게 들어가고, 상대적으로 사이즈가 큰 데이터를 표현하기에 적합하다.단점 : 데이터를 해석하거나 사용하는데 어려움이 있고, 유지보수
auto-mpg.csv 파일을 사용하여 다양한 함수를 알아보자.head()DataFrame의 상위 5개의 row를 가져와서 DataFrame으로 생성한다. 이때 인자로 숫자를 사용할 수도 있다.tailDataFrame의 하위 5개의 row를 가져와서 DataFrame으
📚 Data Preprocessing >데이터 분석 및 머신러닝의 정확도는 분석 데이터의 품질에 좌우된다. 데이터 품질을 높이기 위해서는 누락데이터(결측치), 비정상데이터(이상치), 중복데이터 등의 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필수인데, 이를
이상치란?이상치는 일반적인 데이터 값과 편차가 큰 값 (전체 데이터 패턴에서 동떨어진 값) 들을 말한다.이러한 이상치를 학습 전에 처리하는 과정을 거치지 않으면 데이터에 왜곡이 발생해 원하는 결과를 도출하지 못할 수 있기 때문에 이상치를 처리하는 과정은 필수적이다.이상
정규화는 왜 해야할까?특성(Feature) 스케일 조정 : 서로 다른 스케일을 가진 특성들이 있을 경우, 학습 알고리즘은 스케일이 큰 특성에 더 많은 중요도를 부여할 수 있다. 정규화를 통해 모든 특성을 동일한 스케일로 조정함으로써 이러한 불균형을 해소할 수 있다.학습
📚 수치 미분 (Numerical Derivative) >정의 어떤 함수의 정의역 속 각 점에서 독립변수의 변화량과 함수값의 변화량의 비율. 그 비율의 극한 혹은 극한의 집합으로 치역이 구성되는 새로운 함수. 미분은 크게 두가지로 나눌 수 있다. 해석 미분
개요 처음에 손수 직선 그래프 그리면서 회귀 개념 설명 처음으로 손수 regression 구현한거 설명 loss랑 경사하강법 (편미분이랑 엮어서) regression flow 간략하게 오존 데이터로 학습한거 sklearn과 비교 python sklearn
📚 Simple Linear Regression 구현 (Tensorflow) 이전에 파이썬으로 구현해보았다. 이번엔 모든 전처리를 한후, tensorflow로 구현한 뒤, sklearn이랑 바교해보자기 파이썬 글 쓴거랑 똑같이 하는데 결측치, 이상치, 정규화 싹
📚 K-최근접 이웃 알고리즘 (K-NN)
📚 Multiple Linear Regression
📚 Logistic Regression
📚 Simple Logistic Regression 저번 글에서 다룬 Simple Logistic Regression을 Winsconsin Breast Cancer Data Set을 이용하여 구현해보자. 이번에도 sklearn과 tensorflow를 사용하여 구현
우리는 Model을 구현한 다음 당연히 성능 평가를 진행해야한다.먼저, 우리가 가지고 있는 Training Data Set을 어떻게 이용해서 성능 평가를 진행해야 하는가에 대해서 알아보자.우선 Evaluation을 할 때 기억해야 하는 점은 Training Data S
Multinomial Classification?Multinomial Classification은 여러 개의 분류 중 어떤 분류에 속하는지를 예측하는 분류기법이다.2차 평면을 가정하고 Logistic Regression(Binary Classification)이 하는
저번 글에서 다룬 Multinomial Classification을 Iris Data Set을 이용하여 구현해보자. 이번에도 sklearn과 tensorflow를 사용하여 구현하고, classification_report 함수 (평가 함수)를 사용하여 검증까지 해보자.
Anaconda는 Python Data Science Platform 중 가장 유명한 Platform이다. 가상환경 생성 및 데이터 분석에 필요한 여러 라이브러리들을 편하게 설치, 사용할 수 있는 환경을 제공한다.Jupyter Notebook(Jupyter Lab)은
현재 사용하는 주요 라이브러리들 버전을 정리하면 다음과 같습니다.WSL2 기반의 Ubuntu : 22.04python : 3.10.16CUDA : 12.3cuDNN : 8.9Tensorflow : 2.16.2Numpy : 1.26.4pandas : 2.2.2matplo
Computer Vision이란 정의를 내리긴 힘들지만 대략적으로 다음의 의미를 가진다.컴퓨터 비전(Computer Vision)은이미지나 동영상 같은 시각 정보를 컴퓨터가 해석하고 이해할 수 있도록 하는 컴퓨터 분야이다.즉, 사람의 눈처럼, 컴퓨터가 이미지를 보고 이
Convnet(컨브넷)이라고 불리는 Convolutional Neural Network(CNN-합성곱 신경망)을 설명하기에 앞서 두가지 용어부터 정리하자.✅ DNN(Deep Neural Network)DNN은 여러개의 은닉층(hidden layer)을 가진 인공 신경망