kNN은 데이터를 분류하고 새로운 데이터 포인트의 카테고리를 결정할 때 K개의 가장 가까운 포인트를 선점하고, 그중 가장 많이 선택된 포인트의 카테고리로 새로운 데이터를 분류하는 방법인데, 거리를 측정할 때 '유클리디안 거리' 계산법을 사용함.예를 들면, k = 3,
의사결정트리는 일련의 분류 규칙을 통해 데이터를 분류, 회귀하는 지도학습 모델 중 하나이다. 특정기준(질문)에 따라 데이터를 구분하는 모델이다. 스무고갤ㄹ 결정트리에서 질문이나 정답을 노드(Node)라고 부르고 맨 처음 분류 기준을 Root Node라고 하고, 중간 분
퍼셉트론은 다수의 신호를 입력으로 받아 하나의 신호를 출력한다.이것은 프랑크 로젠블라트(Frank Rosenblatt)가 1957년에 고안한 알고리즘으로 고대 화석과도 같은 알고리즘이다. 그런데 이것을 지금 우리가 배우는 이유는 퍼셉트론이 신경망(딥러닝)의 기원이 되는
데이콘에서 데이콘 입문하는데 처음으로 나오는 대회(?), 프로젝트이다. 그래서 천천히 해볼려고 한다. 데이콘 링크 : https://dacon.io/competitions/open/235536/overview/description링크를 들어가서 데이터 파일들을
원핫 인코딩은 가변수라고도 하는데, 이것은 사람이 이해할 수 있는 데이터를 컴퓨터에게 주입시키기 위한 가장 기본적인 방법이다. 이 기술은 데이터를 수많은 0과 한개의 1의 값으로 데이터를 구별하는 인코딩이다. 파이썬으로 원핫 인코딩으로 구현하면 다음과 같다.다음과 같이
이제까지 데이터 전처리를 했으니 모델링을 할것이다. 사용하는 모델은 RandomForestRegressor이다. 일단 우리가 예측할 것은 관객수이기 때문에 관객수를 없앤다.그리고 모델을 불러온다.그런다음 이제 피팅 시킨다.그리고 test와 예측을 한다.이것을 제출 파일
데이터의 특성에 따라 선형 회귀(Linear Regression)와 비선형 회귀(non-Linear Regression)으로 나눌 수 있다.선형(왼쪽)와 비선형(오른쪽)둘 이상의 변수 간의 관계를 보여주는 통계적 방법어떤 변수들이 한 변수의 원인이 되는지 분석하는 방법
회귀 분석 둘 이상의 변수 간의 관계를 보여주는 통계적 방법 로지스틱 회귀 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측학고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘 어떤 사건(event)
GPU란 GPU는 Graphics Processing Unit의 약자로, 컴퓨터 그래픽을 처리하는 장치 그래픽 카드를 구성하는 가장 중요한 핵심 요소 모니터의 픽셀들의 RGB 값, 색상, 밝기 정도를 계산 딥러닝에서 왜 GPU? 딥러닝에서는 CPU보단 GPU를 사용을
교차 검증(Cross Validation) 데이터를 여러 부분으로 나누고, 각 부분을 훈련과 데스트 용도로 번갈아 사용하여 모델을 평가하는 방법. 모델의 일반화 성능을 더 정확하게 측정할 수 있다. 교차 검증의 필요성 과적합을 피하면서 파라미터를 튜닝하고 일반적인 모
한국어로는 대규모 언어 모델이고 간단하게 이해하기 위해서는 ChatGPT라고 생각하면 된다.좀 더 나름 그럴싸한 설명으로는 "방대한 양의 데이터를 기반으로 학습하고 자연어 질의에 대해 인간과 비슷한 응답을 만들어내는 AI"이다. 딥러닝 모델의 일종이다. 기본 트랜스포머
한국말로 검색 증강 생성이며, 대규모 언어 모델의 출력을 최적화하여 응답하여 생성하기 전에 학습 데이터 소스 외부의 신뢰할 수 있는 지식 베이스를 참조하도록 하는 프로세스이다. 더 이해하기 쉽게는 "프라이빗 또는 독점 데이터 소스의 정보로 텍스트 생성을 보완하는 기술"
간편한 딥러닝 API를 제공하며 머신러닝 알고리즘을 구현하고 실행하기 위한 확장성이 뛰어난 멀티플랫폼 프로그래밍 인터페이스GPU에서 텐서 조작 및 동적 신경망 구축이 가능한 프레임워크PyTorch는 파이썬의 넘파이 라이브러리처럼 과학 연산을 위한 라이브러리로 공개되었지
머신러닝이나 딥러닝 모델에 예측한 값과 실제 값의 차이를 측정하는 함수이다. 이를 통해 모델의 성능을 평가하고, 모델이 어떤 방향으로 개선되어야 할지 알려주는 역할을 한다. 손실함수의 값을 최소화하는 것이 모델 학습의 목표라고 할 수 있다.예측 값과 실제 값의 차이를
경사하강법이란 경사 하강법은 1차 근삿값 발경용 최적화 알고리즘이다. 기본 개념은 함수의 기울기(경사)를 구하고 경사의 반대 방향으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것이다. (위키 백과 정의) 옵티마이저(Optimizer)의 한 종류이다. 간단하게 los
회귀(Regression)이란 회귀란 과거의 상태로 돌아가는 것으로 알고 있지만 통계학에서는 다른 의미를 가지고 있다. 통계학에서 회귀란, 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관 관계를 모델링하는 기법을 뜻한다.
활성화 함수 퍼셉트론(Perceptron)의 출력값을 결정하는 비선형 함수 입력 신호의 총합을 출력 신호로 변환하는 함수 활성화 함수의 역할 (비선형 함수여야 하는 이유) 입력 신호의 총합이 활성화를 일으키는지를 정하는 역할을 한다. 즉, 앞 뉴런에서 자극이 들어왔을
순전파 (Forward Propagation) Neural Network 모델의 입력층부터 출력층까지 순서대로 변수들을 계산하고 저장하는 것을 의미 입력층에서 시작하여 은닉층을 거쳐 출력층으로 이동하는 동안, 각 뉴런은 가중치와 활성화 함수를 통해 입력값을 변환하고