ML 시스템은 입력을 결합하여 이전에 본 적 없는 데이터를 적절히 예측하는 방법을 학습한다.1) 라벨(Label) : 예측하는 실제 항목(y), 기본 선형 회귀의 y변수를 의미한다.2) 특성(feature) : 데이터를 설명하는 입력 변수($$x{i}$$), 기본 선형
오랫동안 귀뚜라미는 시원날 날보다 더운 날 더 자주 우는 것으로 알려져 왔다. 전문가 및 아마추어 곤충 학자들이 수십 년에 걸쳐서 1분당 귀뚜라미가 우는 횟수와 온도에 관한 데이터를 목록으로 작성했다. 고모가 생일 선물로 두 특성의 관계를 예측하는 모델을 학습시켜 보라
다음 그림은 머신러닝 알고리즘이 모델을 학습하는 데 사용하는 반복적인 시행착오 과정을 보여준다.반복 전략은 주로 대규모 데이터 세트에 적용하기 용이하여 머신러닝에서 널리 사용되고 있다.이 '모델'은 하나 이상의 특성을 입력하여 하나의 예측(y')을 출력한다. 쉬운 이해
다음 그림은 텐서플로우 도구함의 현재 계층 구조를 보여준다.다음 표에는 여러 레이어의 목적이 요약되어 있다.|도구함|설명|\|------\|---\||tf.estimator|높은 수준의 OOP API||tf.layers/ tf.losses/ tf.metrics|일반 모
흔히 Overfitting이 일어난 모델이라고 불리는 과적합 모델은 학습하는 동안 손실이 적지만 새로운 데이터를 잘 예측하지 못한다. 필요 이상으로 복잡한 모델을 만들면 과적합(Overfitting)이 발생하게 되며 머신 러닝의 근본적인 과제는 데이터 적합도를 유지하는
이전 모듈에서는 데이터 세트를 학습 세트와 테스트 세트로 분리하는 방법을 소개했다. 이러한 분리를 통해 예제 세트 하나로는 학습을 수행하고, 다른 예제 세트로는 모델 테스트를 수행할 수 있었으며, 두 개의 분할을 사용하는 워크플로우의 예는 다음과 같다.그림 1. 가능한
그림 1의 왼쪽 부분은 입력 데이터 소스의 원시 데이터이고 오른쪽 부분은 특성 벡터, 즉 데이터 세트의 예로 구성된 부동 소수점 값의 집합이다. 특성 추출이란 원시 데이터를 특성 벡터로 변환하는 과정이다. 특성 추출에는 일반적으로 상당한 시간이 소요된다.여러 머신러닝
(1) 특성 교차(Feature Crosses)특성 교차는 두 개 이상의 입력 특성을 곱하여 특성 공간에서 비선형성을 인코딩하는 합성 특성이다. 교차라는 용어는 교차 곱에서 따온 것으로 $$x{1}$$과 $$x{2}$$를 교차하여 이라는 특성 교차를 만들어 보겠다.$$
다음에 제시된 일반화 곡선은 학습 반복 횟수에 대해 학습 세트와 검증 세트의 손실을 보여준다.그림 1. 학습 세트와 검증 세트에서의 손실그림 1은 학습 손실은 점차 감소하지만 검증 손실은 결국 증가하는 모델을 보여준다. 즉, 이 일반화 곡선은 모델이 학습 세트의 데이터
많은 문제에 확률 추정치가 출력으로 필요하다. 로지스틱 회귀는 매우 효율적인 확률 계산 메커니즘이다. 실제로 반환된 확률을 다음 두 방법 중 하나로 사용할 수 있다.'있는 그대로'이진 카테고리로 변환확률을 '있는 그대로' 사용하는 방법을 살펴보겠다. 한밤중에 개가 짖는
로지스틱 회귀는 확률을 반환한다. 반환된 확률을 '있는 그대로' 사용하거나(예: 사용자가 이 광고를 클릭할 확률은 0.00023임) 이진 값으로 변환하여(예: 이 이메일은 스팸임) 사용할 수 있다.로지스틱 회귀 모형에서 특정 이메일에 관해 0.9995가 반환되면 이 이
희소 벡터는 종종 많은 차원을 포함합니다. 특성 교차를 생성하면 더 많은 차원이 발생한다. 이러한 고차원 특성 벡터가 주어지면 모델 크기가 커질 수 있으며 엄청난 양의 RAM이 필요하다.가능하다면 고차원의 희소 벡터에서는 가중치가 정확하게 0으로 떨어지도록 유도하는 것
일대다는 이진 분류 활용 방법을 제공한다. 가능한 솔루션이 N개인 분류 문제의 경우 일대다 솔루션은 가능한 각 결과에 하나씩 N개의 이진 분류자로 구성된다. 학습하는 동안 모델은 일련의 이진 분류자를 통해 실행되며 별도의 분류 문제에 답하기 위해 각 분류자를 학습한다.
다음의 데이터셋은 선형 모델로는 해결할 수 없다. Neural Network가 비선형 문제를 해결하는데 어떻게 도움이 되는지 알아보기 위해 선형 모델을 그래프로 나타내 보겠다.신경망은 선형 모델에서 중간값의 히든 레이어를 추가함으로써 출력을 여전히 선형으로 유지하면서도
협업 필터링은 다른 여러 사용자의 관심분야를 바탕으로 특정 사용자의 관심분야를 예측하는 작업이다. 예를 들어 영화 추천 작업을 살펴보겠다. 1,000,000명의 사용자와 500,000편의 영화 중 각 사용자가 본 영화의 목록이 있다고 가정하고 사용자에게 영화를 추천하는