[TIL] 20.07.21

우주먼지·2020년 7월 21일
0

TIL

목록 보기
7/28

계획한일

  • 정치기 2권 풀기
  • velog작성
  • 딥러닝 2번째 코드 실행

공부한 것

시그모이드 함수

신경망은 값이 일정하지 않은 값으로 나오지 1과 0으로 나오게 할 수는 없다.
따라서 신경망의 결과를 시그모이드 함수와 같은 비선형 함수를 이용하여 0과 1의 사이의 값으로 출력하게 한다.
신경망으로 출력된 임의의 실수값을 로짓으로 표현한다. 이는 상대적이며, 실제로 표현하려는 값을 로그값으로 나타낸 것이다.

즉, 로짓으로 표현된 신경망의 결과값을 시그모이드와 같은 비선형 함수에 적용하여 0과 1사이의 값으로 나오도록 한다.

시그모이드 함수의 경우 입력의 범위는 무한이나 출력은 0과 1사이의 값을 반환한다. 0.5일때가 중간값이며, 이 이상일 경우 참, 이 이하일 경우 거짓으로 판단한다.

하지만 0.51, 0.99 모두 참으로 판단하는데, 이 때 둘다 실제로는 거짓이면 차후 파라미터를 수정하는 비율이 다르다는 모순이 발생한다.

TF-IDF

문서의 등장한 단어의 개수를 알고자 할 때 사용한다. 즉 단어의 가중치 값을 표현한다.

여기서 TF란 특정 문서(문장)에서 특정 단어가 등장한 횟수를 말하고, IDF란 DF의 역수인데, DF는 특정단어가 등장한 문서(문장)의 개수를 말한다. 여기서 IDF를 구할 때 값이 너무 커지는 것을 방지하기 위해 log를 사용하고, 분모가 0이 되는 것을 방지하기 위해 분모에 1을 더해준다.

따라서 이 식을 정리하면 아래와 같다.

log(n/(1 + df(t))

이 때, TF-IDF는 TF * IDF한 값이다.

선형 회귀

회귀란 다시 돌아오다라는 뜻인데, 여기서 말하는 회귀는 어떤 자료에 대해 어떤 영향을 주더라고 그 데이터들은 전체 평균으로 돌아오려는 특성이 있다는 말이다.

그 중 선형 회귀는 선으로 데이터의 대한 정보를 나타내어 그 값들의 상관관계를 모델링 한 것이다.
즉, 선으로 그려지지 않는 데이터 셋을 이용하여 가장 근접하게 선으로 표현한 것이 선형회귀이다.

하지만 모든 데이터가 선에 근접할 뿐, 선과 일치하지 않는다. 이 때 가장 데이터셋과 근접한 선을 찾기 위한 방법으로 평균제곱오차를 사용한다.

평균제곱오차는 실제값과 예측값사이의 오차를 제곱한 값으로, 작을수록 데이터셋과 비슷한 선을 그린것이다.

느낀점

  • 다른 사람들과 빨리 친해지고 싶은데 내가 못하는 건지 정처기라는 핑계를 대고 있는지 모르겠따....
    다른 사람들은 벌써 스터디도 하고 친하게 지내는거 같은데 나는 아무도 없다...
  • 정처기가 불안하다 하나도 안외워지는거 같아서 불안한데 하기는 싫다.
  • k380은 좋다. ㅎㅎ 받침대는 목은 조금더 편해진거 같은데 카메라 위치가 애매해졌다.
profile
안녕하세요 ㅎㅎ

0개의 댓글