[TIL] 20.07.16

우주먼지·2020년 7월 17일
0

TIL

목록 보기
4/28

계획한 일

  • velog작성
  • tokenize 공부
  • 정처기 3권 풀기

공부한 것

tokenize 사용

word_tokenize를 사용하여 단어별로 문장을 잘라준다.
잘라진 단어중 의미에 상관없는 불필요한 단어들을 제거해준다.
각 단어의 개수를 세어 내림차순으로 정렬한다.
정렬한 단어들을 원-핫 벡터로 바꿔준다.
이를 이용하여 wordCloud를 그려준다.


노래 gimme gimme를 이용하여 만든 워드클라우드

머신러닝

  1. 비만도 데이터를 이용하여 일단 먼저 분류가 가능하지 시각화를 해서 확인한다.
  2. 그 후, 데이터를 문제와 답으로 분리.
  3. 분리된 데이터 중 일부를 테스트 데이터로 분리.
  4. 모델 생성 및 하이퍼파라미터를 조정.
  5. 훈련데이터를 통해 학습하고 그 결과를 알기 위해서 테스트 데이터를 이용하여 평가한다.

비만도 데이터를 이용하여 키와 몸무게로 비만도를 예측하는 모델을 구축했다.
전체 데이터의 20%를 테스트 데이터로 사용했고, KNN알고리즘을 사용했다. 정확도는 k가 10일때, 93%정도로 최고값이 나왔다.

KNN알고리즘이란 최근접 이웃 알고리즘이다. 이는 정해진 k 값 만큼의 근접한 데이터의 결과를 따르는 것이다. k값이 작을수록 복잡도가 증가하지만, 속도가 빠르다. 반대로 k 값이 커질수록 복잡도는 낮아지지만 연산량이 증가하여 속도가 느려진다.

공간복잡도

  • 프로그램을 실행할때의 메모리의 사용량을 나타내는 것이다.
  • 간단하게 그냥 입력은 O(1), 배열의 입력은 O(n)등으로 나타낸다.

느낌점

  • 아직까지는 내가 아는 내용(배운 내용)이 많아서 시간이 아깝단 생각이 많이 든다.
  • 이렇게 가다간 애매한 상태가 될까봐 걱정이 된다.
  • 정처기 시험만 끝나면 사람들과 스터디를 진행하고 싶다.
  • 목이 아픈데 노트북 거치대를 살까말까 고민된다..
profile
안녕하세요 ㅎㅎ

0개의 댓글