비지도 학습
굉장히 중요한 컨셉인 것 같다 종국에는 이 방향으로 나가게 되는 것은 아닐까?
클러스터링 : DBSCAN
클러스터링 기법도 엄청 다양한 것 같다. 직접 모델을 사용할 경우는 적겠지만, 데이터셋을 제작할 경우에 유용하게 사용될 수 있을 것 같다.
차원축소 : PCA
- 데이터 분포의 주성분(데이터의 분산이 가장 큰 방향벡터)을 탐색한다.
- 서로 직교Orthogonal하는 기저Basis들을 찾아 고차원 공간을 저차원 공간으로 사영Projection
- 기존의 feature를 선형 결함linear combination하는 방식
이전에 접해본 경험이 있는데 요새도 여러 자료에서 자주 확인할 수 있다.
다만 사람이 확인하기 어려운 데이터 표현에 어떤 의미가 있는지? 잘 알고 싶은 마음
차원축소(2) : T-SNE
T-stochastic Neighbor Embedding
- 고차원 -> 저차원 정보로 압축 : 많은 임베딩 기술 중에 하나로 볼 수 있을까?
- google에서 제공하는 시각화 자료가 엄청 탐나보임... 기술에서도 역시 시각화가 중요함을 다시 느꼈다.
'PCA는 데이터가 가진 교유한 물리적 정보량을 보존하는데 주력하지만, T-SNE는 교유한 물리적 정보량 보다 데이터들 간의 상대적 거리를 보존하는데 주력함'
실제 정보가 얼마나 담겨있느냐 보다, 인식하기 얼마나 편한가?에 초점이 맞춰져 있는 것 같다
새롭게 알게 된 것들
PCA, T-SNE
두 가지 개념을 비교하면서 볼 수 있어서 더 이해에 도움이 된 것 같다.
- 모델의 성능이 기계에 초점 맞춰져 있는것이 아니라 사람의 인식 적인 부분이 충분이 내포되어있어야한다는 점이 흥미로웠다.(결국 인간이 사용할 기술이기 떄문에)
- 인공지능이 인간을 지배하는 미래는 인간이 스스로 선택하지 않는 한 오지 않을 것 같다는 예감이 든다
한 주의 회고
- 훨씬 상세한 내용의 노드를 배우고 있다는 느낌이 든다 내가 알고 있던 것들과 맞춰지는 느낌이 들어 묘했다
- 특정 개념에 대해 좀더 깊이 들어가고 싶은 마음이 있지만, 시간이 한정되어있어 넘어가야한다는 것이 아쉽다(그럼 나머지공부를하ㅁ)
다음 주의 다짐
- 기록을 정리할 효율적인 방법을 찾아보자 블로그에 정리하려니, 무언가 몸에 맞지 않는 옷 같다
- GIt을 좀더 활용해서 작업 환경을 개선해 보자 -> colab 같은 클라우드 환경과 조합하면 쓸만할 것 같은데
- 자료 조사를 좀더 빠르게 요약하는 연습