출처: https://snepbnt.tistory.com/570
(1) distinct는 sql에서 select 시 출력되는 row들의 중복값을 제거한 나머지 값들을 출력한다.
(2) unique는 create table 시 사용되며, table 내 unique가 적용된 특정 컬럼의 중복값이 insert되지 않도록 설정하는 것이다. 설정 컬럼에서 중복값이 들어갈 경우 error message 등장.
(1) 의미: 클러스터링 결과를 시각화
출처: https://blog.naver.com/breezehome50/222374389827
(1) 그래프 보는 법
pandas Profiling Report만 보아도 알 수 있듯이, 다양한 수치들을 출력할 수 있으므로 통계학 기초를 수강할 필요가 있음 - Coursera 참고
(2) 범주형 자료와 수치형 자료의 차이점 확인할 것!
(1) KDE
(2) scaling
(3) violinplot
: 하얀색 점이 중간값임
-- 참고
Apache OpenNLP
Scala libraries