4/4 김영욱 강사님.
AI의 기본 이론
AI 실습을 위한 개발환경의 이해
Orange 3.0
기계에게 '학습(data)' 을 주는 것
math - '알고리즘..= 수학'적인 방법
텍스트로 분석하는 것 = NLP (자연어 처리,natual language process)
-머신러닝의 분류 ..
------Data
first- understand the business Domain 해당되는 영역을 이해
second- understand the business problem 문제를 이해
third - what is the right data, right column and right algorithm
last- combine knowledge with machine learning.
-데이터를 나눠서 생각
학습용 데이터 Train Data set
테스트용 데이터 Test Data set
-Random Split (학습용,테스트용을 섞어주는 것)
Open Data
국가통계포털 KOSIS (https://kosis.kr/index/index.do)
금융- 월간국내카드승인실적 (백억단위)
Kaggle (https://www.kaggle.com/)
---- orange 설치 (orangedatamining.com)
orange data mining (슬로베니아 류블랴나 대학에서 1996년 10월에 만든 오픈소스 무료 도구)
3.0버전부터는 파이썬 생태계와 같이 감.
-Numpy, Scipy, scikit-learn 같은 라이브러리 같이 사용
-전반벅인 UI, QT를 사용해서 개발되어 크로스플랫폼을 지원
linear regression 은 오차,오류가 많은 알고리즘
SVM 의 MSE 는 오차
MAE - (평균,절대,에러)... 절대오차의 합의 평균....=평균오차
Tree 의 CA는 정확도. 1을 기준으로 0.923이면 90%.. 꽤 정확
(training set size 80%로 설정하고 보기)
MAE : 전체 에러의 합계의 평균값. 작게 나오게끔 고민해야 함
RMSE :에러의 총합의 제곱(mse)에 루트를 씌움
R2 : '1'이 나오면 정확하게 일치한다는 뜻. (0.714 = 71.4%)
=====
Neural Network - Deep learning
ICT big data center ( https://kbig.kr/portal/)
교육실습콘텐츠 학습.