[AI] 2022-04-04 기본 이론

경희·2022년 4월 13일
0

대구AI스쿨-개발일지

목록 보기
12/12

머신러닝?

머신러닝>>>딥러닝

ai
1950년대부터 시작

인공지능에 대한 과거의 기대치는 낮음
(자동화=인공지능이라 생각하던 시기)

1980년대부터 ~2000년 발전
1970년 기계한테 학습을 시키는 머신러닝
(수학으로 data분석)

mlp - 텍스트를 분석

데이터를 어떤 알고리즘으로 문제를?
모델

머신러닝 알고리즘 종류
참고. 머신러닝 버블차트

supervised learning(지도학습, 감독학습은 잘 사용하지 않음)
문제와 정답 제공
-feature & label
:문제와 답을 알려주고 지도 학습
예측,추정, 분류
-regression(회귀), forecast, classification(분류)
: 크게는 re와 cl로 나눔
: 회귀 ? 키에 따른 신발 사이즈, 시간에 따른 커피 소비량, 햇빛 노출 시간과 주근깨 개수, 달 위상에 따른 주요 도시의 범죄 수, 기온과 인터넷 쇼핑 장바구니 물품 수

unsupervised learning(비지도학습)
문제만 제공 feature
*데이터만 주고 답을 안 준다는 특징
패턴,구조 발견 anomaly
(카드사 사용 많음- 카드 결제가 이루어지지 않아 카드사에 연락이 왔다 또는 평균 3만원 쓰는 사람의 인계치가 넘어가는 많은 돈을 사용하면 거래 중단과 콜센터 확인::이상징후감지)
clustering(군집)
원천데이터, raw data 를 알고리즘에 의하여 그룹화
3.reinforcement learning(강화학습)
사람은 강화학습의 효과가 적음
게임에 많이 사용 :게임(알파고), 로봇
보상(reward)제공, 보상에 대한 인과관계가 중요

<오픈데이타>
kaggle, orange data mining


Orange Data Mining
GPL라이선스 = 오픈소스
NumPy, Scipy 및 scikit-lern 같은 라이브러리 함께 사용
전반적인 UI는 QT를 사용해서 개발되어 크로스플랫폼 지원 (맥-윈도우의 차이 최소화)

supervised 감독, 지도학습
unsupervised 비지도학습


csv
data 대부분 csv 구성
예. 걸그룹
오마이걸, 승희
미스에이, 수지
data를 ,로 구분(표현)하여 가볍게 표현하기 위하여 사용
꼭 , 가 아닌 tab키로 구분도 가능 (=tsv)

타이타닉 승객의 생존에 관한 데이터
2201개의 데이터, 4가지의 컬럼
3 feature (status, age, sex)

data를 확인하여 분석
-지도학습 supervised
산 사람 vs 죽은 사람 구분
-분류학습 classification algorithm

visualize - 데이터 시각화

기준 survived
status 4항목 crew, first, second, third
생존 yes
사망 no

model 알고리즘 -> tree로 학습
evaluate -> predictions 예측
: 학습결과물만 넘어간다. model을 예측
(자료 시각화를 위하여 data는 별도로 연결 필요)

tree 지표
random forest 지표
두 지표가 동일한 경우 정확한 data여부 확인이 필요

0개의 댓글