과거에 비해 python 언어가 많이 좋아졌다.
머신러닝과 딥러닝
머신러닝은 충분히 가능한 과정.
딥러닝은 공부가 필요하고 현 컴퓨터 환경에서 작동되지 않을 수 있다.
깃
깃허브에 대해 알아보기(필수 교양)
녹색이 많다는 것 잔디관리라고 부린다. 무언갈 많이 했다는 뜻이다.자신의 학습 역사를 깃허브에 정리하길 권유하심.
머신러닝 분류
세 가지 주제
1. Data Mining(1.감소세)
2. machine learning(현재 상승세)
3. Big data(2.성공요인, 클라우드)
머신러닝 분야
1. 리서치 영역
2. 엔지니어링 영역(코드)
AI
AI는 1950년 존 메카시가 만든 단어로 시작되었다.
이때 당시 인공지능은 사람 비슷하게 동작하는가?
-> 지금 전기밥솥처럼 시간에 맞춰서 작동하는 모든 기계
인공지능에 대한 기대치가 낮았던 시대
1980년 컴퓨터 사양의 발달
기계한테 학습을 시키는 머신러닝이 등장
기계에게 데이터를 주고 분석하게 한다.
컴퓨터는 데이터를 수학으로 분석한다.
알고리즘
데이터 종류, 문제에 따라 수학 방법이 달라지는 것
이때부터 AI 기대치가 상승하기 시작, 수학으로 풀 수 없는 수준.
딥러닝
수학이 아닌 사람의 뇌구조처럼 스스로 문제를 학습하게 해보자
AI>머신러닝>딥러닝
GPU가 중요하게 작용한다.
챗봇
텍스트 분석를 분석해서 컴퓨터가 자연어로 처리(NLP)
그리고 봇한테 학습을 시키고 대답하게 한다.
알파고 머신러닝
1:N 싸움.
광케이블로 영국에 연결되어 있었다
데이터 센터에 가까운 웹.
하지만 3번째 판에 이세돌이 이김.
그러나 여기서 끝이 아니라 학습한 내용에서 계속해서 강화 학습을 함.
머신러닝이란?
인간이 개발한 알고리즘을 컴퓨터 언어를 통해 기계에게 학습 시키는 행위.
X를 넣으면 f(x)가 나오는 것
머신러닝>머신 Learned>컴퓨터 언어(데이터)>the perform the algorithm>create bt human
데이터를 많이 주고 데이터의 계산과정(문제)을 AI가 찾는 것.
코딩은 반대로 사람이 찾아서 기계에한테 알려주는 것
모델은 문제(데이터)를 이 알고리즘으로 풀었더니 답이 나왔다
관련 직업구분
데이터 사인언티스트
데이터 엔지니어
머신러닝 알고리즘
머신러닝 버블 차트
언 슈퍼바이즈 러닝 머신러능 슈버바이즈 러닝
리 인포스먼트 러닝.
각각 하위구조를 가지고 있음.
Supervised Learning 지도학습
문제와 정답 제공: Feature & Label
Label을 어떻게 주는가? 중요하다
예측, 추정, 분류
Regression
Forecast
Classification: 분류
고양이 (라벨)사진(퓨처) 만장, 강아지 사진 만장. 새로운 사진을 넣어서 퍼센트로 분류.
Regression 회귀
키에 따른 신발 사이즈
시간에 따른 커피 소비량
햇빛 노출 시간과 주근깨 개수
달 위상에 따른 주요 도시의 범죄 소
기온과 인터넷 쇼핑 장바구니 물품 수
Unsupervised Learning 비지도 학습
문제만 제공
Anomaly 카드사에서 많이 사용
카드사에서 결제가 안돼서 연락이 오는 경우.
평균 소비 금액이 넘어가면 거래를 중단시키고 콜센터에서 확인하게끔. 금융사기방지를 위해.
-> 이상징후 감지
트럼프 대통령 당선 전에 가짜뉴스를 굉장히 많이 배포함. 노이즈가 많이 발생하면 사람들은 자신들이 믿고 싶은 것만 믿음.
트럼프와 친한 미디어를 통해 가짜뉴스 배포.
그렇지 않은 미디어 경우 일반적인 기사.
트럼프와 친한 미디어 경우 가짜뉴스로 간주하고 포털에서 원천적으로 막아버림.
Clustering 군집
1. 데이터들이 있다(Raw Data)
-데이터들 사이에 완벽하게 나누어지는 선을 그어본다.
-각 지점 대표 데이터들을 뽑아서 주변을 묶는다
2. 알고리즘
3. Automated Clusters -그룹핑하는 것
4. Manual Review
5. Production
Reinforcement Learning 강화학습
강화학습은 게임에서 많이 쓰임
스타크래프트2 경우 외부에서 조작할 수 있게끔 API가 열려있음. 강화학습이 가능.
점수가 많이 쌓이는 쪽으로 점점 더 학습시키는 것
보상이 제공(Reward)
인과관계가 중요
게임(알파고), 로봇
알고리즘 순위
1위: Regression
2위: Decision Trees/Rules
등등
머신러닝 작업할 때 몇가지 순서
1. Understand the Business Domain
2. Understand the Business Problem
3. What is the Right Date, Right Column and Right Algorithm
4. Combine Knowledge With Machine Learning
Data
근속연수에 따른 연봉
y=Wx + b
y=연봉
x=근속년수
w=상승율
b=시작점
X에 대한 콜롬이 하나, y에 대한 콜림 하나
콜롬이 늘어나면 차원이 늘어난다.
X: 결과물에 영향을 미치는 요소: Feature
Y: 알고싶은 것: Label
Train Dataset, Train Label
Test Dataset, Test Label
데이터가 쪼개진다.
Random Splits
학습을 할 때 T,F 섞여있음
테스트 할 때 F만 나온다.
-> 정확하지 않은 데이터
데이터를 잘 섞어주는 것.
Open Data
공개되어있는 데이터
Ex) 국가통계포털, Kaggle 사이트
GPL 공개 소프트웨어 라이센스
CSV
데이터들이 대부분 CSV 파일로 되어있다. 데이터를 전부 , 로 구별해놓는 것. 밸류를 콤마로 값을 잘랐다.
TSV
탭키로 구분
주요기능
Data: 데이터 입력, 데이터 필터링, 샘플링 및 대치, 조작 등의 기능
Visualization: 박스 플롯, 히스토그램, 산점도 및 다변수 시각화를 위한 위젯 제공
Evaluate: 모델 평가를 위한 위젯 제공
Unsupervised:
MAE: Mean 평균 A 절대값 E 에러 (에러들의 평균 오차 값)
생소한 영어 단어들이 계속해서 나와 의미를 파악하고 이해하는데 어려움이 있었다.
✏️ 어떻게 해결을 했는가?
일단 수업을 들으면서 내용을 기록하고 내일 제공되는 PPT를 천천히 읽어보면서 의미를 파악해야겠다.
✏️ 이렇게 이해를 했다
✏️ 어디까지 이해했지?
AI의 역사, 알고리즘의 의미, AI와 머신러닝과 딥러닝의 관계, 챗봇의 의미, 머신러닝의 의미, Superbised Learning(지도학습)과 Unsupervised Learning(비지도 학습), Reinforcement Learning(강화학습), Orange Data Mining 사용법
✏️ 다음에 시도해볼 방법
AI 기본 개념에 대해 알 수 있어서 생각보다 가까운 기술이라는 생각이 들었다. 생소한 영어단어가 많아서 학습내용이 많게 느껴졌는데 내가 하루하루 배운 학습내용의 단어들을 모아 의미를 파악하고 이해하는 시간을 가져야겠다. 지금 처음이라 조금 더 힘든 것 같지만 시간이 지나면 많은 것을 더 빨리 이해할 수 있을 것 같다.