[혼공단 6기]혼공머신 1주차

Enter·2021년 7월 11일
0

혼공단 6기

목록 보기
1/6

📖Chapter 01

📌인공지능

▪ 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술.


📌머신러닝

▪ 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야.
▪ 인공지능의 하위 분야 중에서 지능을 구현하기 위한 소프트웨어를 담당하는 핵심 분야.

사이킷런: 컴퓨터 과학 분야의 대표적인 머신러닝 라이브러리


📌딥러닝

▪ 머신러닝 알고리즘 중에 인공 신경망을 기반으로 한 방법들을 통칭하여 부르는 말.

텐서플로: 구글이 공개한 딥러닝 라이브러리
파이토치: 페이스북이 공개한 딥러닝 라이브러리


📌데이터 준비

특성: 데이터의 특징
선형: 점으로 표시한 그래프가 일직선에 가까운 형태로 나타나는 경우
훈련: 모델에 데이터를 전달하여 규칙을 학습하는 과정


📌k-최근접 이웃 알고리즘

▪ 어떤 데이터에 대한 답을 구할 때 주위의 다른 데이터를 보고 다수를 차지하는 것을 정답으로 사용하는 알고리즘.
▪ 데이터가 많은 경우 데이터의 크기가 크고 메모리가 많이 필요하며 직선거리를 계산하는 데도 많은 시간이 필요하기 때문에 사용하기 어려움.


📌정확도

▪ 정확한 답을 몇 개 맞혔는지를 백분율로 나타낸 값.
▪ 사이킷런에서는 0~1사이의 값으로 출력.

정확도 = (정확히 맞힌 개수) / (전체 데이터 개수)


📖Chapter 02

📌지도학습 알고리즘

▪ 훈련하기 위한 데이터와 정답이 필요함.
▪ 정답이 있으니 알고리즘이 정답을 맞히는 것을 학습함.

입력: 지도학습에서의 데이터
타깃: 지도학습에서의 정답
훈련 데이터: 입력 + 타깃

<->비지도학습 알고리즘: 타깃 데이터 없음. 입력데이터에서 어떤 특징을 찾는 데 주로 활용함.


📌훈련 세트, 테스트 세트

훈련 세트: 훈련에 사용되는 데이터, 보통 훈련세트가 클수록 좋음.
테스트 세트: 평가에 사용하는 데이터, 보통 전체데이터에서 20~30% 사용.


📌샘플링 편향

▪ 훈련 세트와 테스트 세트에 샘플이 골고루 섞여 있지 않아 샘플링이 한쪽으로 치우침.


📌넘파이

▪ 파이썬의 대표적인 배열 라이브러리.


📌데이터 전처리

▪ 머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계.


📌표준점수

▪ 훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나.
▪ 표준점수를 얻으려면 특성의 평균을 빼고 표준편차로 나눔.
▪ 반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 함.


📌브로드캐스팅

▪ 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능.



💡기본미션: 코랩 실습 화면 인증샷

💡선택미션: Ch.02-1 확인 문제 풀고 인증샷

✅확인문제

  1. 머신러닝 알고리즘 한 종류로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습 방법은 무엇인가요?
    ① 지도 학습
    ② 비지도 학습
    ③ 차원 축소
    ④ 강화 학습

답: ① 지도 학습

  1. 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라고 부르나요?
    ① 샘플링 오류
    ② 샘플링 실수
    ③ 샘플링 편차
    ④ 샘플링 편향

답: ④ 샘플링 편향

  1. 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?
    ① 행: 특성, 열: 샘플
    ② 행: 샘플, 열: 특성
    ③ 행: 특성, 열: 타깃
    ④ 행: 타깃, 열: 특성

답: ② 행: 샘플, 열: 특성


📒혼자 공부하는 머신러닝+딥러닝 책을 참고하여 작성하였습니다.

https://www.hanbit.co.kr/store/books/look.php?p_code=B2002963743

profile
Cherish the moment :)

0개의 댓글