▪ 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술.
▪ 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야.
▪ 인공지능의 하위 분야 중에서 지능을 구현하기 위한 소프트웨어를 담당하는 핵심 분야.
사이킷런: 컴퓨터 과학 분야의 대표적인 머신러닝 라이브러리
▪ 머신러닝 알고리즘 중에 인공 신경망을 기반으로 한 방법들을 통칭하여 부르는 말.
텐서플로: 구글이 공개한 딥러닝 라이브러리
파이토치: 페이스북이 공개한 딥러닝 라이브러리
특성: 데이터의 특징
선형: 점으로 표시한 그래프가 일직선에 가까운 형태로 나타나는 경우
훈련: 모델에 데이터를 전달하여 규칙을 학습하는 과정
▪ 어떤 데이터에 대한 답을 구할 때 주위의 다른 데이터를 보고 다수를 차지하는 것을 정답으로 사용하는 알고리즘.
▪ 데이터가 많은 경우 데이터의 크기가 크고 메모리가 많이 필요하며 직선거리를 계산하는 데도 많은 시간이 필요하기 때문에 사용하기 어려움.
▪ 정확한 답을 몇 개 맞혔는지를 백분율로 나타낸 값.
▪ 사이킷런에서는 0~1사이의 값으로 출력.
정확도 = (정확히 맞힌 개수) / (전체 데이터 개수)
▪ 훈련하기 위한 데이터와 정답이 필요함.
▪ 정답이 있으니 알고리즘이 정답을 맞히는 것을 학습함.
입력: 지도학습에서의 데이터
타깃: 지도학습에서의 정답
훈련 데이터: 입력 + 타깃
<->비지도학습 알고리즘: 타깃 데이터 없음. 입력데이터에서 어떤 특징을 찾는 데 주로 활용함.
훈련 세트: 훈련에 사용되는 데이터, 보통 훈련세트가 클수록 좋음.
테스트 세트: 평가에 사용하는 데이터, 보통 전체데이터에서 20~30% 사용.
▪ 훈련 세트와 테스트 세트에 샘플이 골고루 섞여 있지 않아 샘플링이 한쪽으로 치우침.
▪ 파이썬의 대표적인 배열 라이브러리.
▪ 머신러닝 모델에 훈련 데이터를 주입하기 전에 가공하는 단계.
▪ 훈련 세트의 스케일을 바꾸는 대표적인 방법 중 하나.
▪ 표준점수를 얻으려면 특성의 평균을 빼고 표준편차로 나눔.
▪ 반드시 훈련 세트의 평균과 표준편차로 테스트 세트를 바꿔야 함.
▪ 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능.

- 머신러닝 알고리즘 한 종류로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습 방법은 무엇인가요?
① 지도 학습
② 비지도 학습
③ 차원 축소
④ 강화 학습
답: ① 지도 학습
- 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라고 부르나요?
① 샘플링 오류
② 샘플링 실수
③ 샘플링 편차
④ 샘플링 편향
답: ④ 샘플링 편향
- 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?
① 행: 특성, 열: 샘플
② 행: 샘플, 열: 특성
③ 행: 특성, 열: 타깃
④ 행: 타깃, 열: 특성
답: ② 행: 샘플, 열: 특성
📒혼자 공부하는 머신러닝+딥러닝 책을 참고하여 작성하였습니다.
https://www.hanbit.co.kr/store/books/look.php?p_code=B2002963743