https://colab.research.google.com/drive/1fsRtX_z56gkJqEV7hXcEvi8d1hPje5zL?usp=sharing
머신러닝은 데이터 기반으로 패턴을 학습하고 결과를 예측 분석 (Predictive Analysis)하는 알고리즘 기법을 통칭한다. 일상생활에서 금융 사기 거래 방지, 스팸메일 필터링 같은 응용이 있다.
"머신러닝의 가장 큰 단점 : 데이터에 매우 의존적 - Garbage in, Garbage out"
즉, 고품질의 데이터를 갖추지 못한다면 머신러닝의 결과도 좋을 수 없다.
파이썬 패키지를 설치하려면 Anaconda 이용하는 것이 좋습니다.
Anaconda는 패키지 및 환경 관리 툴을 제공합니다. 이를 사용해 다양한 파이썬 패키지를 설치하고, 프로젝트마다 독립적인 가상 환경을 설정할 수 있다.
이메일을 입력한 뒤 아래와 같이 다운로드 화면을 보여줍니다. 
python
이라는 command을 쓰면 설치 상태를 보여준다. 설치가 완료되면 아래와 같이 보여준다.

또한, 파이썬 버전 확인 커맨드는
python -V
다음, Anaconda.navigator 에 들어가시면 Jupyter Notebook 아이콘을 보실 수 있습니다.

Launch (실행) 을 클릭한 후 콘솔창이 뜨면서 주피터 노트북을 구동하기 위한 서버 프로그램이 실행한다. http://localhost:8888에 접속하면 사용할 수 있습니다.

Anaconda 사용하고 싶지 않다면 Google Colab 사용하실 수 있습니다.
넘파이 모듈 임포트해서 약어로 표현하기
맨 위에 셀 [1] 에
import numpy as np
입력해서 return+shift (맥북 기준) 동시 누르기



range(), zeros(), ones()를 이용arange()는 함수 이름에서 알 수 있듯이 파이썬 표준 함수인 range()와 유사한 기능을 합니다. 쉽게 생각하면 array 를 range()로 표현하는 것입니다. 0 부터 함수 인자 값 1 까지의 값을 순차적으로 ndarray 의 데이터값으로 변환해 줍니다.
변환을 원하는 크기를 함수 인자로 부여하면 됨
reshape() 는 지정된 사이즈로 변경이 불가능하면 오류를 발생
가령 (10,) 데이터를 (4,3) Shape 형태로 변경할 수는 없습니다.

tolist() 메서드를 이용해 리스트 자료형으로 변환 가능

1. 단일 값 추출

ndarray 내의 데이터값도 간단히 수정 가능합니다.

1차원과 2차원 ndarray 에서의 데이터 접근의 차이는 2 차원의 경우 콤마로 (,) 로 분리된 row와 column 위치의 인덱스를 통해 접근하

2. 슬라이싱 (Slicing): 슬라이싱은 연속된 인덱스상의 ndarray를 추출하는 방식입니다. : 기호 사이에 시작 인덱스와
종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스 -1 위치에 있는 데이터의 ndarray를 반환합니다.




p.sort(), ndarray.sort()

name_array = np.array(['John', 'Mike' , 'Sarah', 'Kate', 'Samuel'])
score_array= np.array([78, 95, 84, 98, 88])
sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 Score_array의 인덱스 :', sort_indices_asc)
print('성적 오름차순으로 name_array 의 이름 출력:' , name_array[sort_indices_asc])
결과
성적 오름차순 정렬 시 Score_array의 인덱스 : [0 2 4 1 3]
성적 오름차순으로 name_array 의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']

A = np.array(([1, 2),
[3, 4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬 :1n', transpose_mat)
import pandas as pd
Kaggle에 로그인해서 Titanic - Machine Learning from Disaster 내려받기

titanic.zip 파일 풀어서

TextEdit로 train.csv 를 열어보시면 아래와 같이 보여줍니다.

pd.read_csv()
파일명 인자로 들어온 파일을 로딩해 Dataframe 객체로 반환
head(3) 은 맨 앞 3 개의 로우를 반환합니다 (Default 는 5개).
titanic_df = pd.read_csv('sample_data/train.csv')
titanic_df.head(3)
Dataframe의 크기
print('DataFrame 크기): ', titanic_df.shape)
info(), describe()
titanic_df.info()
titanic_df.describe()
