기본 데이터 타입 string(문자열) 복수개의 문자를 순서대로 나열 한 것 문자열은 '(작은따옴표)' 혹은 "(큰따옴표)" 사이에 문자를 넣어서 생성 문자열 자체에 ',"가 있는 경우에는 각각 그 반대의
dictionary 키와 값을 갖는 데이터 구조 키는 내부적으로 hash값으로 저장 순서를 따지지 않음 항목 추가 및 변경 기존에 키가 존재하면, 새로운 값으로 업데이트 존재하지 않으면, 새로운 키, 값 생성 update 두 딕셔너리를 병합
반복적인 작업을 가능하게 해주는 도구특정 조건을 만족하는 경우 수행할 수 있음(while)리스트, 문자열, 튜플 등 컬렉션 타입의 아이템을 하나씩 순회하면서 사용가능(for)코드 작업에서, 가장 많이 사용하는 구문 중 하나while 키워드while 뒤의 조건이 True
HTTP(HyperText Transfer Protocol)HTML 문서 등의 리소스를 전송하는 프로토콜GET 요청: 데이터를 URL에 포함하여 전달(주로 리소스 요청에 사용)POST 요철: 데이터를 Form data에 포함하여 전달(주로 로그인에 사용)HTML(Hyp
뉴스 댓글 개수 크롤링endpoint 찾기(개발자 도구의 network를 활용)id와 password가 전달괴는 form data 찾기session 객체 생성하여 login 진행이후 session 객체로 원하는 페이지로 이동하여 크롤링endpoint 찾기id, pass
numpy 모듈 & ndarray 이해하기 성능 : 파이썬 리스트보다 빠름 메모리 사이즈 : 파이썬 리스트보다 적은 메모리 사용 빌트인 함수 : 선형대수, 통계관련 여러 함수 내장 numpy 모듈 함수 이용 np.array 함수로 생성하기 np.arange 함
인덱싱, 슬라이싱 이해하기 인덱싱 파이썬 리스트와 동일한 개념으로 사용 , 를 사용하여 각 차원의 인덱스 접근 가능 1차원 벡터 인덱싱 2차원 행렬 인덱싱 3차원 텐서 인덱싱 슬라이싱 리스트, 문자열 slicing과 동일한 개념으로 사용 ,를 사용하여 각
axis 이해하기몇몇 함수에는 axis keyword 파라미터가 존재axis값이 없는 경우에는 전체 데이터에 대해 적용axis값이 있는 경우에는, 해당 axis를 따라서 연산 적용용거의 대부분의 연산 함수들이 axis 파라미터를 사용이 경우, 해당 값이 주어졌을 때,
linalg 서브모듈 사용하여 선형대수 연산하기 np.linalg.inv 역행렬을 구할 때 사용 모든 차원의 값이 같아야 함 np.linalg.solve $Ax + y = 25$ $2x + 4y = 64$ $\begin{pmatrix} 1 & 1 \\ 2 &
series 데이터 생성하기 series pandas의 기본 객체 중 하나 numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄 index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우
series 데이터 연산하기 index를 기준으로 연산 산술연산 Series의 경우에도 스칼라와의 연산은 각 원소별로 스칼라와의 연산이 적용 Series와의 연산은 각 인덱스에 맞는 값끼리 연산이 적용 이때, 인덱스의 pair가 맞지 않으면, 결과는 Na
DataFrame 데이터 살펴보기 DataFrame Series가 1차원이라면 DataFrame은 2차원으로 확대된 버전 2차원이기 때문에 인덱스가 row, column으로 구성됨 Data Analysis, Machine Learning에서 data 변형을 위해
csv 데이터로 DataFrame 데이터 생성하기 csv 데이터로 부터 DataFrame 생성 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성 pand
DataFrame Boolean Selection으로 데이터 선택하기 boolean selection으로 row 선택하기 numpy에서와 동일한 방식으로 해당 조건에 맞는 row만 선
DataFrame NaN 데이터 처리 NaN 값 확인 info함수를 통하여 개수 확인 isna함수를 통해 boolean 타입으로 확인 NaN 처리 방법 데이터에서 삭제 dropna 함수 다른 값으로 치환 fillna 함수 NaN 데이터 삭제하기 !
범주형 데이터는 분석단계에서 계산이 어렵기 때문에 숫자형으로 변경이 필요함범주형 데이터는 각 범주를 column레벨로 변경해당 범주에 해당하면 1, 아니면 0으로 채우는 인코딩 기법pandas.get_dummies 함수 사용drop_first : 첫번째 카테고리 값은
dataframe의 형태를 변경인덱스, 컬럼, 데이터로 사용할 컬럼을 명시기능적으로 pivot과 동일pivot과의 차이점중복되는 모호한 값이 있을 경우, aggregation 함수 사용하여 값을 채움stack : 컬럼 레벨에서 인덱스 레벨로 dataframe 변경데이터
기계학습 또는 머신러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다(위키피디아)$$Y = f(X)$$$Y$ : 출력변수(종속변수, 반응변수)$f$ : 모형(머신러닝 알고리즘)$X$ :
입력, 은닉, 출력층으로 구성된 모형으로서 각 층으로 연결하는 노드의 가중치를 업데이트하면서 학습Overfitting이 심하게 일어나고 학습시간이 매우 오래걸림다층의 layer를 통해 복잡한 데이터의 학습이 가능토록 함(graphical representation le
모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로한 분석은 불가능표본(Sample) : 모집단의 일부분의 관측값들모수(Parameter) : 수치로 표현되는 모집단의 특성통계량(S
베르누이 시행실험의 결과의 범주가 2가지인 경우(성공/실패)$X=1$(성공) / $X=0$(실패)$f(x) = p^x(1-p)^{1-x}$예) 앞면이 성공인 동전 던지기이항분포성공확률이 $p$인 베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포$f(x)
수학적 개념이해 - 미분 미분의 개념 평균 변화율 $f(b)-f(a) \over {b-a}$ 순간 변화율 $f^\prime(a) = \lim_{b\to{a}} {f(b)-f(a) \over {b-a}}$ 평균 변화율의 극한 값 b점이 a점
Matrix$$A = \\begin{bmatrix}a{11} & \\cdots & a{1n} \\\\vdots & \\ddots & \\vdots \\a{m1} & \\cdots & a{mn}\\end{bmatrix} = \\begin{bmatrix}a\_{ij}\\e
지도 학습(supervised learning)$Y = f(X)$에 대하여 입력 변수(X)와 출력변수 (Y)의 관계에 대하여 모델링하는것(Y에 대하여 예측 또는 분류하는 문제회귀(regression): 입력변수 X에 대해서 연속형 출력 변수 Y를 예측분류(classif
단순 선형 회귀분석: 변수가 1개인 경우$$\\hat{Y} = \\hat{\\beta}\_0 + \\hat{\\beta}\_1X$$다중 선형 회귀분석: 변수가 여러개인 경우$$\\hat{Y} = \\hat{\\beta}\_0 + \\hat{\\beta}\_1X_1 +
참여하게된 계기 왜 머신러닝과 데이터분석 인가? 강의 후기 앞으로