Colab 단축기 코드 실행 : Shift + Enter 새 코드 셀 추가 : Command + M + A 코드 셀 삭제 : Command + M + D 실행 취소 : Command + M +Z 코드 셀 분할 : Command + M + 하이픈(-) 셀 유형 변경 :
리스트 가장 자주 사용되는 데이터 구조 중 하나로 가변한 시퀀스 자료형 대괄호[ ]를 사용하여 만들 수 있음 메서드 (외울 필요는 없음, append 정도만) append() : 리스트에 항목 추가 extend() : 리스트에 다른 리스트의 모든 항목 추가 insert
조건문 특정 조건이 참인 경우에만 특정 코드 블록을 실행하도록 함 들여쓰기와 띄어쓰기가 중요! : 같음 (변수 선언할 때 =을 쓰기 때문) 반복문 코드를 일정 규칙에 따라 반복시키는 문법 for문 반복할_데이터 : 리스트, 튜플, 문자열 등과 같은 반복 가능한
함수 입력을 받아 원하는 처리를 한 후 출력을 내보내는 일련의 작업을 수행하는 코드 블록 def 키워드를 사용하여 함수 정의 함수 이름 뒤에 소괄호 안에 매개변수(입력 값)를 정의 return을 사용하여 결과값 반환 함수 심화 변수 전역변수 (Global Vari
Q1. 정수 num1과 num2가 주어질 때, num1에서 num2를 뺀 값을 return하도록 soltuion 함수를 완성해주세요. Q2. 정수 num1, num2가 매개변수 주어집니다. num1과 num2를 곱한 값을 return 하도록 solution 함수를 완
파일 파일 불러오기 파일 불러오는 함수 구글 코랩 파일 저장하기 패키지(라이브러리) 여러개의 모듈(함수)을 포함하는 디렉토리(폴더) 종류 pandas : 데이터 조작과 분석을 위한 라이브러리 numpy : 컬럼이 많을 때 유용, 다차원 배열과 행렬 연산 지원 m
SQL은 통으로, Python은 한줄한줄 실행자주 쓰는 함수들을 모아놓은 묶음호출방법주요 라이브러리데이터를 다루기 위한 가장 기본적인 라이브러리데이터 형식이 달라도 모두 행과 열을 가진 이차원의 데이터 프레임(테이블)으로 변환해줌쉽게 연산이 가능해 데이터 핸들링에 최적
Q1. 주어진 숫자 리스트의 평균을 계산하는 함수를 작성하세요. Q2. 하루 동안 기록된 기온 목록을 받아, 가장 낮은 기온과 가장 높은 기온을 활용하여 일교차를 함수를 작성하세요. Q3. 제품 명과 판매 수량이 담긴 목록을 받아, 가장 많이 판매된 제품의 이름과
불러오기&저장하기 VS Code 터미널 열기 : shift + ctrl + ~ 터미널에서 판다스 설치 : pip install pandas 불러오기 저장하기 인덱스&컬럼 인덱스 데이터프레임(DataFrame) 또는 시리즈(Series)의 각 행 또는 각 요소에 대
공통컬럼을 기준으로 테이블 병합, sql의 join과 유사파라미터(주요옵션)on: 조건 컬럼이 한개인지 여러개인지how: 어떤 조인 방식을 사용할 것인지 (inner, outer, left, right)left ot / right on : 열기준 병합 시 기준으로 할
Matplotlib 파이썬에서 시각화를 위한 라이브러리 중 하나 그래프 도구 Color(색상) 문자열로 지정할 수 있으며 'blue', 'green', 'red', 'cyan', 'magenta', 'yellow', 'black', 'white'와 같은 기본 색상 이름
데이터의 누락된 부분결측치 제거결측치 대체정확한 기준이 없음Z-Score (많이 사용)평균으로부터 얼마나 떨어져 있는가? 를 통한 이상치 판별데이터가 정규분포를 따를 때 사용python의 scikit-learn라이브러리가 이를 지원표준 점수는 평균으로부터 얼마나 멀리
Q1Python 라이브러리를 활용하여, 구글 드라이브의 CSV 파일을 데이터프레임으로 읽어오는 코드를 작성해주세요.테이블의 행과 열 개수를 확인해주세요.테이블의 처음 5줄을 확인해주세요.Q2각 컬럼별 결측치 개수를 구해주세요.결측치가 있는 행을 모두 제거해주세요.Q3데
시각화 라이브러리 중 가장 많은 기능을 지원하는 라이브러리다른 라이브러리 개발에 토대가 된 라이브러리주요 옵션막대그래프데이터프레임을 이용한 라인그래프언스택을 활용한 라인그래프누적 막대그래프파이차트산점도이중축 그래프피라미드 그래프 -> 몰라,,,,Matplotlib을 기
하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법회귀식 : Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측데이터가 직선적 경향을 따를 때 사용두 개 이상
세션 목차!크게 수치형과 범주형으로 나뉨편차(deviation) : 하나의 값에서 평균을 뺀 값, 평균으로부터 얼마나 떨어져 있는지를 의미분산(variance) : 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념, 편차 제곱합의 평균표준편차 : 분산에 제곱
웹 페이지의 데이터를 자동으로 수집하는 기술비정형 데이터를 정형 데이터로 변환회사 외부에서 방대하고 다양한 정보를 수집하는 도구다양한 데이터 소스를 활용할 수 있는 능력을 키우는 데 중요한 기술url = "https://search.naver.com/searc
모수통계 : 모집단이 정규분포를 따른다는 가정하에 사용, 데이터분석가는 주로 모수통계 진행, 평균&분산 등의 값을 알고 있다는 가정 하에 진행하는 통계분석비모수통계 : 모집단이 정규분포가 아닐 때 사용, 표본의 크기가 충분히 크지 않은 소규모 실험에 해당, 평균&분산
데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning: 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘Deep Learnin
회귀분석
팁 help(): 인자로 받는 함수, 기능, 클래스 등에 대한 도움 문서 출력 dir(): 함수가 가지고 있는 모든 attribute에 대한 문자열 리스트 반환 type(): 인자의 클래스 반환 제어문 if문 if문을 pass하고 싶을 때 for문 기본 구조 :
데이터 수집 회사 내 데이터가 존재한다면 SQL 혹은 Python 을 통해 데이터 마트를 생성 회사 내 Data가 없다면 CSV, EXCEL 파일 다운로드 or API를 이용한 데이터 수집 or Data Crawling 탐색적 데이터 분석(EDA) 데이터 전처리
통계적 가설검정이 머신러닝을 보완하는 경우머신러닝 모델의 피처 선택(컬럼 선택)에서 유의미한 변수를 찾기 위해 통계적 가설검정 사용데이터 분포, 이상치 처리 등 데이터 전처리에 유용한 통계적 기법을 제공머신러닝이 가설검정을 보완하는 경우비선형 데이터의 관계를 처리링하거
의사결정 규칙을 나무 구조로 나타내 전체 자로를 몇개의 소집단으로 분류하거나 예측하는 분석쉽고 해석이 용이하며 다중 분류와 회귀 모두 적용 가능이상치에 견고하며 데이터 스케일링 불필요나무가 많이 성장하면 과대적합의 오류에 빠질 수 있음훈련 데이터에 민감하며, 작은 변화
군집화 K-Means Clustering 순서 : K개 군집수 설정 -> 임의 중심 선정 -> 해당 중심점과 거리가 가까운 데이터 그룹화 -> 데이터 무게 중심으로 중심점 이동 -> 다시 거리가 가까운 데이터 그룹화(반복) 일반적이고 적용하기 쉽지만 거리 기반으로
문제의 정답을 모두 알려주고 학습시키는 방법독립변수(특성, Feature, X)와 종속변수(타겟, Label, Y)의 세트로 구성된 데이터셋을 이용해 모델 학습Feature가 주어졌을 때 적절한 답변을 모델이 하도록 하는 것평점, 시간, 가격 등 타겟이 연속형(Cont
모델로 해결하고 싶은 문제가 무엇인지 확실하게 정의함타겟이 있는 데이터인지?타겟이 있다면 분류 문제인지? 예측인지?타겟이 없다면 어떤 가치를 뽑아내고 싶은지?문제에 대한 접근 방식 설정가설설정모델설정문제 해결에 사용하기 위한 데이터 수집바로 확보 가능한지?노력하면 획득
지도학습은 크게 분류와 예측 두 가지로 나눌 수 있음타겟 변수가 범주형 변수인 경우의 모델만약 연속형 변수에 대해 분류 모델로 접근하고 싶으면 타겟 변수를 범주형으로 변환하여 수행 가능혼동 행렬(Confusion Matrix)모델이 예측한 결과와 실제 결과를 비교하여
데이터를 기반으로 연속적인 값을 예측하는 머신러닝 기법분류와의 차이점 : 분류는 범주(categorical) 예측, 회귀는 수치(numerical) 예측독립 변수(입력) X와 종속 변수(출력) Y 사이의 선형 관계를 학습하는 모델다중 선형 회귀 : 독립변수(X)가 여러
클러스터링(Clustu
Q1.statistics csv 파일을 읽고, 성별 Review Rating 에 대한 평균과 중앙값을 구해주세요. 결과는 소수점 둘째자리까지 표현해주세요.그리고 이에 대한 해석을 간략하게 설명해주세요.Q2.성별, Review Rating 컬럼에 대한 T-TEST 를 진
Q11. 정수 num이 짝수일 경우 "Even"을 반환하고 홀수인 경우 "Odd"를 반환하는 함수, solution을 완성해주세요. Q12. 정수를 담고 있는 배열 arr의 평균값을 return하는 함수, solution을 완성해보세요. Q13. 자연수 N이 주어지
소프트웨어 구성 요소가 서로 통신할 수 있게 하는 방식프로그램과 프로그램을 연결시켜 주는 통신의 방법Public API : 누구나 사용 가능하게 하는 APIPrivate API : 사내에서 사용하는 APIPartner API :미리 정해놓은 사용자들만 쓰는 APIWin
웹상에 존재하는 모든 웹 페이지를 방문하여 데이터를 수집하는 방법웹사이트에 대한 정보를 색인화하고 저장하는 데 사용특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것분석 및 기타 목적을 위해 웹사이트에서 데이터를 추출하는 데 사용합법 이슈가 있기에 사
전형적인 비정형 데이터 중 하나전처리를 통해 분석 가능한 형태로 변형해야 함자연어 처리(Natural Language Processing)를 통해 정형화된 정보를 추출하고 이를 분석에 활용해야 함임베딩 : 자연어를 기계가 이해할 수 있도록 숫자 형태인 벡터로 바꾸는 과
vscode, jupyter에는 필요 없음..!Change Directory(디렉토리 변경)의 약자로 Python의 Jupyter Notebook이나 IPython 환경에서 작업 디렉토리를 변경할 때 사용하는 매직 명령어%pwd는 현재 설정된 디렉토리를 확인할 수 있음