딥러닝, CNN, RNN학습을 통해 (사람처럼) 예측을 진행 → 어떻게 학습? (사람의 인지과정)사람의 신경망(사람을 모방)을 기반으로 학습과 추론을 진행하는 학문사람의 신경 구조는 뉴런을 기본 단위로 함 (뉴런 → 신경계)뉴런을 모방한 퍼셉트론을 수학적으로 모델링.
k-means clusteringK-평균 군집화전체 데이터를 K개의 덩어리(클러스터)로 나누는 비지도 학습법각 클러스터의 좌표 값의 평균으로 중심을 정할 수 있음로이드 알고리즘 vs 엘칸 알고리즘(거리 계산시 삼각 부등식 사용)순서초기화K개의 클러스터 중심점(최종 결과
SVM, Decision Tree, 비지도학습각 클래스의 데이터 샘플로부터 거리(마진)가 가장 멀리 위치해있다 → 일반화 성능이 좋다마진을 구성하는 데이터 포인트를 서포트 벡터 라고 함SVM의 경우 마진을 최대화하는 최적 직선(최대 마진 초평면)을 만드는 것이 목적임최
사이킷런사이킷런: 다양한 머신러닝 알고리즘이 구현되어있는 오픈소스 패키지데이터 처리, 파이프라인, 학습 알고리즘, 전/후 처리 등 다양한 기능객체 메소드Estimator: fit()으로 학습 진행Predictor: predict()로 예측 수행Transformer: t
sql 문제를 풀면서 알게된 것들을 정리하는 페이지이다.mysql에선 binary 문자열을 지원하는데, 이를 사용하면 대소문자를 구분할 수 있다.문자가 아닌 바이트 기준으로 비교할 수 있음테이블 생성시 해당 컬럼을 varbinary을 사용BINARY 함수 혹은 BINA
https://school.programmers.co.kr/learn/courses/30/lessons/59041동명의 동물 수 세기 (두 번 이상)이름이 없는 동물은 집계에서 제외설명 그대로 동명의 동물 수를 세기 위해 name으로 group by해 coun
머신러닝, 선형대수, 확률머신러닝이란?데이터에서 지식을 추출. 머신 스스로가 데이터의 특징과 패턴을 찾아냄명시적 프로그래밍의 한계를 극복할 수 있는 기법인공지능: (단순히) 기계가 사람의 지적 능력을 모방하는 것어떻게 할 것이냐? → 학습을 통해 예측을 진행 (머신러닝
데이터 웨어하우스, ETL, ELT, 데이터 파이프라인데이터 웨어하우스고정비용 옵션 (redshift)가변비용 옵션 (bigquery, 스노우 플레이크)데이터 레이크구조화 데이터 + 비구조화 데이터(로그 파일)보통 클라우드 스토리지가 됨데이터 레이크에 있는 정보를 정제
https://school.programmers.co.kr/learn/courses/30/lessons/293261물고기 종류 별 가장 큰 사이즈의 물고기의 ID, FISH_NAME, LENGTH을 조회물고기 종류 별 가장 큰 사이즈를 조회하는 서브쿼리(FIS
평가/분석 방법문 같이 생긴 기호가 productsklearn.naive_bayes의 CaussianNB를 import 해 사용모델을 어떻게 평가할지, 기준을 정해야함회귀 평가 방법MSE (Mean Squared Error)오차 제곱의 평균오차값이 큰 데이터점(outl
데이터 모델링, 회귀분석주어진 데이터에서 사용하고자 하는 x(feature, input, 독립변수), 알고싶은 값 y(label, output, 종속변수)이 있을 때 y=f(x)라는 함수를 통해서 x와 y의 관계를 설명할 수 있다면?y와 x의 관계를 효과적으로 설명하는
데이터분석, 스케일링나스닥 시총 상위 기업을 보면 제조업 → 서비스 기업으로의 경향을 보임아마존 → 구매 예측을 통한 추천데이터를 정리, 변환, 조작, 검사하여 인사이트를 만들어내는 작업의사 결정의 판단 기준이 ‘주관적인 직감’에서 ‘객관적인 데이터’로!단순한 분석보단
문자열 제어, 데이터프레임 재구성, 시계열 제어시리즈와 인덱스에 대한 벡터화 문자열 함수이다.반복문을 사용하지 않고 간단하게 문자열 데이터 처리 가능무조건 str을 사용하고 문자열 메소드를 실행str으로의 형변환 함수가 아니다!대문자, 소문자화pokemons\['Nam
데이터프레임인덱싱 해서 단일 컬럼에 접근한다면 시리즈가 반환됨닷(.)을 이용해서 접근할 수도 있으나 이는 지향되지 않음member_df.shape 과 같은 함수와 혼동될 수 있음 (만약 column명이 shape라면)가로가 인덱스, 세로가 컬럼 명member_df =
데이터 프레임pd.read_csv(”marketing_campaign.csv”, \*\*sep=’\\t’\*\*)디폴트는 쉼표인데 이 데이터셋은 탭으로 구분되어있어 구분자(sep)를 지정해줘야함customer.insert(1, ‘Age’, 2021-customer\[’
실제 데이터에 SQL을 이용해 데이터 분석 해보기인도 내 식당들의 정보식당 이름, 평점, 평균 가격, 패스트푸드 Y/N, 길거리 음식 Y/N 등데이터가 숫자 타입일 땐 히스토그램이 제공됨 (캐글에서)다른 사람들의 EDA(탐색적 데이터 분석)를 확인할 수 있음 → 어떤
쿼리 작성 시 효율 높이는 방법where로 테이블을 최대한 작게 만들어놓고 JOIN하기❗잘 모르는 테이블 사용시큰 데이터를 조회하거나 연산함으로써 생길 수 있는 비용 문제를 막고자 함임.LIMIT 걸고 조회하기행 수가 엄청난 데이터를 모두 조회하려할 때 비용이 엄청 클
데이터 타입, 숫자, 문자, 배열, 구조체BIT(M)컴퓨터가 데이터를 저장하는 기본 단위M이 4가 입력되면 비트 4개에 값을 담게됨TINYINIT매우 작은 정수256개만 표현 가능 (-127~127, 0~255(unsigned) → 8비트(2^8이므로) 사용)훨씬 더
JOIN, UNION, WITH, Subquery, 조건절전환율 - 구매 수/클릭 수두 개 이상의 테이블을 특정 key 기준으로 결합하는 것테이블을 처음부터 합쳐놓으면 되는 것 아닌지?테이블을 쪼개두면 관리가 편리변경사항이 생겼을 때 수정 시간을 줄임중복되는 것을 막음