RFM 기법으로 고객을 같은 간격으로 나누려면 우리가 사용했던 판다스에서 어떤 기능을 사용하면 될까요?=> cut절대평가와 상대평가로 구분한다면?=> cut이 절대평가, qcut 이 상대평가예를 들어 Monetary 를 기준으로 금액의 절대값이 아니라 같은 비율로 나누
이 그래프 어떻게 해석할 수 있을까요?=> 값이 1가까운 부분에 쏠려있다. 이상치가 있다,주문서와 결제 테이블이 실 비즈니스에서는 따로 되어 있기도 합니다. 이 데이터는 주문서 테이블이라고 볼 수 있습니다. 결제 테이블에는 무엇이 있을까요?=> 결제테이블이라면 고객ID
online retail data 실습 순서EDA(리텐션) => RFM(segmentation)을 판다스로 구하고 => 군집화로 고객 세분화(segmentation)=> 유사도를 통한 추천시스템시계열 데이터로 예측해 볼 수 있는게 무엇이 있을까요?=> 주가, 부동산 가
1104 번 파일의 실습 목적 : KoNLPy 로 한국어 형태소분석기를 사용해 보는 것입니다.형태소 분석기마다 품사를 태깅하는 방법이 다 다릅니다. 품사 태깅표에서 명사에는 어떤 공통점이 있을까요?=> N이 들어간다.동사에는 어떤 공통점이 있을까요?=> V로 시작kon
이번주 목요일에는 보강이 있습니다. 다음주 수요일에도 보강이 있습니다.CNN은 주로 이미지에 주로 사용이되고 물론 텍스트에도 사용을 합니다. 하지만 이미지에서 더 나은 성능을 보여줍니다.텍스트 분석을 할 때 머신러닝(Bag Of Words, TF-IDF), 딥러닝(RN
플랫폼에 익숙사용 가능 라이브러리 미리 확인 등대부분 numpy나 pandas 같은 라이브러리 사용 금지이지만 간혹가다 제한이 없는 곳도 있습니다. numpy는 python보다 대부분의 경우 속도가 빠릅니다. 크기에 따라 다르지만 100000개 이상의 배열의 연산의 경
ex) 만약 총 1000개의 훈련 샘플이 있는데, 배치사이즈가 20이라면20개의 샘플 단위마다 모델의 가중치를 한번씩 업데이트 시킨다. 그래서 가중치가 총 50번 업데이트 된다. 하나의 데이터셋을 총 50개의 배치로 나눠서 훈련을 진행했다고 보면 된다.인공 신경망의 각
스트라이드(몇 칸씩 이동하는지)를 크게 설정하면?=> 용량이 줄어들고 학습 속도는 빠릅니다. 하지만 자세히 학습하지 못 하기 때문에 언더피팅이 될 수 있다.이미지 증강을 할 때 주의해야 할 사항이 있다면?=> 증강해도 레이블이 바뀌지 않는 애들만 증강해야 한다 6,
pooling은 stride가 고정인가요?=> stride 값을 조정할 수 있습니다.마지막에 softmax 는 어떻게 결과를 처리할까요?=> 출력값이 n개의 확률로 나오고, n개의 확률값의 합이 1입니다=> 멀티클래스 분류에 주로 사용합니다. 가장 큰 확률값을 클래스
회귀 모델이라는 것을 모델이 어떻게 알 수 있을까요?=> loss 에 손실함수를 작성하게 되면 어떤 문제인지 알 수 있습니다.멀티클래스 예측값이 나왔을 때 가장 큰 인덱스를 반환하는 넘파이 메서드는 무엇일까요?=> np.argmax() 를 통해 가장 큰 인덱스 값을 반
<svg xmlns="http://www.w3.org/2000/svg" height="24px"viewBox="0 0 24 24" width="24px"> <svg xmlns="http://www
레이어 구성을 2의 제곱들로만 해야하나요?\-> 보통은 2의 제곱으로 사용하는 편인데 그렇게 사용하지 않아도 상관 없습니다.loss, metric 의 차이는 무엇인가요?\-> loss 는 실제값과 예측값이 얼마나 다른지를 나타내고, 훈련에 사용해서 가중치와 편향을 업데
Fully Connected Network 에는 1차원형태로 네트워크에 데이터를 주입해야 하는데 어떻게 비정형 데이터(표형태가 아니라 이미지, 음성, 텍스트 등)를 잘 다룰까요?\-> 전처리 레이어에서 이미지, 음성, 텍스트 등을 전처리 하는 기능을 따로 제공합니다.
금융 => 은행 대출 사기, 신용카드 사기, 상장폐지종목 여부제조업 => 양불(양품, 불량품) 여부헬스케어 => 희귀질병(암 진단여부)IT관련 => 게임 어뷰저, 광고 어뷰저, 그외 어뷰저대회에서 어뷰저 관련 내용을 찾을 때는 Fraud 등으로 검색하면 여러 사례를
학습을 통한 예측 성능을 측정하기 위해 예측값과 실제값을 비교하기 위한 표기계가 얼마나 참과 거짓을 혼동하는지 확인하는 데 사용하기 때문에 ‘혼동’행렬이라 명명T, F, P, N 의미TRUE : 모델이 맞췄을 때FALSE : 모델이 틀림Positive : 모델의 예측
Dataset Exploration (EDA)데이터 모델링을 하기 전에 데이터 변수 별 기본적인특성들을 탐색하고 데이터의 분포적인 특징 이해Missing Value데이터를 수집하다 보면 일부 데이터가 수집되지 않고 결측치로 남아 있는 경우가 있어서 이러한 부분 보정 필
틀린 개수가 많으면 에러가 높고, 적으면 낮다이 두 개가 얼마나 정확한가를 이런 식으로 Error Function에 카운트를 하고,최종적인 Indicator function의 결과를 다 더한 다음, 평균을 낸 후 일종의 percentage로 변환할 수 있다.Traini
데이터와 우리가 컴퓨터를 학습시킬 수 있는 알고리즘을 컴퓨터에게 입력을 시켜주면, 컴퓨터가 스스로 데이터 안에 있는 유용한 패턴을 찾아서 함수를 찾아주는 것이다.Traditional AI머신러닝에서 학습한다는 그 함수를 사람이 직접 코딩머신러닝데이터와 function의
결정계수는 상관계수를 제곱한 값으로 보면 된다. 하지만 결정계수는 상관계수와 달리 뱐수간 영향을 주는 정도 또는 인과 관계의 정도를 정량화해서 나타낸 수치라는 것이다. 따라서, 결정계수는 상관 분석이 아닌 회귀 분석에서 사용하는 수치라고 할 수 있다.결정 계수를 나타내
이 Gradient 의 개념은 딥러닝에서도 사용할 예정입니다.Gradient(경사, 기울기) 는 어떻게 사용할까요?=> 손실함수 그래프에서 값이 가장 낮은 지점으로 경사를 타고 하강합니다. 머신러닝에서 예측값과 정답값간의 차이가 손실함수인데 이 크기를 최소화시키는 파라