ML 모델 학습, feature 추출 업데이트, 예측의 빈도 및 시점을 결정아이템, 사용자 정보에 대한 refreshness request (업데이트 요구) 수준에 따라 결정아이템, 사용자 정보, 사용자 행동 데이터의 사용 가능 시점 <-> 추천 활용 시점까지의
추천 시스템을 도입하여 무엇을 기대할 수 있는지 정의사용자의 어떤 행동 변화를 기대하는가Key Goal Indicator(KGI) 또는 Key Performance Indicator(KPI) 책정클릭률, 구입률, 체류율, 트윗 수 등시스템과 서비스상 사용자 행동에 관한
contents 기반 contents-based filtering, interaction 기반 collaborative filtering. cold start problem, harry potter problem. 검색 시스템과의 비교
선형 회귀 직선의 모델 파라미터를 추정하는 방법. training sample 까지의 수직 거리 (=offset) 의 제곱합을 최소화. 선형 최소 제곱법 (linear least squares) 라고도 한다.
수치 요약과 시각화를 사용하여 데이터를 탐색하고 변수 간 잠재적 관계를 찾아내는 프로세스
1개 이상의 feature 와 연속적인 타깃 변수 사이의 관계를 모델링, 연속적인 output 값을 예측
sudo n 으로 버전을 선택한다n 으로 설치된 node 와, homebrew 로 설치된 node 두개가 설치되었을 때, node --version 및 which node 로 실행되는 노드가 어떤 노드인지, 버전이 어떤 버전인지 체크한다.homebrew 로 설치된 노드
class 기반 TF-IDF의 variation 을 통해 토픽 추출문서 임베딩 생성, 임베딩 클러스터링, class 기반 TF-IDF 로 토픽 표현 (topic representation) 추출BERT(Bidirectional Encoder Representations
5가지 추천 시나리오에 대해 프롬프트 세트 설계, 성능 평가등급 예측 (rating prediction)순차 추천(sequential recommendation)직접 추천(direct recommendation)설명 생성 (explanation generation)리뷰
데이터셋의 클래스 비율이 불균형할 경우, 소수 클래스의 샘플을 늘리거나, 다수 클래스 샘플을 줄이거나, 인공 훈련 데이터 생성
confusion_matrix : True Positive, True Negative, False Positive, False Negative 행렬
Greedy search : 하이퍼파라미터 (Hyper parameter) 최적화 기법. 하이퍼파라미터 모든 조합에 대해 모델 성능 평가. Nested cross-validation : k-fold cross validation 을 중첩. ML 모델 성능 비교
Learning Curve (학습 곡선) * 편향(bias)이 높으면 (=underfitting) 훈련 정확도, 교차 검증 정확도가 모두 낮게 나타남 분산(variance)이 높으면 (=overfitting) 훈련 정확도, 교차 검증 정확도의 차이가 크게 나타남
모델 복잡도를 줄이고 overfitting 을 방지하는 방법 중 하나 feature selection : original feature 에서 일부를 선택. feature extraction: original feature 에서 새로운 feature 생성
regularization (규제): 개별 가중치 값을 제한하여 overfitting 방지 L2, L1 regularization : cost function 에 penalty term (패널티 항) 을 추가, 가중치 값을 작게 만드는 효과
정규화(normalization),표준화(standardization). min-max scaling, standard scaling, robust scaling, max-abs scaling
SVM 개요, soft margin SVM, scikit-learn trainning