시리즈

부스트캠프 AI Tech RecSys

1.부스트캠프 AI Tech 1일차

일단 강의 전에 pandas 등 사전 지식을 확인하는 퀴즈가 있었는데 많이 부족함을 느꼈다. 개인 학습시간을 활용해서 프리코스와 온보딩 클래스 복습과 못 들은 부분 수강할 것이다. Tensor 0차원 a=torch.tensor(36.5) 1차원 b=torch.tens

2024년 8월 6일

2.부스트캠프 AI Tech 2일차

데이터 타입 PyTorch Docs datatype tensor 생성 함수 a = torch.tensor(1, dtype = torch.uint8) 정수형 -부호 유무, 크기에 따라 나뉨 -u는 unsigned(부호가 없음)을 뜻함, signed보다 양의 정수를 2

2024년 8월 6일

3.PCA & Whitening

PCA는 고차원의 데이터를 저차원으로 변환하는 기법으로, 데이터의 분산을 최대화하는 방향으로 주성분(principal components)을 찾아 그 축을 따라 데이터를 투영합니다. 주로 데이터의 차원을 축소하거나, 데이터의 중요한 특징을 추출하는 데 사용됩니다.데이터

2024년 8월 16일

4.RNN Issues

RNN(Recurrent Neural Network) 순환 신경망으로, 시퀀스 데이터(시계열)를 처리하기 위해 설계된 인공 신경망입니다. RNN은 순차적으로 입력을 처리하고, 이전 입력의 정보를 기억하여 현재 입력을 처리할 때 활용할 수 있습니다. 이 특성 때문에 시계

2024년 8월 23일

5.checkout, reset

checkout HEAD를 바꾼다. 허공에 checkout은 undetached reset if(attached) => HEAD의 Branch를 바꾼다. else => checkout reset으로 merge 취소 가능

2024년 8월 28일

6.merge

각 branch에서 서로 다른 부분을 수정했을 경우 => 공통 부모 기준으로 수정괸 부분 모두 반영 각 branch에서 서로 같은 부분을 수정했을 경우 => merge conflict 발생, 원하는 수정 사항 선택 가능 혹은 새로운 수정 사항 입력 가능

2024년 8월 28일

7.pull/push

pull == fetch + merge 같은 이름의 로컬과 hithub 브랜치는 서로 다른 브랜치다 sync = pull + push

2024년 8월 28일

8.Feature Attribution & Data Attribution

Feature Attribution과 Data Attribution은 머신러닝 모델의 해석과 관련된 용어로, 각각 모델의 예측 결과에 대해 어떤 특성(feature) 또는 데이터 포인트(data)가 얼마나 영향을 미쳤는지 평가하는 방법입니다.Feature Attribu

2024년 9월 6일

9.Data Attribution 방법론

InfluenceFunction: Leave-one-out 기반 방법론DataShapley: Shapley 이론에 근거한 방법론DVRL: 강화학습 기반의 방법론Data-OOB: Out-of-bag 기반 방법론DataShapley는 게임 이론의 Shapley 값을 기반으

2024년 9월 9일

Gibbs Sampling Gibbs Sampling은 다차원 확률 분포에서 샘플을 생성하기 위한 마르코프 연쇄 몬테카를로(MCMC) 기법입니다. 각 변수의 조건부 분포를 순차적으로 샘플링하여 전체 분포에서 샘플을 추출합니다. 복잡한 결합 확률 분포에서 샘플링이 어려울 때 유용하게 사용됩니다. 1. 기본 개념 다차원 확률 분포에서 한 번에 한 변수씩 샘...

2024년 9월 9일

11.MICE(Multiple Imputation by Chained Equations)

MICE는 결측치(누락된 데이터)를 대체하는 데 사용되는 방법 중 하나입니다. 여러 변수 간의 상호 관계를 기반으로 데이터를 여러 번 반복적으로 대체하여, 누락된 데이터를 더 정확하게 예측하고 보완할 수 있습니다. MICE는 각 변수의 누락된 값을 다른 변수로 예측하는

2024년 9월 13일

12.Boosting 기법

AdaBoost와 Gradient Boosting은 둘 다 앙상블 학습 기법에 속하는 알고리즘으로, 여러 개의 약한 학습기를 결합해 더 강력한 예측 모델을 만드는 방법입니다. 그러나 두 알고리즘은 학습 방식과 주요 개념에서 차이가 있습니다.AdaBoost는 각 약한 학

2024년 9월 23일

13.Level-wise Tree Growth VS Leaf-wise Tree Growth

트리 기반의 머신러닝 알고리즘에서 Level-wise Tree Growth와 Leaf-wise Tree Growth는 트리 성장 방식의 차이를 설명하는 두 가지 방식입니다. 이 두 방식은 각 단계에서 노드를 확장하는 방식에 차이가 있으며, 알고리즘의 성능과 과적합 방지

2024년 9월 23일

14.LightGBM(Light Gradient Boosting Machine)

LightGBM은 Leaf-wise 성장 방식을 사용합니다. 즉, 트리에서 손실이 가장 큰 리프 노드를 먼저 확장하여 트리 성능을 극대화하려 합니다.이는 모델의 정확도를 높이는 데 기여하지만, 과적합 위험이 있기 때문에 학습률을 조정하거나 트리 깊이를 제한하는 것이 필

2024년 9월 23일

15.선형 회귀 정규화(Lasso, Ridge)

선형 회귀의 정규화, Lasso, Ridge는 모두 과적합을 방지하고 모델의 성능을 개선하기 위한 기법입니다. 이 방법들은 회귀 모델의 복잡성을 제어함으로써 모델의 일반화 능력을 높이는 데 사용됩니다.정규화는 회귀 계수들의 크기를 제한하여 모델의 복잡도를 낮추고, 이를

2024년 9월 23일

16.교차 검증(Cross-validation)

교차 검증(Cross-validation)은 모델의 성능을 평가하는 방법으로, 데이터를 훈련 데이터와 테스트 데이터로 여러 번 나누어 평가하는 기법입니다. 이를 통해 모델의 과적합을 방지하고, 모델이 새로운 데이터에 대해 얼마나 일반화할 수 있는지를 평가할 수 있습니다

2024년 9월 23일

17.모델의 편향과 분산, 배깅과 부스팅

편향(Bias)은 모델이 데이터의 복잡한 패턴을 충분히 학습하지 못할 때 발생하는 오류입니다. 즉, 편향이 높으면 모델이 과소적합(underfitting) 상태에 있는 것입니다. 데이터의 특성을 충분히 학습하지 않아 훈련 데이터와 테스트 데이터 모두에서 성능이 좋지 않

2024년 9월 24일

18.교차검증 앙상블 (Cross-Validation Ensemble) & 스태킹 앙상블 (Stacking Ensemble)

교차검증 앙상블은 k-fold 교차검증을 활용하여, 여러 개의 학습 모델을 훈련하고 그 결과를 앙상블하는 기법입니다.일반적인 교차검증 방식에서, 데이터를 여러 개의 부분집합으로 나누어 각 부분집합에 대해 학습과 검증을 반복적으로 수행한 후 결과를 결합합니다.데이터를 k

2024년 9월 24일

19.하이퍼파라미터 최적화 (Hyperparameter Optimization)

하이퍼파라미터는 모델 학습 전에 사용자가 직접 설정해야 하는 값들입니다. 하이퍼파라미터는 모델 성능에 큰 영향을 미치며, 최적의 값을 설정해야 과적합이나 과소적합을 방지하고 일반화 성능을 최대화할 수 있습니다.Learning rate(학습률): 가중치를 업데이트하는 속

2024년 9월 24일

20.선형 회귀의 가정 - 잔차의 정규성

회귀 분석에서는 잔차가 정규분포를 따르는 것이 중요합니다. 그 이유를 다음과 같이 정리할 수 있습니다.회귀 계수는 최소 제곱법(OLS)에 의해 추정됩니다.잔차가 정규분포를 따를 때, OLS는 가장 효율적이고 일관된 추정치를 제공합니다.잔차가 정규분포를 따르지 않으면,

2024년 10월 8일

21.선형 회귀의 가정 - 등분산성

등분산성은 선형 회귀 분석에서 중요한 가정 중 하나입니다. 이는 잔차(residuals)의 분산이 독립 변수의 값에 상관없이 일정해야 한다는 가정을 의미합니다. 이 가정이 만족되지 않으면 회귀 분석의 결과가 왜곡될 수 있습니다.등분산성은 회귀 모델에서 잔차의 분산이 독

2024년 10월 8일

22.클러스터링(Clustering)

클러스터링 알고리즘은 클러스터링 전략에 따라 여러 가지 방법으로 분류될 수 있습니다. 여기서는 각 분류에 따른 클러스터링 방법을 설명합니다.Partitioning Methods는 데이터를 K개의 클러스터로 나누는 방법입니다. 각 데이터 포인트는 하나의 클러스터에만 속하

2024년 10월 11일

23.Haversine

Haversine 공식은 두 지점 간의 위도와 경도를 사용하여, 구형 지구 상에서의 대원거리(두 점 사이의 최단 거리)를 계산하는 공식입니다. haversine 라이브러리는 이를 손쉽게 계산할 수 있도록 도와줍니다.haversine 함수의 단위는 기본적으로 킬로미터(k

2024년 10월 18일

24.Retrieval 기법

임베딩(Embedding)은 고차원 데이터를 저차원 벡터 공간으로 변환하는 기술로, 주로 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 많이 사용됩니다. 예를 들어, 단어를 수치 벡터로 변환하면, 단어 간의 유사성을 벡터 간의 거리로 측정할 수 있습니다. 임베딩은

2024년 10월 24일

25.Faiss

Faiss는 Facebook AI Research에서 개발한 빠른 유사성 검색과 밀집 벡터 검색을 위한 라이브러리입니다. Faiss는 특히 대규모 데이터베이스에서 고차원 벡터를 처리하고, 가장 유사한 항목을 빠르게 검색하는 데 최적화된 도구입니다. 주로 임베딩 벡터를

2024년 10월 24일

26.추천시스템의 평가 지표

유저로부터 수집한 데이터를 train/valid/test로 나누어 모델의 성능을 객관적인 지표로 평가랭킹 문제: Precision@K, Recall@K, MAP@K, NDCG@K, Hit Rate예측 문제: RMSE, MAE추천한 아이템 중 유저가 관심있는 아이템의 비

2024년 10월 29일

27.인기도 기반 추천

조회수, 평균 평점, 리뷰 개수, 좋아요/싫어요 수시간과 상관 없이 가장 많이 조회된 뉴스를 추천 or 좋아요가 가장 많은 게시글을 추천최신성 반영 불가$score=f(popularity,age)$age가 증가함에 따라 score 감소gravity 상수 사용하여 최신성

2024년 10월 29일

부스트캠프 AI Tech RecSys

1.부스트캠프 AI Tech 1일차

2.부스트캠프 AI Tech 2일차

3.PCA & Whitening

4.RNN Issues

5.checkout, reset

6.merge

7.pull/push

8.Feature Attribution & Data Attribution

9.Data Attribution 방법론

10.Gibbs Sampling

11.MICE(Multiple Imputation by Chained Equations)

12.Boosting 기법

13.Level-wise Tree Growth VS Leaf-wise Tree Growth

14.LightGBM(Light Gradient Boosting Machine)

15.선형 회귀 정규화(Lasso, Ridge)

16.교차 검증(Cross-validation)

17.모델의 편향과 분산, 배깅과 부스팅

18.교차검증 앙상블 (Cross-Validation Ensemble) & 스태킹 앙상블 (Stacking Ensemble)

19.하이퍼파라미터 최적화 (Hyperparameter Optimization)

20.선형 회귀의 가정 - ­잔차의 정규성

21.선형 회귀의 가정 - 등분산성

22.클러스터링(Clustering)

23.Haversine

24.Retrieval 기법

25.Faiss

26.추천시스템의 평가 지표

27.인기도 기반 추천

20.선형 회귀의 가정 - 잔차의 정규성