인공지능

Yeomso(BE)·2024년 2월 26일

이상탐지로그

Isolation Forest

https://partrita.github.io/posts/isolation-forest/

One-Class SVM

https://zephyrus1111.tistory.com/468

텍스트 데이터를 활용한 ML 추천 알고리즘

https://wikidocs.net/30707

~~### 1. LDA (Latent Dirichlet Allocation)~~

LSA: 새로운거 받아드릴려면 다시 처음부터 읽어서 분석함 그래서 못씀
LDA: 확률적으로 어떤 단어를 쓸것이다 알고리즘 그래서 필요 없음
이상 데이터가 많을때 원인 분석을 하면 좋을거 같음

장점: 텍스트 데이터의 주제를 추출하는 데 효과적이며, 이상 데이터가 특정 주제와 관련될 가능성이 높다는 점을 활용하여 이상 탐지에 유용합니다.
단점: 모델 학습에 시간이 오래 걸릴 수 있으며, 모델 해석이 어려울 수 있습니다.

2. TF-IDF (Term Frequency-Inverse Document Frequency)

장점: 텍스트 데이터에서 중요한 단어를 추출하는 데 효과적이며, 이상 데이터가 특정 단어를 포함할 가능성이 높다는 점을 활용하여 이상 탐지에 유용합니다.
단점: 단어의 순서를 고려하지 않기 때문에 문맥 정보를 활용하지 못합니다.

3. BERT (Bidirectional Encoder Representations from Transformers)

장점: 단어의 순서를 고려하여 문맥 정보를 활용할 수 있으며, 최첨단 자연어 처리 모델 중 하나입니다.
단점: 모델 학습에 많은 양의 데이터와 컴퓨팅 자원이 필요하며, 모델 해석이 어려울 수 있습니다.

4. Doc2Vec

장점: 문서를 벡터로 변환하여 유사성을 계산할 수 있으며, 이상 데이터가 다른 데이터와 유사하지 않다는 점을 활용하여 이상 탐지에 유용합니다.
단점: 모델 학습에 시간이 오래 걸릴 수 있으며, 모델 해석이 어려울 수 있습니다.

5. FastText

장점: Doc2Vec보다 빠르고 효율적인 모델이며, 이상 데이터가 특정 단어나 문구를 포함할 가능성이 높다는 점을 활용하여 이상 탐지에 유용합니다.
단점: Doc2Vec만큼 정확하지 않을 수 있습니다.
추천 알고리즘:

정리

데이터 양이 적고 빠른 모델 학습이 필요한 경우: TF-IDF 또는 FastText
데이터 양이 많고 정확도가 중요한 경우: BERT
문맥 정보를 활용해야 하는 경우: BERT
데이터를 벡터로 변환하여 유사성을 계산해야 하는 경우: Doc2Vec

추가적인 알고리즘의 종류

DeepAR Forecasting

자동 회귀적 통합 이동 평균(ARIMA) 또는 지수 평활(ETS)과 같은 고전적 예측 방법은 단일 모델을 개별 시계열에 맞춥니다.
context_length 하이퍼파라미터를 사용해 과거의 시점을 정할 수 있습니다.
prediction_length 하이퍼파라미터를 사용해 미래 시점을 정할 수 있습니다.

Factorization Machine

분류 및 회귀 작업 모두에 대해 사용할 수 있는 범용 지도 학습 알고리즘입니다.
클릭 예측 및 품목 추천과 같은 고차원 희소 데이터 세트를 처리하는 작업에 있어 좋은 선택합니다.

Image Classification

다중 레이블 분류를 지원합니다.
이미지를 입력으로 해당 이미지에 할당된 하나 이상의 레이블을 출력합니다.
초기부터 교육하거나 훈련된 이미지를 이용할 수 없는 경우 전송 합습을 사용해 교육할 수 있습니다.

K-Nearest Neighbors(k-NN)

데이터간 거리가 가까운 K 개의 레이블을 참조하여 분류합니다.(이때, 유클리디안 계산법 사용)

Linear Learner

회귀문제를 해결하는데 사용되는 학습법 입니다.
지속적 목표(예: 평균 제곱근 오차, 교차 엔트로피 손실, 절대 오차).
분류에 맞는 별도 목표(예: F1 측정, 정밀도, 재현율 또는 정확도)

Object2Vec

Object2Vec 은 SageMaker에서 최적화된 단어에 대해 잘 알려진 Word2Vec 임베딩 기법을 일반화합니다.
다운스트림 지도 작업(예: 분류 또는 회귀)에서 해당 객체의 특징으로 임베딩을 사용할 수도 있습니다.

Object Detection

입력으로 이미지를 가져와 이미지 장면 내에서 객체의 모든 인스턴스를 식별합니다.

의미 체계 분할

이 알고리즘은 미리 정의된 클래스 세트에서 가져온 클래스 레이블을 사용해 이미지의 모든 픽셀에 태그를 지정합니다.
태그 지정은 장면을 이해하는 데 기본적인 기능으로, 자율 주행 차량, 의료 영상 진단 및 로봇 감지 등과 같이 점점 늘어나고 있는 컴퓨터 비전 응용 분야에 중요합니다.

Sequence-to-Sequence

애플리케이션의 예로는 기계 번역(한 언어의 문장을 입력하고 다른 언어에서 어떤 문장이 나올지 예측), 텍스트 요약(길이가 긴 단어 문자열을 입력하고 길이가 짧은 요약 단어 문자열을 예측), 음성-텍스트 변환(오디오 클립이 토큰으로 된 출력 문장으로 변환됨)이 있습니다.

XGBoost

그라디언트 부스팅 트리 알고리즘
다양한 데이터 형식, 관계, 분포 및 미세 조정할 수 있는 다양한 하이퍼파라미터를 강력하게 처리하기 때문에 기계 학습 경쟁에서 잘 작동합니다.
회귀, 분류(이진, 멀티클래스)및 순위 결정 관련 문제에서 사용할 수 있습니다.
비지도학습

BlazingText

Word2vec 및 텍스트 분류 알고리즘을 최적화해 구현한 알고리즘 입니다.
Word2vec 알고리즘은 감정 분석, 명명된 엔터티 인식, 기계 번역 등 여러 가지 다운스트림 자연 언어 처리(NLP) 작업에 유용합니다.

IP Insights

변칙적인 IP 주소에서 웹 서비스에 로그인하려고 하는 사용자를 식별할 수 있습니다.
비정상적인 IP 주소에서 컴퓨팅 리소스를 생성하려고 하는 계정을 식별할 수도 있습니다.

k-means

데이터 내 별도의 그룹화를 찾으려 합니다.

Latent Dirichlet Allocation(LDA)

텍스트 코퍼스 내에 있는 문서에서 공유하는 사용자별 주제를 찾는 데 가장 일반적으로 사용됩니다.

Neural Topic Model(NTM)

통계적 분포를 기반으로 하는 단어 그룹화가 포함됩니다.
감지된 주제를 기반으로 문서를 분류 또는 요약하거나, 주제의 유사성을 기반으로 정보를 검색하거나 콘텐츠를 추천하는 데 사용할 수 있습니다.
주제의 의미는 주로 포함된 상위 단어를 검사하여 추론됩니다. 비지도 메서드이기 때문에 주제 자체가 아닌 주제의 수만이 사전 지정됩니다.

Principal Component Analysis(PCA)

가급적 많은 정보를 보유하면서 데이터 세트 내의 차원(특징의 수)을 축소시킵니다.
축소된 근사치에서 특징을 찾아냅니다.
일반: 희소 데이터와 적당한 수의 관측치 및 특징이 포함된 데이터 세트.
무작위로: 많은 수의 관측치 및 특징이 포함된 데이터 세트. 이 모드는 근사치 알고리즘을 사용합니다.

Random Cut Forest(RCF)

변칙은 시계열 데이터에서 예기치 않은 급증, 주기성 내의 끊어짐 또는 분류할 수 있는 데이터 지점으로 나타날 수 있습니다.

출처

RCF
LG-RCF
RRCF

KAKAO-ML
NHN-이상감지
NHN-통계적 이상감지
NHN-머신 러닝
NHN-딥 러닝
Prophet

Yeomso(BE)

나 혼자만 개발중

이전 포스트

[1편]국세청_사업자등록정보 진위확인 및 상태조회 서비스 만들기

다음 포스트