mRMR (minimum Redundancy Maximum Relevancy)

데지바·2021년 5월 22일
2

게놈 분석

목록 보기
1/1

저는 인공지능 전공자로서 유전체에 대한 지식이 아직 부족합니다. 혹시나 잘못 포스팅이 되어있다면 꼭 알려주세요!


게놈 분석 분야 중 바이오 마커 발굴 분야는 매우 중요하게 다뤄지고 있다.

'바이오 마커' 라는 것은, 특정 질환을 가진 사람들이 대체적으로 가지고 있는 유전적 특성을 얘기하는 것이다.

보통은 어떤 유전자가 주로 발현이 되는가를 파악한다.

이 부분을 해결하고자 다양한 feature selection 기법들을 사용하는 것으로 파악하였다.

시중에 개발된 모델들 또한 사용 가능하지만, 유전체 데이터에 특화된 기법들도 많이 개발되고 있다.

그 중 고전(classic) 알고리즘 중 하나인 mRMR을 소개하려고 한다.

mRMR이란?

타겟 변수(Y)(Y)관련성이 높고 서로간의 중복된 정보를 최소화하여 가진 변수들의 집단을 추출하는 변수 선택 알고리즘으로 Peng 및 연구진들이 2005에 발간하였다.

관련성이 높다?

XX ~ YY 의 관계를 파악
대표적으로 pearson's correlation coefficient를 이용하여 (선형) 관계성 산출

중복된 정보?

두 변수 A,B가 서로 관련성이 높다중복된 정보가 많다
두 변수 A,B가 서로 관련성이 적다중복된 정보가 적다

알고리즘 요악

  1. 타겟 변수와 가장 correlation이 높은 변수를 선택하여 선택 변수 집단의 원소로 지정
  2. 선택되지 않은 변수들에서, 선택된 변수들 사이의 correation 평균값을 최소로하고 타겟 변수와 가장 correlation이 높은 변수를 선택하여 이를 선택 변수 집단의 원소로 지정
  3. 원하는 변수 개수를 얻을 때까지 2step을 반복

Application

고전 알고리즘이라 모든 언어에서 관련 패키지를 찾아볼 수 있음.
그 중 R에서는 주로 밑의 라이브러리를 이용함 :)

library(praznik)

mRMR 기반하여 발전된 모델

2016년에 zou 및 연구진들이 출판한 모델이다.
이름은 mRND이고 maximum Relevance maxium distance feature selection의 준말이다.

mRMR과 모델링이 유사하다.
중복된 정보량을 처리하기 위해서 mRMR에서는 correlation을 이용했던 반면에, mRND에서는 distance를 이용하였다.

아래는 논문에서 발췌한 알고리즘 내용이다.

  • maximum Relevance maximum distance feature selection (mRND 2.0) (Zou et al. (2016))
    1. Pearson's correlation coefficient to measure the Relevance between sub group of features and the class
      Pearson's correlation coefficient ρX,Y=cov(X,Y)σXσY\rho_{X,Y} = \frac{\mathrm{cov}(X,Y)}{\sigma_X \sigma_Y}
    2. mac-Relevance MRi=ρXi,Xc,i  for  i=1,,mMR_i = |\rho_{X_i,X_{c,i}}| \ \ \mathrm{for} \ \ i=1,\ldots,m where XiX_i is iith feature of data and Xc,iX_{c,i} is the iith feature of data from the target class cc.
    3. Calculating sum of distances between iith feature XiX_i and the others by three different distance function, Euclidean distance EDiED_i , cosine similarity COSiCOS_i, and Tonimoto coefficient TCiTC_i.
    4. Define (several) Max-distance MDiMD_i from the values of (3).
    5. Max-Relevance-Max_distance MRMD=max{wrMRi+wdMDi}i=1,,mMRMD = \max{\{w_r*MR_i + w_d*MD_i\}}_{i=1,\ldots,m} where wrw_r and wdw_d are the nonnegative weight (up to 1).
    6. Select the optimal feature maximizing Max-Relevance-Max_distance.
    7. Remove the selected features and repeat 1-6 steps until kk features are selected.

데지바의 mRMR 견해

  1. 심플한 아이디어를 가진 모델이라 결과 해석 & 학습에 대한 해석을 하기 편함
  2. 성능이 좋은 편은 아님

데지바 유튜브 영상

https://youtu.be/nlEojyV477I

Reference

  1. Ding, C., & Peng, H. (2005). Minimum redundancy feature selection from microarray gene expression data. Journal of bioinformatics and computational biology, 3(02), 185-205.

  2. Zou, Q., Zeng, J., Cao, L., and Ji, R. (2016). A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing 173, 346–354. doi: 10.1016/j.neucom.2014.12.123

profile
유튜브 데지바 채널에 놀러오세요~

0개의 댓글