Bioinformatics; 생물학 데이터사이언스에 대하여

soyoung·2025년 4월 13일
0

1. 생물정보학

  • 오늘 포스팅으로는 최근에 관심을 갖기 시작한 생물정보학에 대해 다루어 보려고 한다. 데이터사이언스 분야에서는 도메인 지식을 충분히 잘 갖추는 것이 강점이 될 수 있는데, 바이오 분야의 데이터에 흥미가 가서 생물정보학 분야를 알아보게 되었다.

  • 생물 정보학

    • 바이오인포매틱스(bioinformatics)라고도 불리는 이 학문은 생물학적인 문제를 응용수학, 정보과학, 통계학, 컴퓨터 과학, 인공지능, 화학, 생화학 등을 이용하여 주로 분자 수준에서 다루는 학문이다.
    • 인간이 처리하기 힘든 복잡한 생물학적 데이터를 컴퓨터를 이용하여 더욱 빠르게 분석할 수 있도록 하는 학문이며 주로 유전학이나 유전체학에서 사용되고 있다. DNA 염기서열에 관련된 분석이나 분자 구조 등에 활용되고 있다.
    • 생물정보학은 NGS 및 시퀀싱장비의 발달로 데이터의 양은 많아졌지만, 분석의 한계와 분석이 되지 않아 의미가 없는 데이터들이 늘어 담에 따라 중요성이 대두하고 있다.
    • 컴퓨터를 이용한 분석 방법에는 python이나 R 등을 이용한 커맨드라인 기반의 분석 방법이 있으며, 명령어를 입력하여 분석하기 어려움을 겪는 사람들을 위해(주로 생물학자나 임상의 등) 마우스를 이용하여 간편하게 사용할 수 있는 CLC Genomics Workbench나 갤럭시 등의 프로그램도 있다.

2. 생물정보학 기사 리뷰

생물정보학에 대한 기존 지식이 많이 없어서, 최근 기사를 찾아보게 되었다. 아래의 기사에 대해 간략히 소개하면서 생물정보학에 대해 알아보도록 하자.

AI로 질병 유전자 찾고 생체 지표 가능성까지 분석

기사의 내용을 요약하자면, 질병 연관 유전자 발굴에 AI가 활용되었다는 내용이다.
질병에 대한 유전자의 치료적 유전자 타깃 및 생체 지표 유전자 여부를 예측하고 결과에 대해 충분한 설명을 제공하는 AI 시스템이 개발되었다. 질병은 개인이 가진 여러 유전적 요소들의 복합적 상호작용으로 발생하는데, 하이퍼그래프 및 어텐션 메커니즘을 사용해 질병에 관여하는 여러 생물학적 요소들 사이 복합적 상호작용을 모델링하고, 어텐션 연산 결과 시각화를 통해 모델 예측 결과에 대한 설명도 제공한다.

도메인은 생소하지만 사용된 알고리즘은 흔히 들어왔던 내용이다. 이 시스템에 사용된 메커니즘에 대해 추가적으로 알아보았다.

  • 하이퍼그래프: 보통의 일반 그래프는 노드와 엣지로 구성되며 엣지는 보통 두 노드를 연결한다. 하이퍼그래프는 한 엣지가 2개 이상의 노드를 한꺼번에 연결할 수 있는 구조로 되어있다. 생물정보학에서는 유전자가 여러 생물학적 경로에 동시에 속해있으므로 하나의 하이퍼엣지로 묶을 때 사용한다.
  • 어텐션 메커니즘: 정보의 중요도를 계산해서 집중할 부분에 더 많은 가중치를 주는 기법이다. 주로 딥러닝 모델, 특히 Transformer, BERT 등에 활용되어 나에게도 친숙한 개념이다.

생물학 분야에서 AI를 활용하면 단시간 내 특정 질병에 대한 치료적 유전자 후보군을 발굴하고, 이를 기반으로 질병 유발 유전자에 직접 작용해 질병의 근본 원인을 제거할 수 있을 것이다.


3. 생물정보학 취업

생물정보학자는 생명과 데이터사이언스 두 분야 모두 전문가 수준를 요구한다. 도메인 지식(생명과학)과 기술적 역량(데이터 사이언스)를 모두 갖추어야 한다. 컴퓨터 관련 학과에서 생물학을 추가적으로 공부하는 학생보다는 생물 관련 학과에서 데이터사이언스를 추가적으로 공부하는 학생이 더 많다. 데이터사이언스를 전공한 학생들이 생물정보학에 관심을 갖게 되는 경우도 있지만, 이들은 생물학적 배경지식이 부족한 경우가 많아 생물학적 데이터의 구조나 해석에 어려움을 겪는 경우가 잦다고 한다. 보통의 기업에서 석사 이상을 요구하기 때문에, 학부 졸업 후에 생물정보학 관련 석박사를 따는게 보통이고, 이후에 제약사/유전체분석/AI바이오기업에 취업한다. 생물정보학을 진로로 한다면, 부전공으로 생체의공학과나 유전생명공학과 수업을 듣는 것도 나쁘지 않을 것 같다.

0개의 댓글