# bioinformatics

32개의 포스트

[Bioinformatics] STAR를 설치해보자

Macos에 STAR를 설치하며 겪은 우여곡절을 적은 글 https://github.com/alexdobin/STAR STAR는 RNA seq들을 align 해주는 툴로, 위 깃허브에 들어가서 다운을 받을 수 있다. 다운을 받는 과정은 README를 따라하면 된다. STAR 최신 버전 다운 글을 적을 당시 2.7.11a가 최신인데, 나중엔 아닐 수 있으니 깃허브를 참조해주세요. 코드를 다운 받는 것까지는 어떤 OS든 공통적인 과정이니 똑같이 터미널에 복붙하면 된다. STAR를 build하기 지금까지는 소스코드를 다운 받는 거였고, 이제부터는 빌드를 해야한다. 여기서부터는 mac os에 해당하는 빌드 방법, 에러 해결 과정만을 적으려고 한다. 이대로하면 빌드 및 설치가 된다고는 하는데... 나는 2가지 error를 만났다. clang: error: unsupported option '-fopenmp' 뒤에 'CXX' 옵션 없이 make

2023년 8월 29일
·
0개의 댓글
·
post-thumbnail

Finding a Shared Spliced Motif

LCSQ Problem A string $U$ is a common subsequences of strings $s$ and $t$ if the symbols of $u$ appear in order as a subsequence of both $s$ and $t$. For example "ACTG" is a common subsequence of "AACCTTGG" and "ACACTGTGA". Analogously to the definition of longest common substring, $u$ is a longest common subsequence of $s$ and $t$ if there does not exist a longer common subsequence of the two strings. Continuing our above example, "ACCTTG" is a longes

2023년 4월 3일
·
0개의 댓글
·
post-thumbnail

Ordering Strings of Varying Length Lexicographically

문제 Say that we have strings $s=s1 s2... sm$ and $t=t1t2...tn$ with $m {Lex}t$ if $s > {Lex}t'(e.g., APPLET Given A permutation of a most 12 symbols defining an ord

2023년 4월 1일
·
0개의 댓글
·
post-thumbnail

k-Mer Composition

Generalizing GC-content 길이 k의 유전자 문자열 부분 문자열은 일반적으로 k-mer라고합니다. 길이 n의 유전자 문자열은 n-k + 1개의 중첩 k-mer로 구성될 수 있습니다. 유전자 문자열의 k-mer 구성은 문자열에서 각 가능한 k-mer가 발생하는 횟수를 인코딩합니다. 예를 들면 아래와 같이 말이죠. 1-mer 구성은 DNA의 GC-content를 정량화 할 수 있고, DNA 문자열의 2-mer, 3-mer 및 4-mer 구성은 이중핵산, 삼중핵산 및 사중핵산 구성으로 k-mer 구성을 정량화 합니다. k-mer 구성의 생물학적 의의는 다양합니다. GC-content는 알려지지 않은 DNA 조각을 식별하는 데 도움이되는 것뿐만 아니라, 전체 게놈과 비교하여 **높은 GC-content를 가진 유전자 영역은 엑손에 속할 가능성이

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

230316 Bioinfo Study-3 (bigwig변환 및 BAM파일 brower에서 보기)

1.UCSC Genome browser https://genome.ucsc.edu/index.html 우리가 처리한 data가 reference genome에서 어느 위치에 있는지 어떤 역할을 하는 지 쉽게 보기 위해서 UCSC genome browser를 이용한다. 2. UCSC Genome browser를 사용하기 위한 Data 전처리 ① deeptool을 이용한 자동화 script 확인 ② 자동화 script를 이용해 모든 sample에 대한 명령어 생성 ③ script 실행 ④ 서버에서 로컬로 다운로드 ⑤ Dropbox에 업로드 & 공유 url Dropbox에서 링크 복사 3. UCSC Genome browser에 Data 업로드

2023년 3월 19일
·
0개의 댓글
·
post-thumbnail

230316 Bioinfo Study-2 (Mark duplicate, Peak calling)

1. Mark duplicate란? library prep과정에서 DNA조각이 여러번 복제되는 PCR 중복이 일어남. 이렇게 중복된 read는 특정 클러스터에 많이 나타나는 것으로 인식하게 되어 해당 부위의 유전자의 열림 정도를 과대해석하게 함. 따라서, 기술적으로 이를 보정하는 과정임. 2. Peak calling란? ATAC-seq 데이터에서 열린 유전자 영역을 식별하는 과정. 이를 위해 매핑된 리드들의 밀도 분포를 분석하여 각 유전자의 열림 정도를 추정함. 3. Mark duplicate processing ① 자동화 script 확인하기 ② 자동화 script를 이용해 모든 sample에 대한 명령어 생성 ③ script 실행 4. Peak calling processing ① 자동화 script 확인하기 > callpeak 옵션 (MACS2) -t</spa

2023년 3월 16일
·
0개의 댓글
·
post-thumbnail

230316 Bioinfo Study-1 (Genome alignment, Sorting)

1. Alignment와 sorting이란? ① alignment 시퀀싱한 reads를 reference genome 상의 적절한 위치에 맵핑(배열)하는 것을 의미함. ② Sorting 일반적으로 SAM파일이나 BAM파일은 read 데이터가 맵핑된 순서대로 정렬되어있지 않음. 따라서, 맵핑된 결과를 분석하기 전에 reference genome 상에서 위치에 따라 데이터를 순서대로 재정렬하는 과정. 2. Alignment & Sorting process ① Bowtie alignment 자동화 script 확인하기 본인의 설정에 맞게 잘 설정하기 ex) reference 위치, 변수 선언에서 파일명 및 확장자 확인하기 수정본 > Bowtie2 opti

2023년 3월 16일
·
0개의 댓글
·
post-thumbnail

230309 Bioinfo Study-1 (adapter trimming-cutadapt)

1. Adapter란? (https://knowledge.illumina.com/library-preparation/general/library-preparation-general-reference_materi

2023년 3월 10일
·
0개의 댓글
·
post-thumbnail

230302 Bioinfo study-3 (Linux 명령어)

기본적인 Linux 명령어 리눅스는 터미널을 통해 명령어를 입력하여 작업을 수행. 1. ls : 현재 디렉토리에 있는 파일과 디렉토리 나열 2. pwd : 현재 디렉토리의 경로 보여주기 3. cd : 디렉토리 이동 4. mkdir : 디렉토리 생성 5. cp : 파일이나 디렉토리 복사 6. mv : 파일이나 디렉토리 이동 7. rm : 파일이나 디렉토리

2023년 3월 3일
·
0개의 댓글
·
post-thumbnail

230302 Bioinfor study-2 (Data accession, Package 설치)

1. Data accession 1. Array express https://www.ebi.ac.uk/biostudies/arrayexpress/studies : E-MTAB 형식으로 표시됨 (ex.E-MTAB-8194) ① view table 클릭 ② 필요한 데이터의 ENA 클릭 ③ fastq파일 다운로드 or 마우스 우클릭 후 '링크 주소 복사'

2023년 3월 3일
·
0개의 댓글
·
post-thumbnail

230302 Bioinfo study-1 (Data processing, Data format)

0. Opening 3월 2일 목요일부터 매주 2시간씩 Bioinformatics 데이터 분석을 배우게 되었다. 일단은 GEO 등에서 공개된 데이터를 이용해서, data 전처리부터 R을 이용한 통계처리까지 해보는 것으로 이야기되었다.. 추후에 박사님이 실험데이터를 얻으면 그 데이터를 이용해서 스터디가 진행될 수도 있다. 아마 ATAC-Seq, ChIP-Seq 데이터를 먼저 얻을 것이기 때문에 ATAC-Seq과 ChIP-Seq 데이터 처리하는 것을 먼저 배우게 될 것이고, 교수님이 시간적 여유가 된다면 RNA-seq이나 MNase-seq 데이터도 처리하는 법을 배우지 않을까 싶다. 따라서, 당분간은 주로 ATAC-Seq에 관련된 글을 포스팅할 것 같다. 1. Data processing ① ATAC-seq - Adapter trimming (cutadapt) > Sequencing을 하

2023년 3월 3일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Structural variation in the sequencing era (2020)

제목: Structural variation in the sequencing era (2020) : Review paper 링크: https://www.nature.com/articles/s41576-019-0180-9 0. Abstract Structural variation (SV)을 찾는 것은 genome interpretation에 굉장히 중요하지만, 현재 기술의 한계로 인해 어렵다. Ensemble algorithm과 새로 등장하는 시퀀싱 기술을 바탕으로 하는 detection method는 수천개의 SV를 발견하는데 도움을 줬으며, 질병과의 연관성을 밝히는데 많은 도움을 주고 있다. SV는 종류와 크기가 다양하고, 변이를 발굴하는 genomic platform 마다 detection 편향이 있기에, multiplatform discovery 방식으로 넓은 변이 스펙트럼을 잡아야 한다.

2023년 2월 24일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] SV의 간단한 소개와 역사 - A decade of structural variants: description, history and methods to detect structural variation (2015)

제목: A decade of structural variants: description, history and methods to detect structural variation (2015) : 리뷰 논문 링크: https://academic.oup.com/bfg/article/14/5/305/184088 0. Abstract Structural Variation (SV)은 우연의 현상이라고 여겨져 왔었으나, 이제는 interindividual genetic variation의 가장 큰 원인으로 여겨진다. Phenotypic variation과 disease에도 영향을 크게 끼치는 것으로 알려짐 이번 논문에서는 SV에 대한 간단한 소개, 역사, 그리고 SV를 detect하는 여러 방법들에 대한 소개 1. Brief Introduction SV is generally defined a

2023년 2월 21일
·
0개의 댓글
·
post-thumbnail

16가지 생물정보 분석가 면접 질문

이 글은 이곳에서 퍼온 글임을 알립니다. 1. 생물정보학에서 사용되는 언어들을 잘 사용할 수 있습니까? 질문 의도 생명정보학에서 사용되는 기술 지식과 경험에 대해 물어보는 것이다. 사용했던 경험이 있다면 기술을 사용했던 경험에 대해 서술하면 되고, 그렇지 않다면 배우고자 하는 의지를 보여주는 것이 중요하다. 답변 예시 저는 Python과 R을 사용할 줄 압니다. 대학원에서 연구를 진행하기 위해 R을 사용해 데이터를 정제하고, python을 사용해 정제된 데이터를 머신러닝으로 질병 분류를 수행해 보았습니다. 또한 python과 shell script를 사용해 transcriptome NGS 데이터를 정제하는 프로그램을 만들어 보았습니다. 아직 Perl이나 Ruby, C++같은 언어에는 익숙하지 않지만 배워 사용해보고 싶습니다.

2023년 2월 15일
·
0개의 댓글
·
post-thumbnail

[Bioinformatics] Presentation: ShRec3D

I gave a 40-minute presentation in the Introduction to Bioinformatics class at the University of Miami. It was reviewing the paper "3D Genome Reconstruction from chromosol contacts" by Annick Lense. It was the first in-person presentation in my university life. 40-minute was a long presentation but I ended up performing well. ![](https://velog.velcdn.com/images/bona-park/post/d3ccbfb4-9d10-4d

2022년 10월 18일
·
0개의 댓글
·

[Bioinformatics] Paper Review: Hi-C

Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome Bona Park Chromosome conformation capture is a way that enables researchers to observe interactions between loci. These loci are in close contact in the 3-dimnesional structure of a chromosome, but they can be apart in the linear sequence. It is important to understand how chromosomes fold that it

2022년 10월 18일
·
0개의 댓글
·
post-thumbnail

Bioinformatics_Pairwise-Alignments_Dynamic-Programming(Alignments_Algorithm)

Bioinformtics 분야에서 Pairwise Alignment를 위해 여러 알고리즘이 사용되는데 그 중 가장 효율적인 알고리즘 중 하나가 Dynamic Programming 이다. Pairwise Alignment는 두 개의 SequencePairwise alignment가 있을 때 두 Sequence간의 similar한 region을 찾거나 어떠한 한 Sequence가 어디로 부터 온 것인지, 가장 유사한 Sequence가 무엇인지 찾기 위한 과정이다. (전혀 다른 말도 안되는 걸 하지는 않고 상대적으로 유사한 sequence를 갖고 한다고 한다.) DB에서 BLAST라는 툴을 이용해서 simiral한 Sequence를 찾는 것이고 multiple sequence alignment의 기본이다. Alignment는 두 가지 factor에 의해 결정 된다. Alignment Algorithm Alignment Scoring (parame

2022년 9월 27일
·
0개의 댓글
·
post-thumbnail

Error Correction in Reads

문제 해설 Next Generation Sequencing(NGS가) 개발되고 나서, 저렴한 비용으로 DNA의 sequencing을 할 수 있게 되었습니다. NGS는 전체 DNA를 읽지는 못하고 DNA를 작게 쪼개 염기서열을 읽어들입니다. 그렇게 읽은 작은 DNA조각을 read라고 합니다. 그런데 NGS는 만능이 아니기에 주의를 기울여야 합니다. NGS는 무시 못할 확률로 리드를 읽을 때 에러를 발생시키기 때문입니다. 심지어 에러는 어떤 파트에 발생할지 예측할 수 없습니다. 그러므로 Genome Assembly를 수행 할 때는 반드시 에러를 수정하는 절차를 거쳐야 합니다. 문제 해석 원문 As is the case with point mutations, the most common type of sequencing error occurs when a single nucleotide from a read is interpreted incorrectly. **<span

2021년 12월 8일
·
0개의 댓글
·
post-thumbnail

Catalan Numbers and RNA Secondary Structures

문제배경 Human knot 이라는 것을 보신적이 있으신가요? knot 이 매듭이라는 뜻이므로, 위의 사진과 같이 여러사람이 모여 서로 손을 마치 매듭처럼 붙잡는 것입니다. 그렇다면, 여러명의 사람이 둥글게 모여 모든 사람이 다른 사람과 손을 붙잡는다고 칩니다. 그 때, 서로의 팔이 교차되지 않도록 붙잡는 방법은 몇가지나 있을까요? 이 질문이 Catalan Numbers 문제의 핵심입니다. RNA folding이라고 들어보셨나요? RNA folding은 RNA의 2차 구조가 형성되는 것을 의미합니다. ![](https://images.velog.io/images/pdestiny2537/post/4b5aa1d9-597f-4f59-8cb2-734df4ed1649/rna_folding.

2021년 11월 28일
·
0개의 댓글
·
post-thumbnail

Completing a Tree

문제배경 다윈의 종의기원이 출판 된 이래 1세기 반이 지나갔지만, 지구상의 생명체를 계통을 통합하는 Tree of Life 는 아직 완성되지 않았습니다.왜냐하면 90%의 생물이 아직 분류되지 않았기 때문입니다. 전체 Tree of Life를 한번에 그리기보다는 종들의 집합을 뭉쳐서 단순한 트리만듭니다. (이런 그룹 하나를 taxon이라고 부립니다. pl.taxa) 주어진 taxon의 집합을 이용해 계통(phylogeny) 수를 만들어 taxon간의 어떻게 진화해 왔는지를 Tree 형식으로 표현 할 수 있습니다. 문제해석 원문 An undirected graph is connected if there is a path connecting

2021년 11월 28일
·
0개의 댓글
·