본문 바로가기
Bioinformatics

Lecture 4: Comparative Genomic Analysis of Gene Regulation

by 코딩하는 미토콘드리아 bioinformatics 2022. 2. 22.
반응형

Markov model (마르코프 모델)

Essence of the Markov properties

DNA sequence evolution in successive generations where the observation here is that the base at a particular position at generation n+1 here depends on the base at that generation and the base at generation n. But conditional on knowing the base at generation n, you don't learn anything from knowing what that base was at generation n-1. 

 

A random process which has the property that the future (next state) is conditionally independent of the past given the present (current state)

 

특정 상태의 확률은 오직 과거의 상태에 의존한다.

0 번째에서 t 번째의 (과거) 데이터가 있을때 t + 1 번째의 (미래) 데이터는 t 번째에 의존한다.

만약 t 번째의 데이터가 없다면 t - 1번째에 의존하게 된다. 

그림2. https://ichi.pro/ko/saengmulhagjeog-seoyeol-e-jeog-yongdoen-eunnig-maleukopeu-model-3795991241292

DNA에 대한 Markov 사슬 모델의 행령 표현.

DNA 뉴클레오티드 (A, C, G, T)와 연결된 4 가지 상태.

각 에지는 한 상태에서 다른 상태로 또는 자체로 전환 될 확률.

 

reference

1. http://www.incodom.kr/%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5/markov_model

 

만약 3 sequences 를 align 해야한다면..

 

Multiple Sequence Alignments (다중서열정렬)

3개 이상의 DNA, RNA, Protein과 같은 서열들을 sequence alignment 

 

Sequences are aligned so as to bring the greatset number of single characters into register,

and maximize a score that rewards matches and penalizes mismatches, gaps.

일치하는 항목은 보상하고 격차는 벌점으로 점수를 매긴다. 

 

패밀리 분석, 계통관계 분석, 도메인 분석 등에 사용된다.

잘유지된 서울 위치와 유지되지않은 서열 위치를 파악 할 수 있다. 잘 유지된 (well-conserved residues) 는 진화적으로 서열의 기능에 매우 중요하다고 유추 할 수 있다.

CLUSTALW - 다중서열정렬 대표 알고리즘 (cf : progressive MSA, lterative MSA)  

 

Substitution 계산 방법

1. Jukes-Cantor models

http://treethinkers.org/jukes-cantor-model-of-dna-substitution/

transition(A<->G, T<->C)과 transversion 이 일어날 확률을 동일본다.

 

2. Kimura models

transitions occur much more often than transversions 를 고려하였다. 

 

Calculationg of Ka/Ks ratio (dN/dS ratio)

변이를 고려하여 진화속도를 추정한다.

 

NonSynonymous(Ka or dN) : changes to the codons that change the underlying amino acid, the encoded amino acid.

아미노산을 변형시키는 염기 돌연변이

 

Synonymous(Ks or dS) : changes which are base changes to triplets that do not change the encoded amino acid.

아미노산을 변형시키지 않는 염기 돌연변이

 

-Ka/Ks > 1 : 진화 속도가 빠르다. 기존상태에서 이틸. positive selection

-Ka/Ks = 1 : 중립적이다. neutral selection

-Ka/Ks < 1 : 진화 속도가 느리다. 기존상태를 유지. negative selection

 

reference

2. http://www.incodom.kr/Substitution_model

반응형