hg19 fasta 파일에서 chrosome X 와 chrosome Y PAR region sequence 정보만을 추출 해보겠습니다.
command
bedtools getfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF>
bedtools getfasta를 사용하면 쉽게 가능.
준비물
1. input fasta 파일
2. 영역이 지정된 bed 파일 (target bed)
fasta 파일은 hg19 reference genome sequences 가 담긴 fasta 파일이고
bed 파일은 chr, start position, end position, gene 으로 구성된 bed 파일 입니다.
아래 command 로 실행
결과파일 -> result.fasta 는 아래 처럼 bed 파일의 region 별로 fasta sequence 정보가 추출됩니다.
https://bedtools.readthedocs.io/en/latest/content/tools/getfasta.html
getfasta — bedtools 2.30.0 documentation
getfasta bedtools getfasta extracts sequences from a FASTA file for each of the intervals defined in a BED/GFF/VCF file. Tip 1. The headers in the input FASTA file must exactly match the chromosome column in the BED file. 2. You can use the UNIX fold comma
bedtools.readthedocs.io
'Bioinformatics' 카테고리의 다른 글
ERBB2 bioinformatics analysis (0) | 2023.01.12 |
---|---|
[Bedtools] BED 파일 내 overlap 영역 찾기 (0) | 2022.12.28 |
CopywriteR code complete (0) | 2022.09.30 |
Lecture 8: RNA-sequence Analysis: Expression, Isoforms (0) | 2022.02.22 |
Lecture 6: Genome Assembly (0) | 2022.02.22 |