유전체 정보 및 검체 정보 표준 물질로 가장 많이 인용되고 비교용으로 사용되는
NA12878 의 시퀀스 정보를 다운 받아 보겠습니다.
표준 물질을 정답기반으로 위양성으로 판단되는
모든 변이들을 표준 물질과 비교함으로써 오류를 검출 할 수 있습니다.
Coriell Institute for Medical Research
다른 표준물질들은 코리엘 연구소 사이트에서 찾으실 수 있습니다.
https://catalog.coriell.org/
Coriell Institute for Medical Research
BIOBANK --> Through partnerships with federal, nonprofit, and private organizations, Coriell offers the world's most diverse collection of biological samples.
catalog.coriell.org
NA12878 이 가장 많이 사용되는 이유는
가계도에 따라 family history 가 잘 보존되어 있기 때문입니다.
NA12878 data download
본격적으로 NA12878 data 를 다운 받아 보겠습니다.
먼저 아래 사이트로 들어갑니다.
https://www.internationalgenome.org/
1000 Genomes | A Deep Catalog of Human Genetic Variation
The International Genome Sample Resource The 1000 Genomes Project created a catalogue of common human genetic variation, using openly consented samples from people who declared themselves to be healthy. The reference data resources generated by the project
www.internationalgenome.org
그리고 우측 상단에 원하는 (코리엘 사이트에 찾아본) 표준물질 번호를 기입합니다.
위와 같은 페이지가 나오는데 왼쪽에 보시면, 데이터 타입에 따라 데이터를 받을 수 있습니다.
Data types
Variant
Sequence
Alignment
그리고 분석 방법에 따라 한번더 필터링 할 수 있습니다.
Techologies
Integrated variant call sets
Exome
Low coverage WGS
PCR-free high coverage
(저는 LWGS sequence 를 골랐습니다.)
sequence data 를 골랐으니 fastq 데이터를 보실 수 있겠죠.
variant data 를 고르시면 vcf 파일이 제공 됩니다. (아래 그림)
데이터 타입과 분석 방법에 따라 데이터를 골라서 사용하시면 됩니다.
참고로, fastq 파일 경우 용량이 (~4.5G) 좀 있다는 점 참고 바랍니다.
[output]
-rw-rw-r--. 1 skkwon1048 server 4.3G 2012-12-06 13:21 SRR622461_1.fastq.gz
-rw-rw-r--. 1 skkwon1048 server 4.5G 2012-12-06 13:25 SRR622461_2.fastq.gz
https://www.internationalgenome.org/data-portal/sample/NA12878
Data portal | 1000 Genomes
www.internationalgenome.org
'Bioinformatics' 카테고리의 다른 글
FastQC evaluating results (0) | 2023.04.05 |
---|---|
Bedtools v2.17.0 vs v2.30.0 비교 [coverage] (0) | 2023.02.23 |
bioinformatics tools installation (2023 최신버전) (0) | 2023.02.07 |
Qualimap2 - BAMQC (0) | 2023.01.20 |
[Samtools] [Bedtools] BAM to FASTQ 파일 전환 (0) | 2023.01.19 |