반응형
Multiple VCF 파일을 하나의 DataFrame 으로 합치기
import pandas as pd
import glob
# VCF 파일들이 저장된 디렉토리 경로
vcf_dir = 'path/to/vcf/files/'
# VCF 파일 목록 가져오기
vcf_files = glob.glob(vcf_dir + '*.vcf')
# VCF 파일 읽기 함수
def read_vcf(file):
with open(file, 'r') as f:
lines = f.readlines()
header_line = [line for line in lines if line.startswith('#') and not line.startswith('##')][0]
header = header_line.strip().split('\t')
data_lines = [line for line in lines if not line.startswith('#')]
data = [line.strip().split('\t') for line in data_lines]
df = pd.DataFrame(data, columns=header)
return df
# 모든 VCF 파일을 읽어서 데이터프레임으로 결합
df_list = [read_vcf(file) for file in vcf_files]
df_combined = pd.concat(df_list, ignore_index=True)
print(df_combined.head())
https://dmnfarrell.github.io/bioinformatics/multi-sample-vcf-dataframe
반응형
'Python' 카테고리의 다른 글
CSV 파일을 가져올 때 선행 0을 유지하는 방법 (0) | 2024.07.16 |
---|---|
VCF 파일에서 missing allele 분석하는 방법 (0) | 2024.07.14 |
Pandas를 활용한 VCF 파일 분석 방법 (심화) (0) | 2024.07.14 |
Pandas를 활용한 VCF 파일 전처리 분석 방법 (0) | 2024.07.14 |
Pandas를 활용한 VCF 파일 분석 방법 (기본) (0) | 2024.07.14 |