본문 바로가기

전체 글123

DataFrame 에서 엑셀 파일을 가져올 때 선행 0을 유지하는 방법 DataFrame 에서 엑셀 파일을 가져올 때 선행 0을 유지하는 방법 방법 1. dtype을 사용하여 문자열로 저장하기import pandas as pd# DataFrame 생성 시 dtype을 문자열로 지정data = {'Column1': ['001', '002', '003'], 'Column2': [10, 20, 30]}df = pd.DataFrame(data, dtype=str)# DataFrame을 Excel로 저장df.to_excel('output.xlsx', index=False) 방법 2. xlsxwriter 사용하여 형식 지정import pandas as pd# 예제 DataFramedata = {'Column1': ['001', '002', '003'], 'Column2': [10, 2.. 2024. 7. 16.
CSV 파일을 가져올 때 선행 0을 유지하는 방법 CSV 파일을 가져올 때 선행 0을 유지하는 방법 방법  : DataFrame을 CSV 파일로 저장할 때 데이터의 leading zero(선행 0)를 유지하는 방법은 열의 데이터를 문자열로 변환하는 것import pandas as pd# 예제 DataFrame 생성data = {'Column1': ['001', '002', '003'], 'Column2': [10, 20, 30]}df = pd.DataFrame(data)# 모든 열을 문자열로 변환df = df.astype(str)# DataFrame을 CSV로 저장df.to_csv('output.csv', index=False)  특정 열만 문자열로 변환 특정 열만 문자열로 변환하여 선행 0을 유지하려는 경우:import pandas as pd# 예제.. 2024. 7. 16.
VCF 파일에서 missing allele 분석하는 방법 (bcftools) VCF 파일에서 missing allele 분석하는 방법  이번에는 Bash 스크립트로 VCF 파일에서 missing allele 분석하는 방법을 알아보겠습니다. bcftools 를 활용하면 쉽게 확인 할 수 있습니다.  bash 스크립트를 활용해서 각 샘플에서 missing allele (. 또는 ./.)의 비율을 계산합니다.#!/bin/bash# VCF 파일 경로VCF_FILE="path/to/your/file.vcf"# 중간결과값 저장용으로 temp 파일 만들기TEMP_FILE=$(mktemp)# FORMAT 과 sample columns 추출bcftools query -f '[%SAMPLE\t%GT\n]' $VCF_FILE > $TEMP_FILE# missing allele counts and t.. 2024. 7. 14.
VCF 파일에서 missing allele 분석하는 방법 VCF 파일에서 missing allele 분석하는 방법 VCF 파일에서는 missing allele이 . 또는 ./. 등의 형식으로 표시됩니다.이 정보를 추출하여 분석하는 방법을 단계별로 설명하겠습니다.  1. VCF 파일 읽기 및 데이터프레임 생성 import pandas as pdimport glob# VCF 파일 경로vcf_file = 'path/to/your/file.vcf'# VCF 파일 읽기 함수def read_vcf(file): with open(file, 'r') as f: lines = f.readlines() header_line = [line for line in lines if line.startswith('#') and not line.startswith(.. 2024. 7. 14.
Multiple VCF 파일을 하나의 DataFrame 으로 합치기 Multiple VCF 파일을  하나의 DataFrame 으로 합치기 import pandas as pdimport glob# VCF 파일들이 저장된 디렉토리 경로vcf_dir = 'path/to/vcf/files/'# VCF 파일 목록 가져오기vcf_files = glob.glob(vcf_dir + '*.vcf')# VCF 파일 읽기 함수def read_vcf(file): with open(file, 'r') as f: lines = f.readlines() header_line = [line for line in lines if line.startswith('#') and not line.startswith('##')][0] header = header_line.strip.. 2024. 7. 14.
Pandas를 활용한 VCF 파일 분석 방법 (심화) Pandas를 활용한 VCF 파일 분석 방법  1. 데이터 타입 변환 및 필터링데이터 분석을 위해서 필요한 열의 데이터 타입을 변환합니다.예를 들어, POS는 정수형, QUAL은 실수형으로 변환할 수 있습니다.# 데이터 타입 변환df['POS'] = df['POS'].astype(int)df['QUAL'] = df['QUAL'].astype(float)df['AF'] = df['AF'].apply(lambda x: float(x.split(',')[0]))# 고품질 변이만 필터링high_quality_variants = df[df['QUAL'] >= 30]print(high_quality_variants) 2. 고품질 변이 분석고품질 변이의 빈도, 위치, 유전자 등을 분석합니다.# 각 변이 위치별 빈도수.. 2024. 7. 14.