본문 바로가기

분류 전체보기125

Mutect2 명령어 마스터하기 Mutect2 command기본 체세포 변이 탐지:gatk Mutect2 \ -R reference.fasta \ -I tumor.bam \ -I normal.bam \ -tumor tumor_sample_name \ -normal normal_sample_name \ -O somatic.vcf단일 샘플 분석 (정상 샘플 없이):gatk Mutect2 \ -R reference.fasta \ -I tumor.bam \ -tumor tumor_sample_name \ -O single_sample.vcfPanel of Normals (PoN) 사용:PoN은 정상 샘플에서 발견되는 변이를 필터링하는 데 사용됩니다.gatk Mutect2 \ -R reference.fas.. 2025. 1. 8.
vcf <NON_REF> 해결 방법 (feat. GATK) 결론부터 말씀드리면, 일반적인 현상입니다. VCF 파일 ALT 컬럼에 가 나타나는것은GATK의 HaplotypeCaller를 사용할 때 발생할 수 있는 일반적인 현상입니다.이는 GATK가 변이를 호출할 때,레퍼런스와 다른 모든 가능한 대립형질을 나타내기 위해 를 사용하는 방식 때문이고이런 현상은 GVCF 모드로 호출 시 발생 할 수 있습니다.  1. GVCF 모드란? GATK는 샘플별로 변이 가능성을 모두 포함한 데이터를 생성합니다. 이때 변이가 없는 영역은 로 표시하여 변이가 없음을 의미합니다.VCF 모드로 변경 만약 최종적인 VCF를 바로 생성하려면 HaplotypeCaller를 실행할 때 -ERC GVCF 대신 -ERC NONE 옵션을 사용해야 합니다.gatk HaplotypeCaller \ .. 2025. 1. 7.
DataFrame 에서 엑셀 파일을 가져올 때 선행 0을 유지하는 방법 DataFrame 에서 엑셀 파일을 가져올 때 선행 0을 유지하는 방법 방법 1. dtype을 사용하여 문자열로 저장하기import pandas as pd# DataFrame 생성 시 dtype을 문자열로 지정data = {'Column1': ['001', '002', '003'], 'Column2': [10, 20, 30]}df = pd.DataFrame(data, dtype=str)# DataFrame을 Excel로 저장df.to_excel('output.xlsx', index=False) 방법 2. xlsxwriter 사용하여 형식 지정import pandas as pd# 예제 DataFramedata = {'Column1': ['001', '002', '003'], 'Column2': [10, 2.. 2024. 7. 16.
CSV 파일을 가져올 때 선행 0을 유지하는 방법 CSV 파일을 가져올 때 선행 0을 유지하는 방법 방법  : DataFrame을 CSV 파일로 저장할 때 데이터의 leading zero(선행 0)를 유지하는 방법은 열의 데이터를 문자열로 변환하는 것import pandas as pd# 예제 DataFrame 생성data = {'Column1': ['001', '002', '003'], 'Column2': [10, 20, 30]}df = pd.DataFrame(data)# 모든 열을 문자열로 변환df = df.astype(str)# DataFrame을 CSV로 저장df.to_csv('output.csv', index=False)  특정 열만 문자열로 변환 특정 열만 문자열로 변환하여 선행 0을 유지하려는 경우:import pandas as pd# 예제.. 2024. 7. 16.