Python53 Python programming for Bioinformatics - 연습문제 3 파이썬으로 실무에 적용 가능할 법한 bioinformatics 연습문제를 만들어서 풀어보겠습니다. input 데이터를 사용해서 output 형태로 만들면 성공입니다. INPUT 1 : MCP_hight1000_CVC100.txt INPUT 2 : a.txt 1.문제 설명 : 1) INPUT1 파일에서 첫 번째 필드 값(‘_’ 를 기준으로 앞부분만을 취함)이 INPUT2 파일의 두 번째 필드 값에 있는지를 체크한다. 그리고 해당 값의 gene_symbol(7번째) 이 존재하면, 2번째 (rs_num), 7번째(gene_symbol), 8번째 (func) 필드 값을 OUTPUT 파일에 써준다. OUTPUT 2. 결과 파일: • 맨 앞 첫 번째 열은 해당 행의 number 이다. => 결과는 header 없이.. 2023. 7. 24. Python programming for Bioinformatics - 연습문제 2 파이썬으로 실무에 적용 가능할 법한 bioinformatics 연습문제를 만들어서 풀어보겠습니다. input 데이터를 사용해서 output 형태로 만들면 성공입니다. INPUT1 : single_linkagne.txt INPUT 2 : proteins.fasta 1.문제 설명 : 1)INPUT2의 fasta 파일에서 INPUT1 파일의 ID 에 해당하는 sequence를 가져와 새로운 파일을 만든다. OUTPUT 2. 결과 파일: • INPUT1 에서 나온 ID 순서로 파일을 만든다. (RAT_38, HUMAN_168, HUMAN_214 순서가 되야겠죠? ) => 결과는 644개의 sequence 파일이 만들어진다. 코드 설명 import os if not os.path.exists("result"): .. 2023. 7. 24. Python programming for Bioinformatics - 연습문제 1 파이썬으로 실무에 적용 가능할 법한 bioinformatics 연습문제를 만들어서 풀어보겠습니다. input 데이터를 사용해서 output 형태로 만들면 성공입니다. INPUT 1.문제 설명 : 1)첫 번째 필드인 IPI 별로 두 번째 필드인 Domain 을 가져온다. 이때, 해당 IPI에 들어가는 Domain은 중복처리를 하여 여러 번 Domain이 나와도 한번으로만 처리한다. 2) 첫 번째 필드의 IPI 에 대해서 세 번째 필드의 값을 모두 더해준다. Domain의 중복 여부에 상관없이 모두 값을 더해준다. OUTPUT 2. 결과 파일: • IPI 별로 Domain 개수가 4인 것만을 출력한다. • 각 필드는 tab으로 구분한다. • 1번째 필드 : IPI_number • 2번째 필드 : 4개의 Do.. 2023. 7. 24. Pandas DataFrame 첫번째 행을 헤더로 지정 데이터를 다루다 보면 헤더가 지정되어 있지 않는 경우가 있습니다. 아래 와 같은 경우. 첫번재 행을 헤더로 지정해주면 좋을듯 합니다. 방법: row 인덱스 포지션 0 에 해당하는 값을 컬럼 이름으로 지정해줍니다. new_header = df.iloc[0] df = df[1:] df.columns = new_header df.head(5) 헤더로 지정된것 확인. 필요하다면 df.reset_index(drop=True, inplace=True) 인덱스값을 reset 해주면 깔끔하게 볼 수 있습니다. 2022. 3. 11. 이전 1 ··· 7 8 9 10 11 12 13 14 다음 300x250