TotalOmics
초기 서열 데이터 (FASTQ)
FASTQ는 염기해독(base calling)을 통해 염기서열로 변환된 텍스트 파일입니다.
크게 서열 데이터와 각 서열에 해당하는 퀄리티 점수로 구성되어 있습니다.
보통은 아래와 같이 4줄로 이루어져 있습니다.
1) @HWI-EAS80_4_4_1_554_126
2) GTATGCCGTCTTCTGCTTGAAAAAAAAAAACATAAAACAA
3) +HWI-EAS80_4_4_1_554_126
4) hhhhhhhhhhhhhhhhhhh[hEhSJPLeLdCLEN>IXHAA
1), 3) 번 줄은 서열 해독기가 자동으로 부여한 각 서열의 아이디를 지칭합니다.
2)번은 서열입니다.
4)번은 각 염기에 해당하는 퀄리티 점수를 ASCII코드로 표기한 것입니다.
ASCII 코드 표기 h 값은 104이지만, 실제 퀄리티 점수는 64를 빼준 40이 됩니다.
저희 테라젠에서 제공하는 Solexa 시퀀싱 결과는 모든 퀄리티 범위는 0에서 40까지 이며
아래 표 1. 와 같은 에러율과 퀄리티값 및 문자 표기법을 따릅니다.
