Genomik Dizilemede Kullanılan Dosya Formatları
Biyolojik örneklerin DNA bilgisine dizileme yöntemleriyle ulaşabiliriz. Peki bu yüklü miktardaki veriyi nasıl anlamlandıracağız? Bu yolda izlenen analizlerde kullanılan dosya formatlarını tanıyalım!
Fast5
Bu dosya formatı, Oxford Nanopore Teknolojileri platformu kullanılarak yapılan dizileme sonucunda üretilen ham sinyal verisini içermektedir. Fast5 dosyasındaki ana veriler, nanoporlardan saniyede binlerce kez alınan ölçümler sonucunda oluşan ve “dalgalı çizgiler” olarak görünen verileri içerir:
Fastq
Fastq, dizileme sonucunda oluşturulan başka bir dosya biçimidir. Fastq dosyası, her bir okuma için 4 satır bilgi içerir;
İlk satır, başlık ve okuma hakkında bilgi içerir.
İkinci satır dizinin kendisini içerir.
Üçüncü satır ek bilgiler veya yalnızca “+” işareti içerir.
Dördüncü satır, dizideki her bir baza karşılık gelen kalite skorunu göstermektedir
Fasta
Fasta formatı nükleotit yada protein dizisi içeren bir metin dosyasıdır.
">" işareti ile başlayan ve bir dizi tanımlamaları içeren bir satır. Bu satıra istenilen bütün bilgiler yazılabilir. Satırın içeriği tamamen isteğe bağlıdır. Satırda hiç bir bilgi yer almasa bile ">" işareti kesinlikle olmalıdır.
Sekansın kendisini içeren bir yada birden fazla satır. Genellikle uzun diziler 60 yada 100 bazdan sonra bir alt satırdan devam eder şekilde yazılır.
SAM (Sequence Alignment/Map) & BAM (Binary Alignment Map)
SAM ve BAM dosyaları, bir referans genoma hizalanmış tüm okumaları içeren dosyalardır. BAM dosyaları bir başlık bölümü ve bir hizalama bölümü içerir. BAM dosyalarının başlık bölümü tüm dosya hakkında bilgi içerirken, hizalamalar bölümü okumaların adını, nükleotid dizisini, okuma kalitesini ve hizalama bilgilerini içerir.
BAM dosyaları, insanlar tarafından okunamayan ikili dosya biçiminde olmaları dışında SAM dosyalarıyla aynı bilgileri içerir. Ancak hizalama verileri neredeyse her zaman BAM dosyalarında depolanır ve hizalanmış okumaları analiz eden çoğu yazılım, verileri BAM biçiminde almayı bekler. Çünkü BAM dosyaları, SAM dosyalarından daha küçük ve daha verimli çalışmasıyla zamandan tasarruf sağlar ve hesaplama ve depolama maliyetlerini azaltır.
VCF
Elde edilen dizileme verisinin pozisyon, varyasyon ve kalite bilgilerinin depolandığı dosya formatıdır. Bu aşamadan sonra, elde edilen veri anote edilerek (yani sınıflandırılarak) tespit edilen varyantların frekans, patojenite gibi sınıflandırmaları yapılır.