FASTA格式文件 |
|
FASTA文件格式被广泛的用来表达生物序列的信息。FASTA格式文件是一种普通文本文件,但具有特定的规范来指定序列和它们的ID号。eArray特别的使用FASTA格式文件来上传核酸序列信息,例如用来在简单叠瓦式设计和表达谱(GE)探针设计中生成探针的目标序列。此格式同样可以用作下载探针列表的文件格式。
FASTA序列设计文件指导:
在FASTA格式中,一个序列以一个单独的描述行起始,随后是一行或多行的序列数据。一个FASTA格式文件可以含有多个序列。A sequence in FASTA format begins with a single description line, followed by one or more lines of sequence data. More than one sequence can be specified in a single FASTA format file.
描述行的第一个字符是一个大于号(">"),以此来与序列数据相区分。通常情况下,仅在描述行中包含序列的ID号。如果您在描述行中包含了其他注释,那么该注释不能超过255个字符(包括空格)。
eArray在处理一条给定的FASTA记录时,将注释行中“>” 之后,一直到第一个空格之前的字符串解析为序列ID号。序列ID号不能超过64个字符(包括空格)。
所关联的序列必须是以IUB/IUPAC核酸密码的简写形式来表示的。所有序列数据都只能包含大写字母A、T、C、G。eArray会将任何其他字母都屏蔽到序列之外。The associated sequences must be represented in an abbreviated version of the IUB/IUPAC nucleic acid code. All sequence data must contain only the capital characters A, T, C, G. eArray masks all other characters out of the sequence.
两个在文件中的FASTA格式的序列示例:
>NM_012514 Rattus norvegicus breast cancer 1 (Brca1), mRNA
CGCTGGTGCAACTCGAAGACCTATCTCCTTCCCGGGGGGGCTTCTCCGGCATTTAGGCCT
CGGCGTTTGGAAGTACGGAGGTTTTTCTCGGAAGAAAGTTCACTGGAAGTGGAAGAAATG
GATTTATCTGCTGTTCGAATTCAAGAAGTACAAAATGTCCTTCATGCTATGCAGAAAATC
TTGGAGTGTCCAATCTGTTTGGAACTGATCAAAGAACCGGTTTCCACACAGTGCGACCAC
ATATTTTGCAAATTTTGTATGCTGAAACTCCTTAACCAGAAGAAAGGACCTTCCCAGTGT
CCTTTGTGTAAGAATGAGATAACCAAAAGGAGCCTACAAGGAAGTGCAAGG
>NM_012515
TGTGGATCTTTCCAGAACAGCAGTTGCAATCACTATGTCTCAATCCTGGGTACCCGCCGT
GGGCCTCACTCTGGTGCCCAGCCTGGGGGGCTTCATGGGAGCCTACTTTGTGCGTGGTGA
GGGCCTCCGCTGGTATGCTAGCTTGCAGAAACCCTCCTGGCATCCGCCTCGCTGGACACT
CGCTCCCATCTGGGGCACACTGTATTCGGCCATGGGGTATGGCTCCTACATAATCTGGAA
AGAGCTGGGAGGTTTCACAGAGGAGGCTATGGTTCCCTTGGGTCTCTACACTGGTCAGCT