FASTA格式文件

FASTA文件格式被广泛的用来表达生物序列的信息。FASTA格式文件是一种普通文本文件，但具有特定的规范来指定序列和它们的ID号。eArray特别的使用FASTA格式文件来上传核酸序列信息，例如用来在简单叠瓦式设计和表达谱(GE)探针设计中生成探针的目标序列。此格式同样可以用作下载探针列表的文件格式。

FASTA序列设计文件指导：

在FASTA格式中，一个序列以一个单独的描述行起始，随后是一行或多行的序列数据。一个FASTA格式文件可以含有多个序列。A sequence in FASTA format begins with a single description line, followed by one or more lines of sequence data. More than one sequence can be specified in a single FASTA format file.
描述行的第一个字符是一个大于号(">")，以此来与序列数据相区分。通常情况下，仅在描述行中包含序列的ID号。如果您在描述行中包含了其他注释，那么该注释不能超过255个字符(包括空格)。
eArray在处理一条给定的FASTA记录时，将注释行中“>” 之后，一直到第一个空格之前的字符串解析为序列ID号。序列ID号不能超过64个字符(包括空格)。
所关联的序列必须是以IUB/IUPAC核酸密码的简写形式来表示的。所有序列数据都只能包含大写字母A、T、C、G。eArray会将任何其他字母都屏蔽到序列之外。The associated sequences must be represented in an abbreviated version of the IUB/IUPAC nucleic acid code. All sequence data must contain only the capital characters A, T, C, G. eArray masks all other characters out of the sequence.

两个在文件中的FASTA格式的序列示例：

>NM_012514 Rattus norvegicus breast cancer 1 (Brca1), mRNA

CGCTGGTGCAACTCGAAGACCTATCTCCTTCCCGGGGGGGCTTCTCCGGCATTTAGGCCT

CGGCGTTTGGAAGTACGGAGGTTTTTCTCGGAAGAAAGTTCACTGGAAGTGGAAGAAATG

GATTTATCTGCTGTTCGAATTCAAGAAGTACAAAATGTCCTTCATGCTATGCAGAAAATC

TTGGAGTGTCCAATCTGTTTGGAACTGATCAAAGAACCGGTTTCCACACAGTGCGACCAC

ATATTTTGCAAATTTTGTATGCTGAAACTCCTTAACCAGAAGAAAGGACCTTCCCAGTGT

CCTTTGTGTAAGAATGAGATAACCAAAAGGAGCCTACAAGGAAGTGCAAGG

>NM_012515

TGTGGATCTTTCCAGAACAGCAGTTGCAATCACTATGTCTCAATCCTGGGTACCCGCCGT

GGGCCTCACTCTGGTGCCCAGCCTGGGGGGCTTCATGGGAGCCTACTTTGTGCGTGGTGA

GGGCCTCCGCTGGTATGCTAGCTTGCAGAAACCCTCCTGGCATCCGCCTCGCTGGACACT

CGCTCCCATCTGGGGCACACTGTATTCGGCCATGGGGTATGGCTCCTACATAATCTGGAA

AGAGCTGGGAGGTTTCACAGAGGAGGCTATGGTTCCCTTGGGTCTCTACACTGGTCAGCT