探针上传的文件格式和要求

探针数据文件必须符合以下格式要求，这样eArray才能正确解析它们。

文件类型

文件格式

同一文件中数据的常用格式

单个数据类型的具体要求

一些可能导致上传错误的原因

注意：
• 探针上传不可用于microRNA探针。
• 另外一个主题描述了靶向序列捕获应用类型中的序列捕获探针上传的文件格式。请参阅上传序列捕获探针。

文件类型

eArray支持以下文件类型用于探针上传：

Microsoft Excel 文件 (*.xls) – 注意：如果您使用Microsoft Excel 2007来创建文件，请将其保存为Excel 97-2003 兼容模式工作表。这样文件就被保存为所需的*.xls格式。
Tab-delimited文本文件(*.tdt or *.txt) – 仅在一条记录(行)的各个域(栏目)之间放入制表位(tab)。在每条记录(行)的结尾使用换行符号。

文件格式

eArray支持以下文件格式：

完整格式 – 七个栏目：

探针ID号

序列

目标ID

登录号

基因符号

描述

染色体位置

简化格式 – 两个栏目：

探针ID号

序列

同一文件中数据的常用格式

在上传文件中，eArray：

接受任何栏目顺序 – 您标记栏目是上传过程的一部分。
接受额外的栏目 – 在您在上传过程中标记栏目时，请确保将任何额外栏目标记为忽略。
接受，但不会理解栏目标题 – 请确认您在上传过程中标记栏目时选中我上传的文件包含“栏目标题”。
不接受双引号或单引号、尖括号、或左斜线或右斜线。
忽略空白行。
认为一行内的所有条目均有制表位分隔，即使条目实际为空。

注意：一次最多可向eArray中上传200,000个探针。来自极大上传文件的探针可能较长时间都不会出现在您的账户中。

单个数据类型的具体要求

探针ID号 – 探针序列的一个唯一标示符，最多包含15个字符。探针ID不能为空。

序列 – 探针的碱基序列，取向为从5'端到3'端。序列的长度必须为20到60个核苷酸，并且必须仅包含大写字母A、C、G、和T。序列不能为空。
目标ID – 也指主登录号，目标ID大多数时候表示目标转录本。目标ID号所独特识别的序列是最能够反映目标转录本的。仅允许一个注释值，并且它可以包括或忽略源名称。例如，ref|AK075564和AK075564都是可以的。目标ID可以为空。
登录号 – 对于每个探针都是唯一的标识符，指一个核苷酸序列，为相关联探针的目标和/或作为该目标的产品的蛋白质序列。登录号是用成对的<source>|<ID>格式来表示的。<source>是登录号所在数据库的符号，<ID> 是对于探针唯一的标识号。例如，ref|NM_015752是一个<source>|<ID>对，其中 ref (NCBI Refseq)是源，NM_015752是该源的一个唯一的标识号。

登录号的框内可以含有多个<source>|<ID>对，用分隔符"|"分隔。例如，gi|7657630|ref|NM_015752是一个登录号，给出了同一个探针序列的一个NCBI基因标识号( gi)，以及一个Refseq标识号。登录号可以为空。
基因符号 – 一个唯一的基因名称的缩写。基因符号可以为空。
描述 – 一个对表现型、基因产品、或其功能的描述。描述可以为空。
染色体位置 – 序列在染色体上的染色体数目和位置，按以下示例的标记法来表达：chr19:11392326-11391822。仅允许有一个染色体位置。它可以包含或省略源，也可以为空。

一些可能导致上传错误的原因

您的文件包含两个探针拥有相同探针ID，但不同的序列，并且您选择了在上传中移除重复探针。
您的文件包含两个探针拥有相同探针ID和相同的序列，并且您没有选择在上传中移除重复探针。
您上传文件中的探针会将一个已存在探针的注释覆盖，而您不是该已存在探针的所有者。
您上传文件中的一个探针与eArray中已存在的一个探针拥有相同的探针ID，但它与将被其覆盖的探针拥有不同的序列、物种、或应用类型。
您上传文件中一个或多个条目不具有正确的格式。
在上传过程中出现一个系统错误。