该示例文件已上传到MediaFile。
背景信息
第1部分:在示例文件中,“Sheet1”
a. Values in “Column A” are the original name. For example from Cell A1:
“>hg19_refGene_NM_000392_0 range=chr10:101542463-101542634 5'pad=0 3'pad=0 strand=+ repeatMasking=none”
b. Values in “Column B” is a value that correspond to values in Column A, for example
from Cell B1 which correspond to value in Cell A1: “ABCC2”
第2部分:在示例文件中,“Sheet2”
a. In the Sheet2, the values from Sheet1 have been separated to clarify the data because
in Sheet1, everything is packed in one cell.
b. Column A represents “GENE”, which refers to the value in Column B in Sheet1, for example,
“ABCC2” from Section 1 of this article.
c. Column B represents “refGENE”, an example of refGENE is “NM000392” which come from the
original name from “Sheet1”
d. Column C represents “CHROMOSOME”, this is another value that was derived from Values in
Column A of Sheet1, for example, “chr10”
e. Similar Idea, “EXON START” came from the original name in Column A of Sheet1, for
example “101542463”
f. And “EXON END” came from the original name in Column A of Sheet1, for example “101542634”
挑战是要开发一个可以满足以下要求的程序:
要求1:每个基因的计数,观察到每个refGene的次数,例如:
Table Example refGENE COUNTNM000927 29NM00078 32NM00042 32. .. .. .
注意:我的方法是在Excel中使用SUMPRODUCT,但是,我不知道如何将所有内容放在一个简单的表中。
要求2:
这需要比较两个不同行中的值,请注意,这需要使用“Sheet1”中的原始名称。请不要使用“Sheet2”中的分隔值。
基本上,它查询每一行,如果Gene,Chromosome,EXONSTART,EXON END相同,则删除具有最少refgene的行。我将在下面进一步解释。
在“Shee1”中,有“Original Name”和“GENE”,
步骤1:比较B列中的值是否相同。例如,比较第1行和第2行时,有
ABCC2
和ABCC2
。这满足条件,因此继续执行步骤2,否则继续比较不同行中的GENE。步骤2:比较来自不同行的“chr”值,与上一步的示例相同。第1行具有
chr10
,第2行具有chr10
,因为它们相同,请继续执行下一步,否则继续进行。步骤3:现在比较“exon start”-第1行中的数字看起来像
101542463
,第2行中的数字看起来像101544365
,现在它们不一样了,保存文件并继续。假设数字相同,则继续比较“外显子末端”,这是步骤4。步骤4:假设两个不同行的“exon start”相同,然后比较“exon end”。第1行的数字看起来像
101542634
,第2行的“exon end”的数字看起来像101544538
。与上面相同的条件,如果它们不同,则不要理会文件,然后继续比较下一个GENE。这是需要注意的部分,如果它们相同,则表示“GENE”相同,“chr”相同,“exon start”和“exon end”相同。最后,所有内容都是相同的,这意味着存在重复的行。现在,重复的行将被删除。但是删除该行的条件是什么。这将使我们重新回到从需求1解决的挑战。还记得所有refGENE的出现次数都已经计算在内吗?调用
NM000927
29次,调用Nm00078
32次。要删除的“GENE”行是包含NM000927
的行。但是,请保留所有已删除数据和所有剩余数据的记录,最好使用表格。
最佳答案
我同意@Siddharth的实例计数,即带有行标签的数据透视表= GENE
,Σ值= refGene
的计数。
可能的“重复”解决方案是(至少从头开始)在顶部插入行,选择“A列”,“排序和过滤” /“高级” /“复制到另一个位置”(例如)C1 /打勾“仅唯一记录” /“确定”。那应该给您的列表比开始时少35行。
要确定哪些行是重复的,请将列A复制到另一列(例如D),替换>
(不带任何内容),然后在E2中输入=COUNTIF(D:D,D2)
,然后双击单元格底部RH角。 1
=唯一,其他是实例数。