该示例文件已上传到MediaFile

背景信息

第1部分:在示例文件中,“Sheet1”

a.  Values in “Column A” are the original name. For example from Cell A1:
    “>hg19_refGene_NM_000392_0 range=chr10:101542463-101542634 5'pad=0 3'pad=0 strand=+ repeatMasking=none”

b.  Values in “Column B” is a value that correspond to values in Column A, for example
    from Cell B1 which correspond to value in Cell A1: “ABCC2”

第2部分:在示例文件中,“Sheet2”
a.  In the Sheet2, the values from Sheet1 have been separated to clarify the data because
    in Sheet1, everything is packed in one cell.

b.  Column A represents “GENE”, which refers to the value in Column B in Sheet1, for example,
    “ABCC2” from Section 1 of this article.

c.  Column B represents “refGENE”, an example of refGENE is “NM000392” which come from the
    original name from “Sheet1”

d.  Column C represents “CHROMOSOME”, this is another value that was derived from Values in
    Column A of Sheet1, for example, “chr10”

e.  Similar Idea, “EXON START” came from the original name in Column A of Sheet1, for
    example “101542463”

f.  And “EXON END” came from the original name in Column A of Sheet1, for example “101542634”

挑战是要开发一个可以满足以下要求的程序:

要求1:每个基因的计数,观察到每个refGene的次数,例如:

Table Example refGENE COUNTNM000927 29NM00078 32NM00042 32. .. .. .

excel - 计算满足条件的重复数据并删除数据-LMLPHP

注意:我的方法是在Excel中使用SUMPRODUCT,但是,我不知道如何将所有内容放在一个简单的表中。

要求2:
这需要比较两个不同行中的值,请注意,这需要使用“Sheet1”中的原始名称。请不要使用“Sheet2”中的分隔值。
基本上,它查询每一行,如果Gene,Chromosome,EXONSTART,EXON END相同,则删除具有最少refgene的行。我将在下面进一步解释。

在“Shee1”中,有“Original Name”和“GENE”,

步骤1:比较B列中的值是否相同。例如,比较第1行和第2行时,有ABCC2ABCC2。这满足条件,因此继续执行步骤2,否则继续比较不同行中的GENE。

步骤2:比较来自不同行的“chr”值,与上一步的示例相同。第1行具有chr10,第2行具有chr10,因为它们相同,请继续执行下一步,否则继续进行。

步骤3:现在比较“exon start”-第1行中的数字看起来像101542463,第2行中的数字看起来像101544365,现在它们不一样了,保存文件并继续。假设数字相同,则继续比较“外显子末端”,这是步骤4。

步骤4:假设两个不同行的“exon start”相同,然后比较“exon end”。第1行的数字看起来像101542634,第2行的“exon end”的数字看起来像101544538。与上面相同的条件,如果它们不同,则不要理会文件,然后继续比较下一个GENE。

这是需要注意的部分,如果它们相同,则表示“GENE”相同,“chr”相同,“exon start”和“exon end”相同。最后,所有内容都是相同的,这意味着存在重复的行。现在,重复的行将被删除。但是删除该行的条件是什么。这将使我们重新回到从需求1解决的挑战。还记得所有refGENE的出现次数都已经计算在内吗?调用NM000927 29次,调用Nm00078 32次。要删除的“GENE”行是包含NM000927的行。

但是,请保留所有已删除数据和所有剩余数据的记录,最好使用表格。

最佳答案

我同意@Siddharth的实例计数,即带有行标签的数据透视表= GENE,Σ值= refGene的计数。

可能的“重复”解决方案是(至少从头开始)在顶部插入行,选择“A列”,“排序和过滤” /“高级” /“复制到另一个位置”(例如)C1 /打勾“仅唯一记录” /“确定”。那应该给您的列表比开始时少35行。

要确定哪些行是重复的,请将列A复制到另一列(例如D),替换>(不带任何内容),然后在E2中输入=COUNTIF(D:D,D2),然后双击单元格底部RH角。 1 =唯一,其他是实例数。

10-06 13:53