问题

例如,如果我想计算一列字符串中的N的数量,如何在每个单元格的基础上在Google Spreadsheets中执行此操作(即一次可以向下拖动一个单元格的公式)?

背景

我必须为名为TOMTOM **的程序确定阈值-min-overlap <integer>,该程序比较小DNA图案的PWM ***之间的相似性***,N是字母A,C,G的任何线性组合的正则表达式和T。如果我能了解我的DNA基序的非N长度分布,以帮助告知我TOMTOM的-min-overlap <integer>值合适,那将是很好的。

这是一些真实的例子:

** TOMTOM是用于将DNA基序与已知基序数据库进行比较的工具。有关更多信息,请参见here

*** PWM代表位置权重矩阵:

  • According to Wiki:位置权重矩阵(PWM),也称为位置特定权重矩阵(PSWM)或位置特定得分矩阵(PSSM),是生物学序列中图案(图案)的常用表示形式。
  • According to this paper,可以定义为:



  • 或者,同时使用:



    **** DNA基序:wiki:在遗传学中,序列基序是一种核苷酸或氨基酸序列模式,该模式很普遍,具有或被认为具有生物学意义。对于蛋白质,序列基序与结构基序是不同的,结构基序是由氨基酸的三维排列形成的,氨基酸可能不相邻。

    最佳答案

    一次一个单元的替代方案(向下复制公式):

    =len(A2)-len(SUBSTITUTE(A2,"N",""))
    

    08-25 07:01