假设一个黑盒随机数生成器,它在某个区间内连续地发出整数值(对于直接相关的情况,[0,255])我想估计概率质量函数和它变化的一些度量,我想在新样本进入时定期更新这些估计,而不必存储到目前为止的全部样本集。
请提出计算和更新这些估计值的数值稳定算法。
请建议一个适当的措施,在pmf的变化。
最佳答案
离散分布的pmf只是每个结果的相对比例。创建长度为256的数组,初始化为所有零。对于每个值,递增该索引处的数组。按观测总数缩放,以相对比例(估计概率)表示结果。瞧,即时经验pmf,即使你有数百万或数十亿的观测数据,你也只能存储256个值。如果结果仅限于一个小的子集,则使用散列而不是数组。
给定这些值和相关的计数,您可以构造任何您喜欢的中心趋势或变化的度量。对于变化,您可以考虑范围、四分位间范围或方差和/或标准偏差。
关于algorithm - 给定RNG,对经验PMF及其中的变化进行运行估计,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16343350/