01串的熵

问题描述

对于一个长度为n的01串 S= x 1 x 2 x 3 x_{1}x_{2}x_{3} x1x2x3 x n x_{n} xn,香农信息熵的定义为 H(S) = − ∑ 1 n p ( x i ) l o g 2 ( p ( x i ) ) -\sum _{1}^{n}p(x_{i})log_{2}(p(x_{i})) 1np(xi)log2(p(xi)),其中 p(0), p(1) 表示在这个01串中0和1出现的占比。

比如,对于 S=100 来说,信息熵 H(S) = − 1 3 l o g 2 ( 1 3 ) − 2 3 l o g 2 ( 2 3 ) − 2 3 l o g 2 ( 2 3 ) -\frac{1}{3}log_{2}(\frac{1}{3})-\frac{2}{3}log_{2}(\frac{2}{3})-\frac{2}{3}log_{2}(\frac{2}{3}) 31log2(31)32log2(32)32log2(32) = 1.3083

对于一个长度为23333333的01串,如果其信息熵为11625907.5798,且0出现次数比1少,那么这个01串中0出现了多少次?

答案提交
这是一道结果填空的题,你只需要算出结果后提交即可。本题的结果为一个整数,在提交答案时只填与这个整数,填与多余的内容将无法得分。

答案:11027421

题意解释

这道题目是关于香农信息熵的计算问题。香农信息熵是信息论中用来量化信息预期值的一个概念,通常用于衡量信息的不确定性。在这个问题中,我们需要根据给定的信息熵值和一些条件来计算一个长度为23333333的01串中0出现的次数。

题目描述了一个长度为n的二进制字符串S,由0和1组成。香农信息熵H(S)的计算公式为:
H(S) = − ∑ 1 n p ( x i ) l o g 2 ( p ( x i ) ) -\sum _{1}^{n}p(x_{i})log_{2}(p(x_{i})) 1np(xi)log2(p(xi))

其中, p(x) 表示在字符串中字符i出现的相对频率。对于二进制字符串,i只能是0或1,所以上式中的求和是对i=0和i=1的情况。

题目给出了一个具体的例子,对于字符串S=100,其信息熵计算如下:
H ( S ) = − p ( 0 ) log ⁡ 2 ( p ( 0 ) ) − p ( 0 ) log ⁡ 2 ( p ( 0 ) ) − p ( 1 ) log ⁡ 2 ( p ( 1 ) ) H(S) = -p(0) \log_2(p(0)) -p(0) \log_2(p(0))- p(1) \log_2(p(1)) H(S)=p(0)log2(p(0))p(0)log2(p(0))p(1)log2(p(1))

由于字符串S=100中,0出现了两次,1出现了一次,所以p(0)=2/3,p(1)=1/3,代入公式得到:
H ( S ) = − 2 3 log ⁡ 2 ( 2 3 ) − 2 3 log ⁡ 2 ( 2 3 ) − 1 3 log ⁡ 2 ( 1 3 ) H(S) = -\frac{2}{3} \log_2\left(\frac{2}{3}\right) -\frac{2}{3} \log_2\left(\frac{2}{3}\right)- \frac{1}{3} \log_2\left(\frac{1}{3}\right) H(S)=32log2(32)32log2(32)31log2(31)

现在,我们有一个长度为23333333的01串,其信息熵已知为11625907.5798。题目还告诉我们,这个字符串中0出现的次数比1少。我们的任务是计算出0出现的次数。

为了解决这个问题,我们需要设置两个变量,分别表示0和1出现的次数,然后根据信息熵的定义和给定的条件建立方程,求解这个方程即可得到0出现的次数。需要注意的是,由于0出现的次数比1少,我们可以设0的次数为x,1的次数为23333333-x。

暴力枚举

这段代码是用C++编写的,目的是计算在一个给定长度和信息熵的01串中0出现的次数。下面我会逐行进行注释:

#include<bits/stdc++.h>  // 引入几乎所有的C++标准库
using namespace std;  // 使用标准命名空间

int main()  // 程序的主函数
{
    int n=23333333;  // 01串的长度
    double m=11625907.5798;  // 给定的信息熵
    
    // 从0试探到n,找出0的出现次数
    for(int ling=0; ling<=n; ling++)  
    {
        int yi=n-ling;  // 1出现的次数为总长度减去0出现的次数

        double p_ling=1.0*ling/n;  // 计算0出现的概率
        double p_yi=1.0*yi/n;  // 计算1出现的概率

        // 计算以0出现的概率为基础的熵部分
        double h_ling= - ling * p_ling *log2(p_ling);
        // 计算以1出现的概率为基础的熵部分
        double h_yi= - yi * p_yi * log2(p_yi);

        double h=h_ling+h_yi;  // 计算总熵

        // 检查当前总熵h是否接近给定的信息熵m,1e-4为容差值
        if(fabs(h-m)<1e-4)
        {
            cout<<ling;  // 如果是,输出0出现的次数
            break;  // 找到答案后结束循环
        }
    }
    return 0;  // 程序正常结束
}

这个程序会枚举0出现的次数从0到n(串的总长度),对于每一个可能的出现次数,计算出相应的信息熵,然后与给定的信息熵m进行比较。如果计算出的信息熵与给定的信息熵在一定的误差范围内(小于 ( 1 × 1 0 − 4 ) (1 \times 10^{-4}) (1×104)),程序就会输出当前枚举的0的出现次数,并结束循环。

04-11 12:54