01串的熵（蓝桥杯） | 我是镜流的狗

文章目录

01串的熵

01串的熵

问题描述

对于一个长度为n的01串 S= x 1 x 2 x 3 x_{1}x_{2}x_{3} x1x2x3… x n x_{n} xn，香农信息熵的定义为 H(S) = − ∑ 1 n p ( x i ) l o g 2 ( p ( x i ) ) -\sum _{1}^{n}p(x_{i})log_{2}(p(x_{i})) −∑1np(xi)log2(p(xi))，其中 p(0), p(1) 表示在这个01串中0和1出现的占比。

比如，对于 S=100 来说，信息熵 H(S) = − 1 3 l o g 2 ( 1 3 ) − 2 3 l o g 2 ( 2 3 ) − 2 3 l o g 2 ( 2 3 ) -\frac{1}{3}log_{2}(\frac{1}{3})-\frac{2}{3}log_{2}(\frac{2}{3})-\frac{2}{3}log_{2}(\frac{2}{3}) −31log2(31)−32log2(32)−32log2(32) = 1.3083

对于一个长度为23333333的01串，如果其信息熵为11625907.5798，且0出现次数比1少，那么这个01串中0出现了多少次？

答案提交
这是一道结果填空的题，你只需要算出结果后提交即可。本题的结果为一个整数，在提交答案时只填与这个整数，填与多余的内容将无法得分。

答案：11027421

题意解释

这道题目是关于香农信息熵的计算问题。香农信息熵是信息论中用来量化信息预期值的一个概念，通常用于衡量信息的不确定性。在这个问题中，我们需要根据给定的信息熵值和一些条件来计算一个长度为23333333的01串中0出现的次数。

题目描述了一个长度为n的二进制字符串S，由0和1组成。香农信息熵H(S)的计算公式为：
H(S) = − ∑ 1 n p ( x i ) l o g 2 ( p ( x i ) ) -\sum _{1}^{n}p(x_{i})log_{2}(p(x_{i})) −∑1np(xi)log2(p(xi))

其中， p(x) 表示在字符串中字符i出现的相对频率。对于二进制字符串，i只能是0或1，所以上式中的求和是对i=0和i=1的情况。

题目给出了一个具体的例子，对于字符串S=100，其信息熵计算如下：
H ( S ) = − p ( 0 ) log ⁡ 2 ( p ( 0 ) ) − p ( 0 ) log ⁡ 2 ( p ( 0 ) ) − p ( 1 ) log ⁡ 2 ( p ( 1 ) ) H(S) = -p(0) \log_2(p(0)) -p(0) \log_2(p(0))- p(1) \log_2(p(1)) H(S)=−p(0)log2(p(0))−p(0)log2(p(0))−p(1)log2(p(1))

由于字符串S=100中，0出现了两次，1出现了一次，所以p(0)=2/3，p(1)=1/3，代入公式得到：
H ( S ) = − 2 3 log ⁡ 2 ( 2 3 ) − 2 3 log ⁡ 2 ( 2 3 ) − 1 3 log ⁡ 2 ( 1 3 ) H(S) = -\frac{2}{3} \log_2\left(\frac{2}{3}\right) -\frac{2}{3} \log_2\left(\frac{2}{3}\right)- \frac{1}{3} \log_2\left(\frac{1}{3}\right) H(S)=−32log2(32)−32log2(32)−31log2(31)

现在，我们有一个长度为23333333的01串，其信息熵已知为11625907.5798。题目还告诉我们，这个字符串中0出现的次数比1少。我们的任务是计算出0出现的次数。

为了解决这个问题，我们需要设置两个变量，分别表示0和1出现的次数，然后根据信息熵的定义和给定的条件建立方程，求解这个方程即可得到0出现的次数。需要注意的是，由于0出现的次数比1少，我们可以设0的次数为x，1的次数为23333333-x。

暴力枚举

这段代码是用C++编写的，目的是计算在一个给定长度和信息熵的01串中0出现的次数。下面我会逐行进行注释：

#include<bits/stdc++.h>  // 引入几乎所有的C++标准库
using namespace std;  // 使用标准命名空间

int main()  // 程序的主函数
{
    int n=23333333;  // 01串的长度
    double m=11625907.5798;  // 给定的信息熵
    
    // 从0试探到n，找出0的出现次数
    for(int ling=0; ling<=n; ling++)  
    {
        int yi=n-ling;  // 1出现的次数为总长度减去0出现的次数

        double p_ling=1.0*ling/n;  // 计算0出现的概率
        double p_yi=1.0*yi/n;  // 计算1出现的概率

        // 计算以0出现的概率为基础的熵部分
        double h_ling= - ling * p_ling *log2(p_ling);
        // 计算以1出现的概率为基础的熵部分
        double h_yi= - yi * p_yi * log2(p_yi);

        double h=h_ling+h_yi;  // 计算总熵

        // 检查当前总熵h是否接近给定的信息熵m，1e-4为容差值
        if(fabs(h-m)<1e-4)
        {
            cout<<ling;  // 如果是，输出0出现的次数
            break;  // 找到答案后结束循环
        }
    }
    return 0;  // 程序正常结束
}

这个程序会枚举0出现的次数从0到n（串的总长度），对于每一个可能的出现次数，计算出相应的信息熵，然后与给定的信息熵m进行比较。如果计算出的信息熵与给定的信息熵在一定的误差范围内（小于 ( 1 × 1 0 − 4 ) (1 \times 10^{-4}) (1×10−4)），程序就会输出当前枚举的0的出现次数，并结束循环。