bzoj 1076 状态压缩最优期望

题意:

你正在玩你最喜欢的电子游戏，并且刚刚进入一个奖励关。在这个奖励关里，系统将依次随机抛出k次宝物，每次你都可以选择吃或者不吃（必须在抛出下一个宝物之前做出选择，且现在决定不吃的宝物以后也不能再吃）。宝物一共有n种，系统每次抛出这n种宝物的概率都相同且相互独立。也就是说，即使前k-1次系统都抛出宝物1（这种情况是有可能出现的，尽管概率非常小），第k次抛出各个宝物的概率依然均为1/n。获取第i种宝物将得到Pi分，但并不是每种宝物都是可以随意获取的。第i种宝物有一个前提宝物集合Si。只有当Si中所有宝物都至少吃过一次，才能吃第i 种宝物（如果系统抛出了一个目前不能吃的宝物，相当于白白的损失了一次机会）。注意，Pi可以是负数，但如果它是很多高分宝物的前提，损失短期利益而吃掉这个负分宝物将获得更大的长期利益。假设你采取最优策略，平均情况你一共能在奖励关得到多少分值？

dp[i][s] 还剩i次掉落机会,前k-i次已经选择了s的物品,那么接下来最优期望得多少分.

有种倒推的感觉,状态中保存了已经做的决策对该后续决策有影响的信息,相当与提前假设,然后根据未来的不同情况选择当前的最有决策.

 /**************************************************************

     Problem: 1076

     User: idy002

     Language: C++

     Result: Accepted

     Time:1144 ms

     Memory:26660 kb

 ****************************************************************/

 #include <cstdio>

 #define max(a,b) ((a)>(b)?(a):(b))

 #define K 101

 #define N 15

 int n, k;

 int a[N], r[N], bound;

 double dp[K][<<N];

 int main() {

     scanf( "%d%d", &k, &n );

     for( int i=,p; i<n; i++ ) {

         scanf( "%d", a+i );

         while() {

             scanf( "%d", &p );

             if( p== ) break;

             r[i] |= <<(p-);

         }

     }

     bound = (<<n)-;

     for( int i=; i<=k; i++ ) {

         for( int s=; s<=bound; s++ ) {

             dp[i][s] = 0.0;

             for( int j=; j<n; j++ ) {

                 if( (s & r[j]) == r[j] ) {

                     double v1 = a[j]+dp[i-][s|(<<j)];

                     double v2 = dp[i-][s];

                     dp[i][s] += max( v1, v2 );

                 } else {

                     dp[i][s] += dp[i-][s];

                 }

             }

             dp[i][s] /= n;

         }

     }

     printf( "%.6lf\n", dp[k][] );

 }