我的应用程序包含两个线程:

  • GUI线程(使用Qt)
  • 仿真线程

  • 我使用两个线程的原因是保持GUI响应,同时让Sim线程尽可能快地旋转。

    在我的GUI线程中,我以30-60的FPS渲染sim中的实体;但是,我希望我的SIM卡“领先”-可以这么说-并排队等待最终绘制游戏状态(请考虑流式视频,您有一个缓冲区)。

    现在,对于模拟的每个帧,我都需要相应的模拟“状态”。所以我的模拟线程看起来像:
    while(1) {
        simulation.update();
        SimState* s = new SimState;
        simulation.getAgents( s->agents ); // store agents
        // store other things to SimState here..
        stateStore.enqueue(s); // stateStore is a QQueue<SimState*>
        if( /* some threshold reached */ )
            // push stateStore
    }
    
    SimState看起来像:
    struct SimState {
        std::vector<Agent> agents;
        //other stuff here
    };
    

    而Simulation::getAgents看起来像:
    void Simulation::getAgents(std::vector<Agent> &a) const
    {
        // mAgents is a std::vector<Agent>
        std::vector<Agent> a_tmp(mAgents);
        a.swap(a_tmp);
    }
    
    Agent本身是一些复杂的类。成员是一堆intfloat,以及两个std::vector<float>

    使用此当前设置,sim卡不能处理的速度必须快于GUI线程绘制的速度。我已经验证了当前的瓶颈是simulation.getAgents( s->agents ),因为即使我没有进行推送,每秒更新也很慢。如果我注释掉那条线,我会看到每秒更新数个数量级的改进。

    那么,我应该使用哪种容器来存储模拟状态?我知道在atm上有很多复制,但是其中一些是不可避免的。我应该将Agent*而不是Agent存储在 vector 中吗?

    注意:实际上,仿真不是处于循环中,而是使用Qt的QMetaObject::invokeMethod(this, "doSimUpdate", Qt::QueuedConnection);,因此我可以使用信号/插槽在线程之间进行通信;但是,我已经使用while(1){}验证了一个更简单的版本,问题仍然存在。

    最佳答案

    尝试重用您的SimState对象(使用某种池机制),而不是每次都分配它们。经过几次模拟循环后,重新使用的SimState对象将具有已增长到所需大小的 vector ,从而避免了重新分配并节省了时间。

    实现池的一种简单方法是首先将一堆预先分配的SimState对象推到std::stack<SimState*>上。请注意,堆栈比队列更可取,因为您要获取在高速缓存中更可能变得“热”的SimState对象(最近使用的SimState对象将位于堆栈的顶部)。模拟队列将SimState对象从堆栈中弹出,并使用计算出的SimState填充它们。然后,将这些计算出的SimState对象插入生产者/消费者队列以提供GUI线程。由GUI线程渲染后,它们被推回SimState堆栈(即“池”)。在执行所有这些操作时,请尝试避免不必要地复制SimState对象。在“管道”的每个阶段中直接使用SimState对象。

    当然,您必须在SimState堆栈和队列中使用适当的同步机制,以避免出现竞争情况。 Qt可能已经具有线程安全的堆栈/队列。如果存在大量争用,则无锁堆栈/队列可能会加快处理速度(英特尔线程构建模块提供了这种无锁队列)。看到计算SimState大约需要1/50秒的时间,我怀疑争用会成为问题。

    如果您的SimState池已用完,则意味着您的模拟线程太“遥不可及”,并且可以等待一些SimState对象返回到池中。模拟线程应阻塞(使用条件变量),直到SimState对象在池中再次变得可用为止。 SimState池的大小与SimState可以缓冲的数量相对应(例如,约50个对象的池使您最多可以提前约1秒的紧缩时间)。

    您也可以尝试运行并行仿真线程以利用多核处理器。 Thread Pool模式在这里可能很有用。但是,必须注意以正确的顺序将计算出的SimState放入队列。时间戳排序的线程安全优先级队列可能在这里工作。

    这是我建议的管道体系结构的简单图:

    (右键单击并选择 View 图像以获得更清晰的 View 。)

    (注意:池和队列通过指针而不是值保存SimState!)

    希望这可以帮助。

    如果您打算重新使用SimState对象,则Simulation::getAgents方法将效率低下。这是因为vector<Agent>& a参数可能已经具有足够的容量来保存代理列表。

    现在,您执行此操作的方式将丢弃此已分配的 vector ,并从头开始创建一个新 vector 。

    IMO,您的getAgents应该为:

    void Simulation::getAgents(std::vector<Agent> &a) const
    {
        a = mAgents;
    }
    

    是的,您失去了异常安全性,但是可能会获得性能(尤其是使用可重用的SimState方法)。

    另一个想法:您可以尝试使用c样式数组(或boost::array)和“count”变量(而不是std::vector)作为Agent的 float 列表成员,从而使Agent对象固定大小。只需使固定大小的数组足够大,以适应仿真中的任何情况。是的,您会浪费空间,但是可能会获得很大的速度。

    然后,您可以使用固定大小的对象分配器(例如 boost::pool )来池化代理,并通过指针(或shared_ptr)传递它们。这将消除大量堆分配和复制。

    您可以单独使用此想法,也可以将其与上述想法结合使用。这个想法似乎比上面的管道事情更容易实现,因此您可能想先尝试一下。

    还有一个想法:您可以将模拟分为几个阶段,并在其自己的线程中执行每个阶段,而不是使用线程池来运行模拟循环。生产者/消费者队列用于在阶段之间交换SimState对象。为使此方法有效,不同阶段需要具有大致相似的CPU工作负载(否则,一个阶段将成为瓶颈)。这是利用并行性的另一种方式。

    10-08 07:12