我正在尝试使用Pipes编写一个webscraper,并且进入了以下已抓取链接的部分。我有一个process
函数,该函数可下载URL,查找链接并产生链接。
process :: Pipe Item Item (StateT CState IO) ()
....
for (each links) yield
....
现在,我想了解如何以递归方式跟踪这些链接,从而使StateT线程化。我意识到,可能有一些更惯用的方法,那就是使用单个管道来填充大部分的刮板(尤其是当我开始添加更多功能时),我愿意征求建议。无论如何,当我考虑带共享状态的多线程时,我可能不得不重新考虑设计。
最佳答案
您可以通过Pipe a b m r
参数将m
连接到副作用,该参数交换管道正在操作的Monad
。通过将管道的下游端连接到另一个将链接粘贴在队列中的管道,并将管道的上游端连接到从队列中读取链接的管道,您可以使用它来重新排队。
我们的目标是写
import Pipes
loopLeft :: Monad m => Pipe (Either l a) (Either l b) m r -> Pipe a b m r
我们将使用一条管道,其下游输出
Either l b
是将Left l
发送回上游或将Right b
发送回下游的管道,并在上游输入l
中将Either l a
发送回去。是排队的Left l
还是来自上游的Right a
。我们将Left l
连接在一起以构成一个仅看到a
来自上游且仅产生b
朝下游的管道。在下游端,我们将
l
从Left l
推送到堆栈中。我们从yield
下游r
的Right r
。import Control.Monad
import Control.Monad.Trans.State
pushLeft :: Monad m => Pipe (Either l a) a (StateT [l] m) r
pushLeft = forever $ do
o <- await
case o of
Right a -> yield a
Left l -> do
stack <- lift get
lift $ put (l : stack)
在上游端,我们将在堆栈的顶部寻找
yield
的内容。如果没有,我们将await
从上游获取一个值,然后yield
。popLeft :: Monad m => Pipe a (Either l a) (StateT [l] m) r
popLeft = forever $ do
stack <- lift get
case stack of
[] -> await >>= yield . Right
(x : xs) -> do
lift $ put xs
yield (Left x)
现在我们可以编写
loopLeft
。我们将上游和下游管道以及管道组成popLeft >-> hoist lift p >-> pushLeft
组成。 hoist lift
将Pipe a b m r
转换为Pipe a b (t m) r
。 distribute
将Pipe a b (t m) r
转换为t (Pipe a b m) r
。回到Pipe a b m r
,我们从空堆栈StateT
开始运行整个[]
计算。在Pipes.Lift
中,对于evalStateP
和evalStateT
的组合,有一个很好的名称distribute
。import Pipes.Lift
loopLeft :: Monad m => Pipe (Either l a) (Either l b) m r -> Pipe a b m r
loopLeft p = flip evalStateT [] . distribute $ popLeft >-> hoist lift p >-> pushLeft