我读过几篇关于AlphaGo的新闻文章,他们都提到AlphaGo从一开始玩人类游戏,然后玩对抗自己的游戏变得更好。我很好奇的一件事是,AlphaGo是如何改进自己的它是否修改代码中的变量还是它改变了它的代码完全是自己写的或者是创作者加上去的?它实际上是如何学习的一个笼统的答案是好的,因为它只是为我的一般知识。
也许我误解了整个概念,新闻文章往往给人一种广泛的,有时是错误的理解。一些清晰的信息会很好或者链接到有用的信息。
最佳答案
AlphaGo使用机器学习。
在机器学习中,你有一个函数(比如ax +b
)给你一个结果,你可以调整该函数(a
和b
)的参数,使结果与你拥有的越来越多的例子相匹配。在AlphaGo的例子中,他们有两个功能,一个是选择下一步,一个是说谁赢了,这两个功能都非常复杂,有成千上万个参数。
当他们在两个AlphaGo实例之间玩一个游戏时,他们会记录结果并将其作为示例来训练函数,这样下一个版本就可以玩得更好。
如果你想知道更多,网上有很多关于机器学习工作原理的教程。