我正在用python设计一个基于okapi bm25的搜索引擎我应该用什么来存储页面数据(相关性等)和tf,idf以实现快速访问python框架对于可伸缩的设计足够好吗?
谢谢。
最佳答案
我建议您看看wiredtiger它的强大的keyvalue存储,比leveldb或bsddb(shelf模块使用bsddb)更快,可以构建您的存储。它们是不同的模式,在这里您可以查看stackoverflow以了解有关leveldb或bsddb的问题。
如果您是新的键/值存储,我建议您使用leveldb和plyvel这是一个很好的开始,但不能像wiredtiger那样扩展。