我是网络爬虫的新手。我将构建一个搜索引擎,其中的搜寻器会保存Rapidshare链接,包括Rapidshare链接所在的URL ...
换句话说,我将建立一个类似于filestube.com
的网站
经过一番搜索,我发现Scrapy适用于Django。我试图找到与Django集成的信息,但未找到任何内容
希望您能给我建站的建议...尤其是履带
最佳答案
最著名的可插拔应用是Django-Haystack,它允许您连接到多个搜索后端:
Solr / Lucene符合流行语的Apache基础项目
Whoosh原生python搜索库
Xapian另一个非常好的语义搜索引擎
haystack允许您使用类似于Django自己的Queryset语法的API来直接使用这些搜索引擎(所有碰巧都有自己的API和方言)。
如果只是想使用刮工具,无论使用哪种工具:BeautifulSoup或Scrappy,您都可以自己操作,编写可解析您要解析的内容的python代码,然后填充django模型。
这甚至可以是单独的python脚本,可在commands.py模块中使用。
如果要搜索的文件很多,则可能需要一个索引,该索引会经常重建,并允许快速搜索而不会遇到django ORM。
使用Solr索引(例如)使您能够即时创建其他字段,例如基于实际模型字段的虚拟字段(例如:拆分作者的名字和姓氏,添加大写的文件标题字段,无论如何)
当然,如果您不需要快速的索引编制,关键字增强或语义分析,您仍然可以在几个Django模型字段i上进行经典的全文本搜索:
Django native QuerySet参见“ __search('something')”字段查找
PostGreSQL-specific full text search与Django