Menu

原创投稿 | 如何为Django添加中文搜索服务

  • 软文     2019-5-22
<返回列表

云豆贴心提醒,本文阅读时间7分钟

在使用python的过程中,必然会设计到如何创建web应用,而搜索功能却最为常见,该文档包含了如何整合haystack,elasticsearch、ik中文分词到django应用中。

测试应用版本

安装

python包安装

elasticsearch安装

elasticsearch基于java,所以需要先安装java。

elasticsearch-analysis-ik安装

安装maven

注意安装必须使用对应的版本,测试也是如此,比如此处使用1.9.5版本。

下载,安装elasticsearch-analysis-ik

注意

在使用中不用刻意选择高版本的elasticsearch,可以有效避免版本不兼容。

另外一定要注意你使用的elasticsearch版本是否和elasticsearch-analysis-ik对应。

开始使用

简单版本

使用whoosh作为后端索引存储(基于文件系统),该操作参考官方文档即可。

加入中文的支持

1、将文件haystack中的whoosh_backend.py(该文件路径为python安装路径下/lib/python2.7.6/site-packages/haystack/backends/whoosh_backend.py)拷贝到你创建的应用下面,并重命名为whoosh_cn_backend.py,例如blog/whoosh_cn_backend.py。

编辑blog/whoosh_cn_backend.py导入中文分析库ChineseAnalyzer

修改blog/whoosh_cn_backend.py大概163行位置

2、在settings.py中修改之前使用的默认的whooshEngine为修改后的WhooshEngine。

3、重建索引python manage.py rebuild_index,在进行搜索中文试试吧。

注意索引的自动更新:

默认索引没有自动更新,那么每当有新数据添加到数据库,就要手动执行update_index命令是不科学的。

自动更新索引的最简单方法在settings.py添加一个信号。

升级版本

由于whoosh是基于文件系统的,所有在索引数据量过大时必然引起性能问题。

从官方描述也可以看得出Whoosh is pure Python, so it’s a great option for getting started quickly and for development, though it does work for small scale live deployments。

需要提前安装好elasticsearch和elasticsearch-analysis-ik,并通过测试。

在之前的项目的基础上修改settings.py

前:

创建索引名

如果rebuild_index中出错,请仔细查看出错日志。

部分代码

urls.py:

views.py:

总结:

通过对比两种方式,可以发现:

whoosh使用jieba分词做处理,然后基于文件存储。

elasticsearch使用ik分词作为插件,提供中文分词的能力,haystack通过下层抽象,在不修改代码的同时做到了可以选择不同后端索引存储的目的。

本文作者:我还是猴子

如果你觉得这篇文章还不错,请通过下方收款码向作者进行转账打赏:


更多阅读

直击泛家居产行业20强的品牌定位策略

软文 2019-5-22
大材研究注意到,近几年来,有不少公司重塑定位,或者放大原来的优势定位。此事,如果做好了,少则省几千万,多则可省几个亿的广告费。 ...

卖家成长 选取关键词得注意 前期关键词调研更重要

软文 2019-5-22
如今在亚马逊上开个店看似很容易,但要保证出单,持续的出单却很难。原因有很多,老话说的没错,三分靠运气七分靠打拼,而做亚马逊前期...

国庆假期借势海报 杜蕾斯发挥正常 宝马海报无文案 ofo大手笔

软文 2019-5-22
文 | PR天下 今年国庆假期与去年最大不一样的地方在于,期间还要累加一天中秋节假期,共计八天,而这竟成为数家品牌借势创意的发力点。...
返回列表
扫描二维码分享到微信
确 认

Copyright © 2015-2021 发稿网

     
扫码二维码立即咨询
确 认