django haystack实现全文检索的示例代码


Posted in Python onJune 24, 2020

全文检索里的组件简介

1. 什么是haystack?

1. haystack是django的开源搜索框架,该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎,不用更改代码,直接切换引擎,减少代码量。

2. 搜索引擎使用Whoosh,这是一个由纯Python实现的全文搜索引擎, 没有二进制文件等,比较小巧,配置比较简单,当然性能自然略低。

3. 中文分词Jieba,由于Whoosh自带的是英文分词,对中文的分词支持不是太好,故用jieba替换whoosh的分词组件

2. 什么是jieba?

很多的搜索引擎对中的支持不友好,jieba作为一个中文分词器就是加强对中文的检索功能

3. Whoosh是什么

1. Python的全文搜索库,Whoosh是索引文本及搜索文本的类和函数库

2. Whoosh 自带的是英文分词,对中文分词支持不太好,使用 jieba 替换 whoosh 的分词组件。

haystack配置使用(前后端分离)

1. 安装需要的包

pip3 install django-haystack
pip3 install whoosh
pip3 install jieba

2. 在setting.py中配置

'''注册app '''
INSTALLED_APPS = [
  'django.contrib.admin',
  'django.contrib.auth',
  'django.contrib.contenttypes',
  'django.contrib.sessions',
  'django.contrib.messages',
  'django.contrib.staticfiles',
  # haystack要放在应用的上面
  'haystack',
  'myapp', # 这个jsapp是自己创建的app
]


'''配置haystack '''
# 全文检索框架配置
HAYSTACK_CONNECTIONS = {
  'default': {
    # 指定whoosh引擎
    'ENGINE': 'haystack.backends.whoosh_backend.WhooshEngine',
    # 'ENGINE': 'myapp.whoosh_cn_backend.WhooshEngine',   # whoosh_cn_backend是haystack的whoosh_backend.py改名的文件为了使用jieba分词
    # 索引文件路径
    'PATH': os.path.join(BASE_DIR, 'whoosh_index'),
  }
}
# 添加此项,当数据库改变时,会自动更新索引,非常方便
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

3. 定义数据库

from django.db import models

# Create your models here.
class UserInfo(models.Model):
  name = models.CharField(max_length=254)
  age = models.IntegerField()


class ArticlePost(models.Model):
  author = models.ForeignKey(UserInfo,on_delete=models.CASCADE)
  title = models.CharField(max_length=200)
  desc = models.SlugField(max_length=500)
  body = models.TextField()

索引文件生成

1. 在子应用下创建索引文件

在子应用的目录下,创建一个名为 myapp/search_indexes.py 的文件

from haystack import indexes
from .models import ArticlePost

# 修改此处,类名为模型类的名称+Index,比如模型类为GoodsInfo,则这里类名为GoodsInfoIndex(其实可以随便写)
class ArticlePostIndex(indexes.SearchIndex, indexes.Indexable):
  # text为索引字段
  # document = True,这代表haystack和搜索引擎将使用此字段的内容作为索引进行检索
  # use_template=True 指定根据表中的那些字段建立索引文件的说明放在一个文件中
  text = indexes.CharField(document=True, use_template=True)

  # 对那张表进行查询
  def get_model(self): # 重载get_model方法,必须要有!
    # 返回这个model
    return ArticlePost

  # 建立索引的数据
  def index_queryset(self, using=None):
    # 这个方法返回什么内容,最终就会对那些方法建立索引,这里是对所有字段建立索引
    return self.get_model().objects.all()

2.指定索引模板文件

创建文件路径命名必须这个规范:templates/search/indexes/应用名称/模型类名称_text.txt
如:
templates/search/indexes/myapp/articlepost_text.txt

django haystack实现全文检索的示例代码

{{ object.title }}
{{ object.author.name }}
{{ object.body }}

3.使用命令创建索引

python manage.py rebuild_index # 建立索引文件

替换成jieba分词

1.将haystack源码复制到项目中并改名

'''1.复制源码中文件并改名 '''
将 /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/
site-packages/haystack/backends/whoosh_backend.py文件复制到项目中
并将 whoosh_backend.py改名为 whoosh_cn_backend.py 放在APP中如:
myapp\whoosh_cn_backend.py

'''2.修改源码中文件'''
# 在全局引入的最后一行加入jieba分词器
from jieba.analyse import ChineseAnalyzer

# 修改为中文分词法
查找
analyzer=StemmingAnalyzer()
改为
analyzer=ChineseAnalyzer()

django haystack实现全文检索的示例代码

索引文件使用

1. 编写视图

from django.shortcuts import render

# Create your views here.
import json
from django.conf import settings
from django.core.paginator import InvalidPage, Paginator
from django.http import Http404, HttpResponse,JsonResponse
from haystack.forms import ModelSearchForm
from haystack.query import EmptySearchQuerySet
RESULTS_PER_PAGE = getattr(settings, 'HAYSTACK_SEARCH_RESULTS_PER_PAGE', 20)



def basic_search(request, load_all=True, form_class=ModelSearchForm, searchqueryset=None, extra_context=None, results_per_page=None):
  query = ''
  results = EmptySearchQuerySet()
  if request.GET.get('q'):
    form = form_class(request.GET, searchqueryset=searchqueryset, load_all=load_all)

    if form.is_valid():
      query = form.cleaned_data['q']
      results = form.search()
  else:
    form = form_class(searchqueryset=searchqueryset, load_all=load_all)

  paginator = Paginator(results, results_per_page or RESULTS_PER_PAGE)
  try:
    page = paginator.page(int(request.GET.get('page', 1)))
  except InvalidPage:
    result = {"code": 404, "msg": 'No file found!', "data": []}
    return HttpResponse(json.dumps(result), content_type="application/json")

  context = {
    'form': form,
    'page': page,
    'paginator': paginator,
    'query': query,
    'suggestion': None,
  }
  if results.query.backend.include_spelling:
    context['suggestion'] = form.get_suggestion()

  if extra_context:
    context.update(extra_context)


  jsondata = []
  print(len(page.object_list))
  for result in page.object_list:
    data = {
      'pk': result.object.pk,
      'title': result.object.title,
      'content': result.object.body,

    }
    jsondata.append(data)
  result = {"code": 200, "msg": 'Search successfully!', "data": jsondata}
  return JsonResponse(result, content_type="application/json")

到此这篇关于django haystack实现全文检索的示例代码的文章就介绍到这了,更多相关django haystack 全文检索内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
在Python的框架中为MySQL实现restful接口的教程
Apr 08 Python
Python字符串、元组、列表、字典互相转换的方法
Jan 23 Python
Python基本语法经典教程
Mar 11 Python
Python使用django框架实现多人在线匿名聊天的小程序
Nov 29 Python
python实现指定字符串补全空格、前面填充0的方法
Nov 16 Python
树莓派3 搭建 django 服务器的实例
Aug 29 Python
python 检查数据中是否有缺失值,删除缺失值的方式
Dec 02 Python
PyQT5 emit 和 connect的用法详解
Dec 13 Python
Django关于admin的使用技巧和知识点
Feb 10 Python
python反爬虫方法的优缺点分析
Nov 25 Python
Python Selenium XPath根据文本内容查找元素的方法
Dec 07 Python
Python+Appium新手教程
Apr 17 Python
Python爬虫如何应对Cloudflare邮箱加密
Jun 24 #Python
python使用自定义钉钉机器人的示例代码
Jun 24 #Python
pytorch中的weight-initilzation用法
Jun 24 #Python
pytorch查看模型weight与grad方式
Jun 24 #Python
pytorch  网络参数 weight bias 初始化详解
Jun 24 #Python
可视化pytorch 模型中不同BN层的running mean曲线实例
Jun 24 #Python
python3.x中安装web.py步骤方法
Jun 23 #Python
You might like
[原创]效率较高的php下读取文本文件的代码
2008/07/02 PHP
分享下页面关键字抓取components.arrow.com站点代码
2014/01/30 PHP
php中preg_replace正则替换用法分析【一次替换多个值】
2017/01/17 PHP
PHP命名空间namespace的定义方法详解
2017/03/29 PHP
php批量修改表结构实例
2017/05/24 PHP
JavaScript显示当前文档最后修改日期的方法
2015/03/19 Javascript
js根据手机客户端浏览器类型,判断跳转官网/手机网站多个实例代码
2016/04/30 Javascript
js动态获取子复选项并设计全选及提交的实现方法
2016/06/24 Javascript
微信小程序注册60s倒计时功能 使用JS实现注册60s倒计时功能
2017/08/16 Javascript
JavaScript屏蔽Backspace键的实现代码
2017/11/02 Javascript
vue2.0在没有dev-server.js下的本地数据配置方法
2018/02/23 Javascript
JS实现的对象去重功能示例
2019/06/04 Javascript
通过seajs实现JavaScript的模块开发及按模块加载
2019/06/06 Javascript
简单谈谈javascript高级特性
2019/09/04 Javascript
vue点击按钮动态创建与删除组件功能
2019/12/29 Javascript
vue请求数据的三种方式
2020/03/04 Javascript
[03:59]DOTA2英雄梦之声_第07期_水晶室女
2014/06/23 DOTA
[01:09:24]Ti4开幕式
2014/07/19 DOTA
[43:48]Ti4正赛第一天 VG vs NEWBEE 2
2014/07/19 DOTA
Python multiprocessing模块中的Pipe管道使用实例
2015/04/11 Python
菜鸟使用python实现正则检测密码合法性
2016/01/05 Python
利用Python在一个文件的头部插入数据的实例
2018/05/02 Python
Python使用指定字符长度切分数据示例
2019/12/05 Python
详解Python yaml模块
2020/09/23 Python
Python爬虫简单运用爬取代理IP的实现
2020/12/01 Python
HTML5中的nav标签学习笔记
2016/06/24 HTML / CSS
Giglio俄罗斯奢侈品购物网:男士、女士、儿童高级时装
2018/07/27 全球购物
实习鉴定范文
2013/12/19 职场文书
新员工欢迎词
2014/01/12 职场文书
老龙头导游词
2015/02/11 职场文书
党支部工作总结2015
2015/04/01 职场文书
安全温馨提示语大全
2015/07/14 职场文书
最新农村养殖致富:资金投入较低的创业项目有哪些?
2019/09/26 职场文书
python库sklearn常用操作
2021/08/23 Python
WCG2010 星际争霸决赛 Flash vs Goojila 1 星际经典比赛回顾
2022/04/01 星际争霸
JavaScript实现一键复制内容剪贴板
2022/07/23 Javascript