django haystack实现全文检索的示例代码


Posted in Python onJune 24, 2020

全文检索里的组件简介

1. 什么是haystack?

1. haystack是django的开源搜索框架,该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎,不用更改代码,直接切换引擎,减少代码量。

2. 搜索引擎使用Whoosh,这是一个由纯Python实现的全文搜索引擎, 没有二进制文件等,比较小巧,配置比较简单,当然性能自然略低。

3. 中文分词Jieba,由于Whoosh自带的是英文分词,对中文的分词支持不是太好,故用jieba替换whoosh的分词组件

2. 什么是jieba?

很多的搜索引擎对中的支持不友好,jieba作为一个中文分词器就是加强对中文的检索功能

3. Whoosh是什么

1. Python的全文搜索库,Whoosh是索引文本及搜索文本的类和函数库

2. Whoosh 自带的是英文分词,对中文分词支持不太好,使用 jieba 替换 whoosh 的分词组件。

haystack配置使用(前后端分离)

1. 安装需要的包

pip3 install django-haystack
pip3 install whoosh
pip3 install jieba

2. 在setting.py中配置

'''注册app '''
INSTALLED_APPS = [
  'django.contrib.admin',
  'django.contrib.auth',
  'django.contrib.contenttypes',
  'django.contrib.sessions',
  'django.contrib.messages',
  'django.contrib.staticfiles',
  # haystack要放在应用的上面
  'haystack',
  'myapp', # 这个jsapp是自己创建的app
]


'''配置haystack '''
# 全文检索框架配置
HAYSTACK_CONNECTIONS = {
  'default': {
    # 指定whoosh引擎
    'ENGINE': 'haystack.backends.whoosh_backend.WhooshEngine',
    # 'ENGINE': 'myapp.whoosh_cn_backend.WhooshEngine',   # whoosh_cn_backend是haystack的whoosh_backend.py改名的文件为了使用jieba分词
    # 索引文件路径
    'PATH': os.path.join(BASE_DIR, 'whoosh_index'),
  }
}
# 添加此项,当数据库改变时,会自动更新索引,非常方便
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

3. 定义数据库

from django.db import models

# Create your models here.
class UserInfo(models.Model):
  name = models.CharField(max_length=254)
  age = models.IntegerField()


class ArticlePost(models.Model):
  author = models.ForeignKey(UserInfo,on_delete=models.CASCADE)
  title = models.CharField(max_length=200)
  desc = models.SlugField(max_length=500)
  body = models.TextField()

索引文件生成

1. 在子应用下创建索引文件

在子应用的目录下,创建一个名为 myapp/search_indexes.py 的文件

from haystack import indexes
from .models import ArticlePost

# 修改此处,类名为模型类的名称+Index,比如模型类为GoodsInfo,则这里类名为GoodsInfoIndex(其实可以随便写)
class ArticlePostIndex(indexes.SearchIndex, indexes.Indexable):
  # text为索引字段
  # document = True,这代表haystack和搜索引擎将使用此字段的内容作为索引进行检索
  # use_template=True 指定根据表中的那些字段建立索引文件的说明放在一个文件中
  text = indexes.CharField(document=True, use_template=True)

  # 对那张表进行查询
  def get_model(self): # 重载get_model方法,必须要有!
    # 返回这个model
    return ArticlePost

  # 建立索引的数据
  def index_queryset(self, using=None):
    # 这个方法返回什么内容,最终就会对那些方法建立索引,这里是对所有字段建立索引
    return self.get_model().objects.all()

2.指定索引模板文件

创建文件路径命名必须这个规范:templates/search/indexes/应用名称/模型类名称_text.txt
如:
templates/search/indexes/myapp/articlepost_text.txt

django haystack实现全文检索的示例代码

{{ object.title }}
{{ object.author.name }}
{{ object.body }}

3.使用命令创建索引

python manage.py rebuild_index # 建立索引文件

替换成jieba分词

1.将haystack源码复制到项目中并改名

'''1.复制源码中文件并改名 '''
将 /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/
site-packages/haystack/backends/whoosh_backend.py文件复制到项目中
并将 whoosh_backend.py改名为 whoosh_cn_backend.py 放在APP中如:
myapp\whoosh_cn_backend.py

'''2.修改源码中文件'''
# 在全局引入的最后一行加入jieba分词器
from jieba.analyse import ChineseAnalyzer

# 修改为中文分词法
查找
analyzer=StemmingAnalyzer()
改为
analyzer=ChineseAnalyzer()

django haystack实现全文检索的示例代码

索引文件使用

1. 编写视图

from django.shortcuts import render

# Create your views here.
import json
from django.conf import settings
from django.core.paginator import InvalidPage, Paginator
from django.http import Http404, HttpResponse,JsonResponse
from haystack.forms import ModelSearchForm
from haystack.query import EmptySearchQuerySet
RESULTS_PER_PAGE = getattr(settings, 'HAYSTACK_SEARCH_RESULTS_PER_PAGE', 20)



def basic_search(request, load_all=True, form_class=ModelSearchForm, searchqueryset=None, extra_context=None, results_per_page=None):
  query = ''
  results = EmptySearchQuerySet()
  if request.GET.get('q'):
    form = form_class(request.GET, searchqueryset=searchqueryset, load_all=load_all)

    if form.is_valid():
      query = form.cleaned_data['q']
      results = form.search()
  else:
    form = form_class(searchqueryset=searchqueryset, load_all=load_all)

  paginator = Paginator(results, results_per_page or RESULTS_PER_PAGE)
  try:
    page = paginator.page(int(request.GET.get('page', 1)))
  except InvalidPage:
    result = {"code": 404, "msg": 'No file found!', "data": []}
    return HttpResponse(json.dumps(result), content_type="application/json")

  context = {
    'form': form,
    'page': page,
    'paginator': paginator,
    'query': query,
    'suggestion': None,
  }
  if results.query.backend.include_spelling:
    context['suggestion'] = form.get_suggestion()

  if extra_context:
    context.update(extra_context)


  jsondata = []
  print(len(page.object_list))
  for result in page.object_list:
    data = {
      'pk': result.object.pk,
      'title': result.object.title,
      'content': result.object.body,

    }
    jsondata.append(data)
  result = {"code": 200, "msg": 'Search successfully!', "data": jsondata}
  return JsonResponse(result, content_type="application/json")

到此这篇关于django haystack实现全文检索的示例代码的文章就介绍到这了,更多相关django haystack 全文检索内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python生成器generator用法实例分析
Jun 04 Python
python实现线程池的方法
Jun 30 Python
使用Python的package机制如何简化utils包设计详解
Dec 11 Python
Python2.7下安装Scrapy框架步骤教程
Dec 22 Python
Django框架设置cookies与获取cookies操作详解
May 27 Python
python,Django实现的淘宝客登录功能示例
Jun 12 Python
Python随机函数库random的使用方法详解
Aug 21 Python
python实现大战外星人小游戏实例代码
Dec 26 Python
解决json中ensure_ascii=False的问题
Apr 03 Python
基于python 将列表作为参数传入函数时的测试与理解
Jun 05 Python
Pytorch框架实现mnist手写库识别(与tensorflow对比)
Jul 20 Python
python实现学生信息管理系统源码
Feb 22 Python
Python爬虫如何应对Cloudflare邮箱加密
Jun 24 #Python
python使用自定义钉钉机器人的示例代码
Jun 24 #Python
pytorch中的weight-initilzation用法
Jun 24 #Python
pytorch查看模型weight与grad方式
Jun 24 #Python
pytorch  网络参数 weight bias 初始化详解
Jun 24 #Python
可视化pytorch 模型中不同BN层的running mean曲线实例
Jun 24 #Python
python3.x中安装web.py步骤方法
Jun 23 #Python
You might like
php中单个数据库字段多列显示(单字段分页、横向输出)
2014/07/28 PHP
php取得字符串首字母的方法
2015/03/25 PHP
js 表格隔行颜色
2009/12/02 Javascript
javascript实现面向对象类的功能书写技巧
2010/03/07 Javascript
Javascript实现仿WebQQ界面的“浮云”兼容 IE7以上版本及FF
2011/04/27 Javascript
jquery动态分页效果堪比时光网
2014/09/25 Javascript
AngularJS基础 ng-paste 指令简单示例
2016/08/02 Javascript
JavaScript学习笔记整理_简单实现枚举类型,扑克牌应用
2016/09/19 Javascript
js实现文字无缝向上滚动
2017/02/16 Javascript
Vue.js学习教程之列表渲染详解
2017/05/17 Javascript
老生常谈Bootstrap媒体对象
2017/07/06 Javascript
JS实现仿UC浏览器前进后退效果的实例代码
2017/07/17 Javascript
为什么我们要做三份 Webpack 配置文件
2017/09/18 Javascript
解决vue中无法动态修改jqgrid组件 url地址的问题
2018/03/01 Javascript
解决vue-cli单页面手机应用input点击手机端虚拟键盘弹出盖住input问题
2018/08/25 Javascript
详解vue移动端项目代码拆分记录
2019/03/15 Javascript
详解基于原生JS验证表单组件xy-form
2019/08/20 Javascript
关于layui toolbar和template的结合使用方法
2019/09/19 Javascript
vue组件内部引入外部js文件的方法
2020/01/18 Javascript
python益智游戏计算汉诺塔问题示例
2014/03/05 Python
在Python的setuptools框架下生成egg的教程
2015/04/13 Python
Python functools模块学习总结
2015/05/09 Python
Python简单计算文件夹大小的方法
2015/07/14 Python
python将字符串转换成json的方法小结
2019/07/09 Python
python opencv将表格图片按照表格框线分割和识别
2019/10/30 Python
pytorch sampler对数据进行采样的实现
2019/12/31 Python
解决pyecharts运行后产生的html文件用浏览器打开空白
2020/03/11 Python
Python进程的通信Queue、Pipe实例分析
2020/03/30 Python
python 读txt文件,按‘,’分割每行数据操作
2020/07/05 Python
英国复古服装和球衣购买网站:3Retro Football
2018/07/09 全球购物
美国价格实惠的在线眼镜网站:Zeelool
2020/12/25 全球购物
保健品市场营销方案
2014/03/31 职场文书
父母对孩子的寄语
2014/04/09 职场文书
物资采购方案
2014/06/12 职场文书
企业法人授权委托书
2014/09/25 职场文书
关于感恩老师的古诗句
2019/08/20 职场文书