Python实现敏感词过滤的4种方法


Posted in Python onSeptember 12, 2020

在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中,这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。

(我已经尽量把脏话做成图片的形式了,要不然文章发不出去)

方法一:replace过滤

replace就是最简单的字符串替换,当一串字符串中有可能会出现的敏感词时,我们直接使用相应的replace方法用*替换出敏感词即可。

缺点:

文本和敏感词少的时候还可以,多的时候效率就比较差了

Python实现敏感词过滤的4种方法

import datetime
now = datetime.datetime.now()
print(filter_sentence, " | ", now)

Python实现敏感词过滤的4种方法

如果是多个敏感词可以用列表进行逐一替换

Python实现敏感词过滤的4种方法

for i in dirty:
 speak = speak.replace(i, '*')
print(speak, " | ", now)

Python实现敏感词过滤的4种方法

方法二:正则表达式过滤

正则表达式算是一个不错的匹配方法了,日常的查询中,机会都会用到正则表达式,包括我们的爬虫,也都是经常会使用到正则表达式的,在这里我们主要是使用“|”来进行匹配,“|”的意思是从多个目标字符串中选择一个进行匹配。写个简单的例子:

Python实现敏感词过滤的4种方法

import re

def sentence_filter(keywords, text):
 return re.sub("|".join(keywords), "***", text)

print(sentence_filter(dirty, speak))

Python实现敏感词过滤的4种方法

方法三:DFA过滤算法

DFA的算法,即Deterministic Finite Automaton算法,翻译成中文就是确定有穷自动机算法。它的基本思想是基于状态转移来检索敏感词,只需要扫描一次待检测文本,就能对所有敏感词进行检测。(实现见代码注释)

Python实现敏感词过滤的4种方法

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# @Time:2020/4/15 11:40
# @Software:PyCharm
# article_add: https://www.cnblogs.com/JentZhang/p/12718092.html
__author__ = "JentZhang"
import json

MinMatchType = 1 # 最小匹配规则
MaxMatchType = 2 # 最大匹配规则


class DFAUtils(object):
 """
 DFA算法
 """

 def __init__(self, word_warehouse):
  """
  算法初始化
  :param word_warehouse:词库
  """
  # 词库
  self.root = dict()
  # 无意义词库,在检测中需要跳过的(这种无意义的词最后有个专门的地方维护,保存到数据库或者其他存储介质中)
  self.skip_root = [' ', '&', '!', '!', '@', '#', '$', '¥', '*', '^', '%', '?', '?', '<', '>', "《", '》']
  # 初始化词库
  for word in word_warehouse:
   self.add_word(word)

 def add_word(self, word):
  """
  添加词库
  :param word:
  :return:
  """
  now_node = self.root
  word_count = len(word)
  for i in range(word_count):
   char_str = word[i]
   if char_str in now_node.keys():
    # 如果存在该key,直接赋值,用于下一个循环获取
    now_node = now_node.get(word[i])
    now_node['is_end'] = False
   else:
    # 不存在则构建一个dict
    new_node = dict()

    if i == word_count - 1: # 最后一个
     new_node['is_end'] = True
    else: # 不是最后一个
     new_node['is_end'] = False

    now_node[char_str] = new_node
    now_node = new_node

 def check_match_word(self, txt, begin_index, match_type=MinMatchType):
  """
  检查文字中是否包含匹配的字符
  :param txt:待检测的文本
  :param begin_index: 调用getSensitiveWord时输入的参数,获取词语的上边界index
  :param match_type:匹配规则 1:最小匹配规则,2:最大匹配规则
  :return:如果存在,则返回匹配字符的长度,不存在返回0
  """
  flag = False
  match_flag_length = 0 # 匹配字符的长度
  now_map = self.root
  tmp_flag = 0 # 包括特殊字符的敏感词的长度

  for i in range(begin_index, len(txt)):
   word = txt[i]

   # 检测是否是特殊字符"
   if word in self.skip_root and len(now_map) < 100:
    # len(nowMap)<100 保证已经找到这个词的开头之后出现的特殊字符
    tmp_flag += 1
    continue

   # 获取指定key
   now_map = now_map.get(word)
   if now_map: # 存在,则判断是否为最后一个
    # 找到相应key,匹配标识+1
    match_flag_length += 1
    tmp_flag += 1
    # 如果为最后一个匹配规则,结束循环,返回匹配标识数
    if now_map.get("is_end"):
     # 结束标志位为true
     flag = True
     # 最小规则,直接返回,最大规则还需继续查找
     if match_type == MinMatchType:
      break
   else: # 不存在,直接返回
    break

  if tmp_flag < 2 or not flag: # 长度必须大于等于1,为词
   tmp_flag = 0
  return tmp_flag

 def get_match_word(self, txt, match_type=MinMatchType):
  """
  获取匹配到的词语
  :param txt:待检测的文本
  :param match_type:匹配规则 1:最小匹配规则,2:最大匹配规则
  :return:文字中的相匹配词
  """
  matched_word_list = list()
  for i in range(len(txt)): # 0---11
   length = self.check_match_word(txt, i, match_type)
   if length > 0:
    word = txt[i:i + length]
    matched_word_list.append(word)
    # i = i + length - 1
  return matched_word_list

 def is_contain(self, txt, match_type=MinMatchType):
  """
  判断文字是否包含敏感字符
  :param txt:待检测的文本
  :param match_type:匹配规则 1:最小匹配规则,2:最大匹配规则
  :return:若包含返回true,否则返回false
  """
  flag = False
  for i in range(len(txt)):
   match_flag = self.check_match_word(txt, i, match_type)
   if match_flag > 0:
    flag = True
  return flag

 def replace_match_word(self, txt, replace_char='*', match_type=MinMatchType):
  """
  替换匹配字符
  :param txt:待检测的文本
  :param replace_char:用于替换的字符,匹配的敏感词以字符逐个替换,如"你是大王八",敏感词"王八",替换字符*,替换结果"你是大**"
  :param match_type:匹配规则 1:最小匹配规则,2:最大匹配规则
  :return:替换敏感字字符后的文本
  """
  tuple_set = self.get_match_word(txt, match_type)
  word_set = [i for i in tuple_set]
  result_txt = ""
  if len(word_set) > 0: # 如果检测出了敏感词,则返回替换后的文本
   for word in word_set:
    replace_string = len(word) * replace_char
    txt = txt.replace(word, replace_string)
    result_txt = txt
  else: # 没有检测出敏感词,则返回原文本
   result_txt = txt
  return result_txt


if __name__ == '__main__':
 dfa = DFAUtils(word_warehouse=word_warehouse)
 print('词库结构:', json.dumps(dfa.root, ensure_ascii=False))
 # 待检测的文本
 msg = msg
 print('是否包含:', dfa.is_contain(msg))
 print('相匹配的词:', dfa.get_match_word(msg))
 print('替换包含的词:', dfa.replace_match_word(msg))

Python实现敏感词过滤的4种方法

方法四:AC自动机

AC自动机需要有前置知识:Trie树(简单介绍:又称前缀树,字典树,是用于快速处理字符串的问题,能做到快速查找到一些字符串上的信息。)

详细参考:

python可以利用ahocorasick模块快速实现:

Python实现敏感词过滤的4种方法

# python3 -m pip install pyahocorasick
import ahocorasick

def build_actree(wordlist):
 actree = ahocorasick.Automaton()
 for index, word in enumerate(wordlist):
  actree.add_word(word, (index, word))
 actree.make_automaton()
 return actree

if __name__ == '__main__':
 actree = build_actree(wordlist=wordlist)
 sent_cp = sent
 for i in actree.iter(sent):
  sent_cp = sent_cp.replace(i[1][1], "**")
  print("屏蔽词:",i[1][1])
 print("屏蔽结果:",sent_cp)

Python实现敏感词过滤的4种方法

当然,我们也可以手写一份AC自动机,具体参考:

class TrieNode(object):
 __slots__ = ['value', 'next', 'fail', 'emit']

 def __init__(self, value):
  self.value = value
  self.next = dict()
  self.fail = None
  self.emit = None


class AhoCorasic(object):
 __slots__ = ['_root']

 def __init__(self, words):
  self._root = AhoCorasic._build_trie(words)

 @staticmethod
 def _build_trie(words):
  assert isinstance(words, list) and words
  root = TrieNode('root')
  for word in words:
   node = root
   for c in word:
    if c not in node.next:
     node.next[c] = TrieNode(c)
    node = node.next[c]
   if not node.emit:
    node.emit = {word}
   else:
    node.emit.add(word)
  queue = []
  queue.insert(0, (root, None))
  while len(queue) > 0:
   node_parent = queue.pop()
   curr, parent = node_parent[0], node_parent[1]
   for sub in curr.next.itervalues():
    queue.insert(0, (sub, curr))
   if parent is None:
    continue
   elif parent is root:
    curr.fail = root
   else:
    fail = parent.fail
    while fail and curr.value not in fail.next:
     fail = fail.fail
    if fail:
     curr.fail = fail.next[curr.value]
    else:
     curr.fail = root
  return root

 def search(self, s):
  seq_list = []
  node = self._root
  for i, c in enumerate(s):
   matched = True
   while c not in node.next:
    if not node.fail:
     matched = False
     node = self._root
     break
    node = node.fail
   if not matched:
    continue
   node = node.next[c]
   if node.emit:
    for _ in node.emit:
     from_index = i + 1 - len(_)
     match_info = (from_index, _)
     seq_list.append(match_info)
    node = self._root
  return seq_list


if __name__ == '__main__':
 aho = AhoCorasic(['foo', 'bar'])
 print aho.search('barfoothefoobarman')

以上便是使用Python实现敏感词过滤的四种方法,前面两种方法比较简单,后面两种偏向算法,需要先了解算法具体实现的原理,之后代码就好懂了。(DFA作为比较常用的过滤手段,建议大家掌握一下~)

最后附上敏感词词库:

https://github.com/qloog/sensitive_words

以上就是Python实现敏感词过滤的4种方法的详细内容,更多关于python 敏感词过滤的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
跟老齐学Python之关于类的初步认识
Oct 11 Python
Python使用bs4获取58同城城市分类的方法
Jul 08 Python
windows下安装Python和pip终极图文教程
Mar 05 Python
python利用urllib和urllib2访问http的GET/POST详解
Sep 27 Python
python中字符串的操作方法大全
Jun 03 Python
python中logging模块的一些简单用法的使用
Feb 22 Python
python操作文件的参数整理
Jun 11 Python
pytorch 指定gpu训练与多gpu并行训练示例
Dec 31 Python
基于Tensorflow批量数据的输入实现方式
Feb 05 Python
Python拼接字符串的7种方式详解
Mar 19 Python
Python  word实现读取及导出代码解析
Jul 09 Python
python函数的两种嵌套方法使用
Apr 02 Python
Python CategoricalDtype自定义排序实现原理解析
Sep 11 #Python
python 如何利用argparse解析命令行参数
Sep 11 #Python
Python Pivot table透视表使用方法解析
Sep 11 #Python
Python extract及contains方法代码实例
Sep 11 #Python
python 利用zmail库发送邮件
Sep 11 #Python
浅析Python 责任链设计模式
Sep 11 #Python
详解python命令提示符窗口下如何运行python脚本
Sep 11 #Python
You might like
使用PHP实现二分查找算法代码分享
2011/06/24 PHP
从零开始学YII2框架(三)扩展插件yii2-gird
2014/08/20 PHP
Laravel中任务调度console使用方法小结
2017/05/07 PHP
php反序列化长度变化尾部字符串逃逸(0CTF-2016-piapiapia)
2020/02/15 PHP
Prototype使用指南之selector.js
2007/01/10 Javascript
JS request函数 用来获取url参数
2010/05/17 Javascript
JavaScript之引用类型介绍
2012/08/10 Javascript
jQuery语法总结和注意事项小结
2012/11/11 Javascript
javascript中Array数组的迭代方法实例分析
2015/02/04 Javascript
Js实现自定义右键行为
2015/03/26 Javascript
Javascript实现获取及设置光标位置的方法
2015/07/21 Javascript
Zero Clipboard实现浏览器复制到剪贴板的方法(多个复制按钮)
2016/03/24 Javascript
Easyui 之 Treegrid 笔记
2016/04/29 Javascript
微信jssdk用法汇总
2016/07/16 Javascript
AngularJS下对数组的对比分析
2016/08/24 Javascript
微信小程序 支付简单实例及注意事项
2017/01/06 Javascript
利用ES6实现单例模式及其应用详解
2017/12/09 Javascript
Vue框架TypeScript装饰器使用指南小结
2019/02/18 Javascript
使用Easyui实现查询条件的后端传递并自动刷新表格的两种方法
2019/09/09 Javascript
js实现超级玛丽小游戏
2020/03/18 Javascript
python 参数列表中的self 显式不等于冗余
2008/12/01 Python
Python判断变量是否为Json格式的字符串示例
2017/05/03 Python
基于Python3 逗号代码 和 字符图网格(详谈)
2017/06/22 Python
python微信公众号之关键词自动回复
2018/06/15 Python
python3.x+pyqt5实现主窗口状态栏里(嵌入)显示进度条功能
2019/07/04 Python
Python时间序列缺失值的处理方法(日期缺失填充)
2019/08/11 Python
static全局变量与普通的全局变量有什么区别
2014/05/27 面试题
安全生产投入制度
2014/01/29 职场文书
《罗布泊,消逝的仙湖》教学反思
2014/03/01 职场文书
老人祝寿主持词
2014/03/28 职场文书
护士辞职信怎么写
2015/02/27 职场文书
光荣之路观后感
2015/06/12 职场文书
追悼词范文大全
2015/06/23 职场文书
员工试用期工作总结
2019/06/20 职场文书
预备党员的思想汇报,你真的会写吗?
2019/06/28 职场文书
linux下安装redis图文详细步骤
2021/12/04 Redis