软件信息

软件语言:简体中文 软件大小:222 KB
软件类型:国产软件 授权方式:免费软件
更新时间:2024-12-23 推荐星级:

下载地址

2019敏感信息词库

这款软件不错(1)
100%
这款软件很差(0)
0.00%
2017敏感信息词库内含2017最新、最全的敏感词,内容覆盖两万多条,包括色情、暴恐、反动、民生及贪腐等六大类词库。敏感词主要的范围指的就是带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语言,在现实中,随着网络科技的发展,随着而来的网络暴力也越来越严重,越来越的人因为网络上的留言而走上轻生的地步,因此国家有关部分特意针对此类问题分布了一系列禁止出现的敏感词,当用户在网络上发帖或者发文章的时候,若出现此类敏感信息系统就将自动屏蔽,或者直接不允许分布。
2019敏感信息词库

包含的敏感词库

★色情词库
★暴恐词库
★反动词库
★民生词库
★其他词库
★贪腐词库

敏感信息词概论

大部分论坛,为了方便管理,都进行了关于敏感词的设定。比如,当你发贴的时候带有某些事先设定的词时,这个贴是不能发出的。或者这个词被自动替换为星号(*)或叉号(X)等,或者说是被和谐掉了。在多数网站,敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语。也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些词是发不出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词

敏感信息词举例说明

例如“Pi”这个词,在国内“Pi”绝对算的上是敏感词语,主要原因一是不雅,二是与黄色有连带关系,但在现实中,“Pi”的使用率却出奇的高,比如人们愤愤然说的“Pi民”、“Pi话”、“狗Pi不通”、“Pi滚尿流”等等,在正常的行文中经常可以看到。同时“Pi”在泰国一般用于称呼某个人,如您叫陈,则在泰国就会被称为“Pi陈”,同时果称谁为“Pipi”,那更是尊称,比如某老人或女人姓王,你叫她“Pipi王”,她会高兴得不得了。显然,在泰国“Pi”是个尊称,类似我们说老王、小罗之类。

特点

1、2017敏感信息词库整合了多个敏感词库,并添加java实现敏感词过滤的工具类,需要根据具体业务适当调整词库内容。
2、敏感词集合,共2W+的敏感词,已通过程序算法去除重复项。
3、里面整理了最新网络词库
4、考虑到各行各业需要的分词规则不同,故没有合并
5、文件为txt、xlsx文本用于敏感词过滤

百度经验敏感词排查方法

一、大致锁定敏感词出现的范围,进行替换尝试
1.明确你的经验,是否是敏感词密集型的主题,比如政治、性等在中国有管制的主题。如果是的话,那你就要注意你通篇的措辞,如何巧妙得选择词汇,避开敏感词,将是非常考验写手经验的。
2.如果只是普通主题,那可能是一些词汇的问题。这些词汇,可能还是色情(OXOX)、广告(链接、手机)、政治(人名、事件)、骂人语等一般来说你只要发现文中有此类型(不和谐)的词汇,都不用进行下一步了,直接删了或改了吧
二、对不确定的词,进行搜索尝试
1.可以在百度经验的搜索栏内对可能的敏感词进行搜索,凡是出现显示为“抱歉,没有找到包含关键词XX的经验。”就可以确定XX是敏感词了
2.在搜索框内搜索敏感词,是根据“没有结果”这个结果来判断的。而很多时候搜索的句子太长,也会没有结果。所以建议以“词”为单位进行搜
三、尝试若失败,建议通过隔离段落法来排查
1.在使用这种方法之前,你必须要明白这么做的代价。
那就是:因为使用隔离法,提交时你的文章是残缺的,若检测通过了,文章的状态会变成“提交中”
2.此时的代价有:
风险1:通过的文章有很多地方不能修改了。比如标题、分类、工具都不能修改了
风险2:可能因为段落的残损导致审核不通过。
风险3:在不断的复制粘贴中,留一份文章的附本吧,免得敏感词没照出来,文章都被剪没了
3.隔离法究竟隔离几段,留下几段呢?
方法一:
一般的方法都是减去其中一段,提交剩下的段落,以此来确定减去的段落是否含有“不当词汇”,这种方法操作起来比较方便,建议首选。
但是有两个缺点,
1.如果是最后一段含有“不当词汇”,需要每段都提交一次。(所以应该根据经验来选择隔离顺序。)
2.如果运气很差,“不当词汇”出现了不只一次,在几个段落里都有,那你用这种方法,根本查不出来啦
方法二:一段一段提交。
先提交一段,审核通过,再提交第二段,...,以此类推,直到出现不能提交的那段。但是并此方法不好,因为提交一次,就需要等待审核一次,相当耗时间。
但是这种方法克服了前面那种方法里,多段中都有敏感词却查不出来的缺点。
不过总的来说,这种方法并不常用
方法三:,不断划分文章进行排查(相当于二分法)。
把所有段落分成两部分,先隔离第二部分,提交第一部分。
第一部分若通过,则证明敏感词在第二部分中;若没通过,则证明敏感词就在第一段中。
此时选取有敏感词的那部分,再次进行划分,提交。最终可以找到那有“不当词汇”的一段。
此方法是前两种方法的折中,速度还可以,也可以查多段都有敏感词的情况,建议第一种方法不行时,用此方法