贝叶斯统计理论:
即根据已经发生的事件来预测事件发生的可能性。
贝叶斯理论假设:
如果事件的结果不确定,那么量化它的唯一方法就是事件的发生概率。如果过去试验中事件的出现率已知,那么根据数学方法可以计算出未来试验中事件出现的概率。
算法的优点:
1、纯粹根据统计学规律运作
2、可计算性
步骤:
1. 建立两个或多个对立事件的集合样本,用于分析
2. 提取用于区分是何种事件的特征值
3. 以特征值的某种映射关系建立事件与特征值的哈希表
4. 计算事件中各个特征值的出现概率生成一张特征值出现概率的哈希表
5. 对新事件中特征值进行分析,确定其属于何种事件集
以过滤垃圾邮件为例:
一封是含有“ 法lun功 ” 字样的垃圾邮件
A ,另一封是含有“ 法律 ” 字样的非垃圾邮件 B 。下面根据这两份已有邮件来建立贝叶斯概率库
根据邮件A 生成 hashtable_bad ,该哈希表中的记录为
法: 1 次 轮: 1 次 功: 1 次
计算得在本表中: “法”出现的概率为 0.3 “轮”出现的概率为 0.3 “功”出现的概率为 0.3
根据邮件B生成hashtable_good,该哈希
表中的记录为:
法: 1 次 律: 1 次
计算得在本表中: “法”出现的概率为 0.5 “律”出现的概率为 0.5
综合考虑两个哈希表,共有四个特征值:法 、轮、 功、 律
当邮件中出现“法”时,该邮件为垃圾邮件的概率为:
P = 0.3/ ( 0.3 + 0.5 ) = 0.375
出现“lun”时,该邮件为垃圾邮件的概率为:
P = 0.3/ ( 0.3 + 0 ) = 1
出现“功”时,该邮件为垃圾邮件的概率
为:
P = 0.3/ ( 0.3 + 0 ) = 1
出现“律”时,该邮件为垃圾邮件的概率
为:
P = 0/ ( 0 + 0.5 ) = 0
由此可得第三个哈希表
hashtable_probability ,其数据为:
法: 0.375 lun: 1 功: 1 律: 0
现在新到一封含有“功律”的邮件,我们可得到两个特征值:
功、 律
查询哈希表 hashtable_probability 可得:
P (垃圾邮件 | 功) = 1
P (垃圾邮件 | 律) = 0
此时该邮件为垃圾邮件的可能性为:
P=( 0*1 ) /[0*1+ ( 1-0 ) * ( 1-
1 ) ] = 0
由此可推出该邮件为非垃圾邮件。
贝叶斯过滤技术具备自适应功能――通过学习新的垃圾邮件及正常邮件样本,贝叶斯将能对抗最新的垃圾邮件。
贝叶斯是一种基于事件驱动的算法技术,非常适合用于进行事件流分析的Esper进行操作。
分享到:
相关推荐
1、内容概要:本资源主要基朴素贝叶斯算法实现新闻分类,适用于初学者学习文本分类使用。 2、新闻分类源码实现过程:将数据集划分为训练集和测试集;使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将...
机器学习及与智能数据处理Python使用朴素贝叶斯算法对垃圾短信数据集进行分类中的垃圾短信数据集。 朴素贝叶斯算法 输入:样本集合D={(x_1,y_1),(x_2,y_2)~(x_m,y_m); 待预测样本x; 样本标记的所有可能取值{c_1,c_...
《机器学习》算法实例-朴素贝叶斯算法-屏蔽社区留言板的侮辱言论 构建一个快速过滤器来屏蔽在线社区留言板上的侮辱性言论。如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。对此问题建立两...
5-贝叶斯算法.7z
基于贝叶斯算法的图像像素分割,并可视化分割结果。matlab程序
python 贝叶斯算法原理;python 贝叶斯算法原理;python 贝叶斯算法原理;python 贝叶斯算法原理;python 贝叶斯算法原理;python 贝叶斯算法原理;python 贝叶斯算法原理;python 贝叶斯算法原理;python 贝叶斯...
【项目实战】Python实现贝叶斯算法疫情微博评论情感分析 资料说明:包括数据集+源代码+Word文档说明。 资料内容包括: 1)需求分析; 2)数据采集; 3)数预处理; 4)数据分析过程; 5)利用贝叶斯定理进行情感分析...
使用决策树和朴素贝叶斯算法对Adult数据集分类的源码,可以直接下载使用,替换输入数据即可,方便快捷
mahout中的贝叶斯算法的拓展开发包,提供了相关接口可以供用户调用,直接即可跑出结果,相关运行方式参考blog《mahout贝叶斯算法开发思路(拓展篇)》
贝叶斯算法 贝叶斯算法的完整程序,有兴趣的可以看一下
使用朴素贝叶斯算法实现MNIST数据集的训练预测,精度较高,主要是参考统考学习李航一书和github上相关作者思路进行实现。
1、内容概要:本资源主要基朴素贝叶斯算法实现垃圾邮件过滤分类,适用于初学者学习文本分类使用。 2、主要内容:邮件数据集email,email文件夹下有两个文件夹ham和spam,其中ham文件夹下的txt文件为正常邮件,spam...
大作业的任务是用朴素贝叶斯算法分析天气的和环境的好坏决定是否出门打网球。首先构建训练集;再实现分类算法,通过分类算法对训练数据集的各个特征属性分析,计算出各个特征属性的概率及每个特征属性划分对每个类别...
压缩感知稀疏贝叶斯算法,包含SBL,TSBL和TMSBL算法。亲自测试能够使用
分类算法-朴素贝叶斯算法C语言实现
这是关于java实现机器算法中的朴素贝叶斯算法的程序代码
内容包括朴素贝叶斯算法python实现代码,实现对iris分类,包含iris的txt格式的数据集。
用matlab实现的朴素贝叶斯算法,亲测可用。
利用MATLAB实现稀疏贝叶斯算法,对于压缩感知的学习是一个比较好的东西,可以对具体的过程实现有进一步的了解,用在压缩感知和稀疏恢复重建之中
python 机器学习-朴素贝叶斯算法实现