`
x-rip
  • 浏览: 105349 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

贝叶斯算法

 
阅读更多


贝叶斯统计理论:

即根据已经发生的事件来预测事件发生的可能性。

贝叶斯理论假设:

如果事件的结果不确定,那么量化它的唯一方法就是事件的发生概率。如果过去试验中事件的出现率已知,那么根据数学方法可以计算出未来试验中事件出现的概率。

算法的优点:

1、纯粹根据统计学规律运作

2、可计算性

步骤:

1. 建立两个或多个对立事件的集合样本,用于分析

2. 提取用于区分是何种事件的特征值

3. 以特征值的某种映射关系建立事件与特征值的哈希表

4. 计算事件中各个特征值的出现概率生成一张特征值出现概率的哈希表

5. 对新事件中特征值进行分析,确定其属于何种事件集

以过滤垃圾邮件为例:

一封是含有“ 法lun功 ” 字样的垃圾邮件 A ,另一封是含有“ 法律 ” 字样的非垃圾邮件 B 。下面根据这两份已有邮件来建立贝叶斯概率库

根据邮件A 生成 hashtable_bad ,该哈希表中的记录为

法: 1 次 轮: 1 次 功: 1 次

计算得在本表中:  “法”出现的概率为 0.3  “轮”出现的概率为 0.3  “功”出现的概率为 0.3

  根据邮件B生成hashtable_good,该哈希 表中的记录为:

法: 1 次 律: 1 次

计算得在本表中: “法”出现的概率为 0.5  “律”出现的概率为 0.5

综合考虑两个哈希表,共有四个特征值:法 、轮、 功、 律

  当邮件中出现“法”时,该邮件为垃圾邮件的概率为:

P = 0.3/ ( 0.3 + 0.5 ) = 0.375

出现“lun”时,该邮件为垃圾邮件的概率为:

P = 0.3/ ( 0.3 + 0 ) = 1

出现“功”时,该邮件为垃圾邮件的概率 为:
  P = 0.3/ ( 0.3 + 0 ) = 1  

出现“律”时,该邮件为垃圾邮件的概率 为:

P = 0/ ( 0 + 0.5 ) = 0

由此可得第三个哈希表 hashtable_probability ,其数据为:

  法: 0.375   lun: 1  功: 1  律: 0

现在新到一封含有“功律”的邮件,我们可得到两个特征值:

功、 律

查询哈希表 hashtable_probability 可得:

P (垃圾邮件 | 功) = 1  

P (垃圾邮件 | 律) = 0  

此时该邮件为垃圾邮件的可能性为:

P=( 0*1 ) /[0*1+ ( 1-0 ) * ( 1- 1 ) ] = 0

由此可推出该邮件为非垃圾邮件。


贝叶斯过滤技术具备自适应功能――通过学习新的垃圾邮件及正常邮件样本,贝叶斯将能对抗最新的垃圾邮件。


贝叶斯是一种基于事件驱动的算法技术,非常适合用于进行事件流分析的Esper进行操作。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics