InterfaceAudience InterfaceStability

博客分类：

Hadoop

转：http://shuofenglxy.iteye.com/blog/935597 InterfaceAudience 类包含三个注解类型，用来被说明被他们注解的类型的潜在的使用范围（audience）。 @InterfaceAudience.Public：对所有工程和应用可用 @InterfaceAudience.LimitedPrivate：仅限于某些特定工程，如Comomn，HDFS等 @InterfaceAudience.Private：仅限于Hadoop InterfaceStability 类包含三个注解，用 ...

2012-05-14 17:51
浏览 1589
评论(0)
分类:开源软件

Linux的资源控制——cgroup

1、 cgroup cgroup与进程类似，是分等级的。各个属性继承于父进程。用户可以通过cgroup为其控制的任务分配资源，如：CPU、内存、网络带宽等。cgroup包含了多个子系统，每个子系统代表一个单一的资源。以Redhat企业版6为例，共有9个子系统。分别为： a) blkio：用于限制每个块设备的输入输出。如：磁盘、usb等 b) cpu：提供对cpu的访问 c) cpuacct：生成cgroup任务的cpu资源报告 d) cpuset：对于多核cpu，该子系统为cgroup任务分配单独的cpu和内存 e) devices：允许或者拒绝cgroup任务对设备的访问 ...

2012-05-13 14:01
浏览 4281
评论(0)
分类:操作系统

Storm中以后可能会出现的几个比较有用的功能

1、replication nathan提到可以通过自己实现的Grouping方式来让同一个流发送到不同的机器上，从而达到Replication的效果。 2、Hook 在执行Spout/Bolt的emitted, acked, failed方法前后所执行的Hook. 3、定制某个流发送到特定的某个机器上可以实现1中的效果，还可以利用本地化进行补数据。由于宕机等事故，导致部分数据丢失需要重跑的时候，我们可以选择将需要重跑的方法依次发送到存储宕机数据的机器上，模仿Hadoop进行补数据。

2012-03-25 13:55
浏览 1247
评论(0)
分类:开源软件

Storm 与 Esper

将storm做更高层次的抽象就没有办法绕开数据的元数据。Storm本身只提供到fields级别的，而且发送单位只能是List<Object>，nathan在这方面虽有意向，但没有说明开发计划。基于事件流分析的Esper有较为丰富的上层接口，其类SQL语言对数据开发人员也比较友好。在Github上也有人做过此类的尝试，https://github.com/tomdz/storm-esper ，可能由于作者只是一时兴起，并没有做完善的开发，在元数据方面也仅仅以Object类型代之，使得Esper中利用持久层数据库做过滤、查询等操作就形同鸡肋。于是自己写了一个Storm的Esper ...

2012-03-25 13:34
浏览 3805
评论(4)
分类:开源软件

贝叶斯算法

贝叶斯统计理论：即根据已经发生的事件来预测事件发生的可能性。贝叶斯理论假设：如果事件的结果不确定，那么量化它的唯一方法就是事件的发生概率。如果过去试验中事件的出现率已知，那么根据数学方法可以计算 ...

2012-03-25 13:12
浏览 966
评论(0)
分类:非技术

storm-user note

About resend message: http://groups.google.com/group/storm-user/browse_thread/thread/c5f06d757a51e0eb About CoordinatedBolt: http://groups.google.com/group/storm-user/browse_thread/thread/4521313e919d6561 About Storm&Hadoop / Distributed Calculate http://groups.google.com/group/storm-u ...

2012-01-17 10:18
浏览 1094
评论(0)
分类:开源软件

2011年终总结之流水账

随着本山大叔令人回味的此处省略N字，时光平淡的带我进入了北航的下半学期。习惯了上课的节奏和北京的生活，一切都已不再新鲜。我的主要时间都用在了《深入理解Linux内核》这本书上，然而当我写这次总结时，我俨然� ...

2012-01-06 13:25
浏览 1048
评论(0)
分类:非技术

Hadoop与Strom

博客分类：

Hadoop

2011最后一个季度的工作基本上是围绕着两个开源项目展开的，总结如下：由于硬件的瓶颈，摩尔定律已无法跟上数据量增长的趋势。分布式系统应运而生，而Hadoop和Storm正好代表了两个分布式系统发展的两个方向。分布式系统，其主要问题在于如何在节点上将对应的操作应用到数据上。其计算模型也就变成了如何对数据或者操作或者两者的混合进行分发和处理。Hadoop根据移动计算优于移动数据的原则，将操作分发到存储数据的节点，仅在需要且必须移动数据的时候移动数据。这一点注定了Hadoop的适用范围——批处理计算。因为在我们需要对数据进行一系列操作时，数据已经固定了，从某种意义上来说，数据是死的， ...

2012-01-06 13:22
浏览 1225
评论(0)
分类:开源软件

Hadoop中一些优化想法

博客分类：

Hadoop

最近看了一些在线上跑的程序，发现一个Map输入量在700多mb，而reduce的输入只有几k。一个HiveSql程序，发现该程序只是将文件第一行的数值读出来，然后处理，其他都不需要，Hadoop在对文件的部分内容处理上还需要改进，目前无论是你的需求是什么，都会读入整个文件。有时候我的程序不需要排序，但是在Map的输出和拷贝Map输出后的reduce端都会做排序，前者用的快速排序，后者用的堆排序，我不需要排序，只能将sort类变为NULL？期待更nb的方法。

2011-10-28 17:08
浏览 1025
评论(0)
分类:开源软件

在Hadoop集群中动态增加和减少机器

博客分类：

Hadoop

增加机器： 1、将新增加的机器配置文件配好 2、将新增加的机器主机名/IP添加到Master机器中的$HADOOP_HOME$/conf/slaves文件中 3、在新增加的机器中输入以下命令引用$ cd path/to/hadoop $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 4、在Master机器上输入以下命令引用$bin/hadoop balancer 减少机器： 1、在$HADOOP_HOME$/conf/中建立文本文件excludes。 2、在exclude ...

2011-10-26 18:08
浏览 1575
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

InterfaceAudience InterfaceStability

Linux的资源控制——cgroup

Storm中以后可能会出现的几个比较有用的功能

Storm 与 Esper

贝叶斯算法

storm-user note

2011年终总结之流水账

Hadoop与Strom

Hadoop中一些优化想法

在Hadoop集群中动态增加和减少机器

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>