基于Hadoop平台的Spark框架研究(2)

时间:2015-01-03 10:34 来源:www.fabiaoba.com 作者:陈虹君 点击:

  MLlib是一些常用机器学习算法和工具中非常突出的,分类,回归,聚类,协同过滤,降维,以及相关的优化原语。

  许多标准的机器学习方法可以归结为一个凸优化问题,例如一项任务,去找到一个凸面函数f的最小值,这个凸面函数依赖于可变的vector w 向量,这个向量在一个node 中叫做weights 权值,我们可以把这个在客观函数里写成最优化问题,

  [minw∈?d f(w)]

  [f(w):=1ni=1nL(w;xi,yi)+λR(wi).]

  这个[vectors xi∈?d]是训练数据例子, 1≤i≤n, and yi∈R 是他们对应的标签,这也是我们想预测的标签。

  MLlib 包括的评价指标有:精确度,回收,F值,ROC,精密回收曲线,曲线下面积(AUC),AUC常用来比较模型,而精确度,回收,F值,ROC用来确定阀值。

  4 Graphx

  GraphX是新的(alpha)Spark用于图表和图形,并行计算的的API。 在一个高层次上, GraphX 延伸了Spark RDD 通过引入Resilient Distributed Property Graph (弹性分布式属性图): 一个有向多重图与附加到每个顶点和边的属性。为了支持图形计算, GraphX 公开了一组基本的运算符 (e.g., subgraph (子图), joinVertices, and mapReduceTriplets) 以及一个最优的转变的Pregel API. 此外, GraphX 包含一个对图形 algorithms (算法) and builders(构建器) 不断增长的包集合,用以简化图形分析任务。

  从社交网络到语言建模,图形数据的增长规模和重要性,带动众多新图形并行系统(例如, Giraph and GraphLab)的发展。通过限制可以被表示计算的类型和引入新技术来划分和分配图形,这些系统能够有效地执行复杂的图形算法命令并远快于大多数普通的数据并行系统。

  5 Spark Streaming

  如果要用一句话来概括Spark Streaming的处理思路的话,那就是" 将连续的数据持久化,离散化,然后进行批量处理" 。

  Spark Streaming 是Spark核心的扩展API,允许使高通量、容错实时数据流的流处理。数据可以从许多来源摄取如Kafka,Flume,Twitter,ZeroMQ或普通TCP套接字和使用复杂的算法表达式处理的高级函数如:map, reduce, join 和window的数据。最后处理过的数据可以放到文件系统,数据库和可视化仪表板上。事实上,你可以引用内置的Spark的机器学习算法,数据流图处理算法。

  6 Spark 的任务调度方式

  Spark应用程序在集群上是一个独立运行的过程,在你的主程序中有SparkContext对象协调(驱动程序)。SparkContext可以连接多种类型的cluster managers(Spark’s own standalone cluster manager or Mesos/YARN),跨应用程序分配资源。一旦连接,Spark获得集群中节点的executors(执行权),应用程序进行计算和存储数据是一个过程。接下来,它将发送你的程序代码(JAR或Python文件传递给SparkContext)到executors。最后,SparkContext发送tasks给executors执行。

  7 Spark 的环境搭建与测试

  配置1台,克隆两台,修改/etc/hostname即可。

  创建hadoop用户组和用户。创建用户组sudo addgroup hadoop;创建用户

  sudo adduser -ingroup hadoop hadoop;给hadoop用户添加权限,打开/etc/sudoers文件:sudo gedit /etc/sudoers;在root ALL=(ALL)ALL行下添加ALL=(ALL:ALL) ALL。如果不添加这行,hadoop将不能执行sudo操作。

  解压jdk1.7.0_10配置好,采用桥接模式获得静态虚拟机ip,关闭防火墙重启虚拟机生效。配置ssh可以实现远程登录和管理

  进入etc下修改配置文件

  cd /usr/local/hadoop/etc/hadoop

  编辑hadoop-env.sh(修改JAVA_HOME的配置)

  sudo gedit hadoop-env.sh

  export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_45

www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
  本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/ CSSCI核心/医学投稿辅导/职称投稿辅导。

投稿邮箱:fabiaoba365@126.com
 在线咨询: 投稿辅导275774677投稿辅导1003180928
 在线咨询: 投稿辅导610071587投稿辅导1003160816
 联系电话:18796993035

联系方式
李老师QQ:发表吧客服610071587 陈老师QQ:发表吧客服275774677 刘老师QQ:发表吧客服1003160816 张老师QQ:发表吧客服1003180928 联系电话:18796993035 投稿邮箱:fabiaoba365@126.com
期刊鉴别
  • 刊物名称:
  • 检索网站:
热门期刊
发表吧友情提醒

近来发现有些作者论文投稿存在大量剽窃、抄袭行为,“发表吧”对此类存在大量剽窃、抄袭的论文已经停止编辑、推荐。同时我们也提醒您,当您向“发表吧”投稿时请您一定要保证论文的原创性、唯一性,这既是对您自己负责,更是对他人的尊敬。

此类投稿的论文如果发表之后,对您今后的人生和事业将造成很大的麻烦,后果不堪设想,请您一定要慎重,三思而后行。

如因版权问题引起争议或任何其他原因,“发表吧”不承担任何法律责任,侵权法律责任概由剽窃、抄袭者本人承担。

 
QQ在线咨询
论文刊登热线:
137-7525-9981
微信号咨询:
fabiaoba-com

友情链接

申请链接