基于Hadoop平台的Spark框架研究(2)
MLlib是一些常用机器学习算法和工具中非常突出的,分类,回归,聚类,协同过滤,降维,以及相关的优化原语。
许多标准的机器学习方法可以归结为一个凸优化问题,例如一项任务,去找到一个凸面函数f的最小值,这个凸面函数依赖于可变的vector w 向量,这个向量在一个node 中叫做weights 权值,我们可以把这个在客观函数里写成最优化问题,
[minw∈?d f(w)]
[f(w):=1ni=1nL(w;xi,yi)+λR(wi).]
这个[vectors xi∈?d]是训练数据例子, 1≤i≤n, and yi∈R 是他们对应的标签,这也是我们想预测的标签。
MLlib 包括的评价指标有:精确度,回收,F值,ROC,精密回收曲线,曲线下面积(AUC),AUC常用来比较模型,而精确度,回收,F值,ROC用来确定阀值。
4 Graphx
GraphX是新的(alpha)Spark用于图表和图形,并行计算的的API。 在一个高层次上, GraphX 延伸了Spark RDD 通过引入Resilient Distributed Property Graph (弹性分布式属性图): 一个有向多重图与附加到每个顶点和边的属性。为了支持图形计算, GraphX 公开了一组基本的运算符 (e.g., subgraph (子图), joinVertices, and mapReduceTriplets) 以及一个最优的转变的Pregel API. 此外, GraphX 包含一个对图形 algorithms (算法) and builders(构建器) 不断增长的包集合,用以简化图形分析任务。
从社交网络到语言建模,图形数据的增长规模和重要性,带动众多新图形并行系统(例如, Giraph and GraphLab)的发展。通过限制可以被表示计算的类型和引入新技术来划分和分配图形,这些系统能够有效地执行复杂的图形算法命令并远快于大多数普通的数据并行系统。
5 Spark Streaming
如果要用一句话来概括Spark Streaming的处理思路的话,那就是" 将连续的数据持久化,离散化,然后进行批量处理" 。
Spark Streaming 是Spark核心的扩展API,允许使高通量、容错实时数据流的流处理。数据可以从许多来源摄取如Kafka,Flume,Twitter,ZeroMQ或普通TCP套接字和使用复杂的算法表达式处理的高级函数如:map, reduce, join 和window的数据。最后处理过的数据可以放到文件系统,数据库和可视化仪表板上。事实上,你可以引用内置的Spark的机器学习算法,数据流图处理算法。
6 Spark 的任务调度方式
Spark应用程序在集群上是一个独立运行的过程,在你的主程序中有SparkContext对象协调(驱动程序)。SparkContext可以连接多种类型的cluster managers(Spark’s own standalone cluster manager or Mesos/YARN),跨应用程序分配资源。一旦连接,Spark获得集群中节点的executors(执行权),应用程序进行计算和存储数据是一个过程。接下来,它将发送你的程序代码(JAR或Python文件传递给SparkContext)到executors。最后,SparkContext发送tasks给executors执行。
7 Spark 的环境搭建与测试
配置1台,克隆两台,修改/etc/hostname即可。
创建hadoop用户组和用户。创建用户组sudo addgroup hadoop;创建用户
sudo adduser -ingroup hadoop hadoop;给hadoop用户添加权限,打开/etc/sudoers文件:sudo gedit /etc/sudoers;在root ALL=(ALL)ALL行下添加ALL=(ALL:ALL) ALL。如果不添加这行,hadoop将不能执行sudo操作。
解压jdk1.7.0_10配置好,采用桥接模式获得静态虚拟机ip,关闭防火墙重启虚拟机生效。配置ssh可以实现远程登录和管理
进入etc下修改配置文件
cd /usr/local/hadoop/etc/hadoop
编辑hadoop-env.sh(修改JAVA_HOME的配置)
sudo gedit hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_45
(www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/
CSSCI核心/医学投稿辅导/职称投稿辅导。
投稿邮箱:fabiaoba365@126.com
在线咨询:
275774677、
1003180928
在线咨询:
610071587、
1003160816
联系电话:18796993035