当前位置：首页>开发>正文

如何在vmware中搭建hadoop集群如何将hadoop程序在集群中运行

2023-05-09 16:35:15 互联网未知开发

如何在vmware中搭建hadoop集群

原创文档，转载请保留原文url地址
hadoop俗称分布式计算，最早作为一个开源项目，最初只是来源于谷歌的两份白皮书。然而正如十年前的Linux一样，虽然Hadoop最初十分简单，但随着近些年来大数据的兴起，其也获得了一个充分体现价值的舞台。这也正是业内普遍将Hadoop看做是下一个Linux的原因。
本文介绍基于多台vmware虚拟机来安装hadoop集群的过程及方法，通过这个小的集群让您在本地电脑上就可以研究hadoop的相关工作过程，有人会有疑问在小的虚拟机集群上研究的结果，写的程序能否在大集群上工作正常？可以肯定的没问题的。
Hadoop的一个特性是线性增长特性，即当前数量情况下，处理时间是1，若是数据量加倍，后处理时间加倍，若是在这种情况下，处理能力也加倍则处理时间也是1.
正常情况hadoop需要较多的服务器才能搭建，但是我们在家里学习如何去找那么服务器，解决办法可以找几台pc机，在pc机上安装linux系统就可以了。
当然我们还有更简单的办法，就是找一台高性能的电脑，在电脑上安装虚拟机软件，里面创建若干台虚拟机，然后让这些虚拟机构成一个小的内部局域网络，在这个网络上我们安装linux软件， java软件，安装hadoop程序，我们就可以创建一个简单hadoop的研究系统，进行软件的开发调试，在这个小的分布式集群上开发的程序可以无缝移植到相同版本的hadoop（不同hadoop的版本兼容性不是很好，特别是低版本同高版本，他们的api也有些许变化）集群中。

如何将hadoop程序在集群中运行

要在Hadoop集群运行上运行JNI程序，首先要在单机上调试程序直到可以正确运行JNI程序，之后移植到Hadoop集群就是水到渠成的事情。 Hadoop运行程序的方式是通过jar包，所以我们需要将所有的class文件打包成jar包。在打包的过程中，无需将动态链接...

如何使用docker制作hadoop集群的镜像

1：首先要有一个Centos7操作系统，可以在虚拟机中安装。
2：在centos7中安装docker，docker的版本为1.8.2
安装步骤如下：
<1>安装制定版本的dockeryum install -y docker-1.8.2-10.el7.centos
<2>安装的时候可能会报错，需要删除这个依赖！

搭建hadoop集群用什么操作系统

Docker最核心的特性之一，就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点Hadoop集群的详细步骤。作者在发现目前的HadooponDocker项目所存在的问题之后，开发了接近最小化的Hadoop镜像，并且支持快速搭建任意节点数的Hadoop集群。GitHub:kiwanlau/hadoop-cluster-docker直接用机器搭建Hadoop集群是一个相当痛苦的过程，尤其对初学者来说。他们还没开始跑wordcount，可能就被这个问题折腾的体无完肤了。而且也不是每个人都有好几台机器对吧。你可以尝试用多个虚拟机搭建，前提是你有个性能杠杠的机器。我的目标是将Hadoop集群运行在Docker容器中，使Hadoop开发者能够快速便捷地在本机搭建多节点的Hadoop集群。其实这个想法已经有了不少实现，但是都不是很理想，他们或者镜像太大，或者使用太慢，或者使用了第三方工具使得使用起来过于复杂。下表为一些已知的HadooponDocker项目以及其存在的问题。更快更方便地改变Hadoop集群节点数目另外，alvinhenrick/hadoop-mutinode项目增加节点时需要手动修改Hadoop配置文件然后重新构建hadoop-nn-dn镜像,然后修改容器启动脚本，才能实现增加节点的功能。而我通过shell脚本实现自动话，不到1分钟可以重新构建hadoop-master镜像，然后立即运行!本项目默认启动3个节点的Hadoop集群，支持任意节点数的Hadoop集群。另外，启动Hadoop，运行wordcount以及重新构建镜像都采用了shell脚本实现自动化。这样使得整个项目的使用以及开发都变得非常方便快捷。开发测试环境操作系统：ubuntu14.04和ubuntu12.04内核版本:3.13.0-32-genericDocker版本：1.5.0和1.6.2小伙伴们，硬盘不够，内存不够，尤其是内核版本过低会导致运行失败。

如何通过脚本监控hadoop集群的状态

使用脚本提交 1.使用spark脚本提交到yarn，首先需要将spark所在的主机和hadoop集群之间hosts相互配置（也就是把spark主机的ip和主机名配置到hadoop所有节点的/etc/hosts里面，再把集群所有节点的ip和主机名配置到spark所在主机的/etc/hosts里面）。 2.然后需要把hadoop目录etc/hadoop下面的*-sit.xml复制到${SPARK_HOME}的conf下面. 3.确保hadoop集群配置了 HADOOP_CONF_DIR or YARN_CONF_DIR 1.yarn-standalone方式提交到yarn 在${SPARK_HOME}下面执行： SPARK_JAR=./assembly/target/scala-2.10.4/spark-assembly-0.9.0-incubating-hadoop2.2.0.jar ./bin/spark-class org.apache.spark.deploy.yarn.Client --jar ./examples/target/scala-2.10/spark-examples_2.10-assembly-0.9.0-incubating.jar --class org.apache.spark.examples.SparkPi --args yarn-standalone --num-workers 3 --master-memory 2g --worker-memory 2g --worker-cores 1 复制代码 2. yarn-client 方式提交到yarn 在${SPARK_HOME}下面执行： SPARK_JAR=./assembly/target/scala...

如何在vmware中搭建hadoop集群如何将hadoop程序在集群中运行

如何在vmware中搭建hadoop集群

如何将hadoop程序在集群中运行

如何使用docker制作hadoop集群的镜像

搭建hadoop集群用什么操作系统

如何通过脚本监控hadoop集群的状态

最新文章

随便看看

如何在vmware中搭建hadoop集群 如何将hadoop程序在集群中运行

如何在vmware中搭建hadoop集群

如何将hadoop程序在集群中运行

如何使用docker制作hadoop集群的镜像

搭建hadoop集群用什么操作系统

如何通过脚本监控hadoop集群的状态

最新文章

随便看看

如何在vmware中搭建hadoop集群如何将hadoop程序在集群中运行