本文共 1535 字,大约阅读时间需要 5 分钟。
伪分布式安装Hadoop
今天,我尝试了伪分布式安装Hadoop,过程虽然有些波折,但最终还是完成了。以下是我记录的安装过程和思考。
第一步是上传并解压Hadoop的安装包。通过命令tar -zxvf hadoop-2.7.3.tar.gz -C /opt/modules/,我将解压包放在了指定的目录下。解压完成后,我进入了下一步。
接下来,我需要了解Hadoop的目录结构,并删除一些无用的文件。通过浏览文件目录,我发现了一些不必要的文件,于是我决定将它们删除,以优化存储空间。
然后是配置Hadoop的环境变量。根据文档,我在hadoop-env.sh、yarn-env.sh和mapred-env.sh中设置了JAVA_HOME为/opt/modules/jdk1.8.0_91。这些环境变量的设置对后续的Hadoop运行至关重要。
在配置Hadoop时,我按照模块进行了设置。首先是HDFS模块,我在core-site.xml中指定了fs.defaultFS为hdfs://bigdata-training01.huadian.com:8020,并将临时存储目录设置为/opt/modules/hadoop-2.7.3/etc/hadoop/data/tempData。接着,在hdfs-site.xml中,我将dfs.replication设置为1,因为这是一个伪分布式环境,副本数量不需要过多考虑。
接下来是YARN模块的配置。在yarn-site.xml中,我设置了yarn.resourcemanager.hostname为bigdata-training01.huadian.com,并指定了yarn.nodemanager.aux-services为mapreduce_shuffle,以便支持MapReduce程序的运行。
安装完成后,我需要测试HDFS和YARN的运行状态。通过查看进程管理器jps,我确认了Hadoop的各个组件是否正常运行。此外,我还通过访问HDFS的Web界面(如bigdata-training01.huadian.com:50070)确认了HDFS的状态是否正常。
为了验证HDFS的功能,我执行了几个基本命令:创建目录、上传文件、查看文件和删除文件。这些操作都完成得很顺利,证明了HDFS的正常性。
在YARN方面,我测试了MapReduce程序的运行。通过运行bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /datas/input.data /datas/output/output001,我验证了MapReduce程序的正确性。结果显示,程序能够成功运行并将输出写入指定目录。
最后,我对Hadoop的日志聚集功能进行了配置。在yarn-site.xml中,我添加了以下配置:
yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 604800
通过这些配置,YARN将自动聚集任务日志到HDFS指定目录下,以便后续的监控和分析。
整个安装过程让我对Hadoop的伪分布式部署有了更深入的理解。虽然中途遇到了一些问题,但通过仔细查看日志和调整配置,最终问题得到了解决。安装过程中,我也学会了如何通过命令行工具进行故障排除,这对我以后进行更复杂的系统操作将非常有帮助。
转载地址:http://cvig.baihongyu.com/