培训啦 IT技术

Hadoop框架

教培参考

教育培训行业知识型媒体

发布时间: 2024年12月25日 22:59

2025年【IT技术】报考条件/培训费用/专业咨询 >>

IT技术报考条件是什么?IT技术培训费用是多少?IT技术专业课程都有哪些?

点击咨询

将Hadoop称作框架其实并不准确,更多人喜欢称Hadoop为生态圈,因为它除了有计算和存储功能外还提供了相当多的组件,来完成大数据方方面面的工作。

Hadoop生态圈的组件非常多,图1所示为Hadoop 1.0环境中的生态圈组成,爬虫工具、集群化存储、工作流、数据流、交互式脚本、NoSQL数据库、数据仓库、数据挖掘框架,几乎是应有尽有。

Hadoop框架

图1 Hadoop生态圈

现在在生产环境中,通常使用Hadoop 2.0环境。通常说的Hadoop只是其中最核心的框架,主要分为以下4个部分。

(1)Hadoop Common:这是Hadoop的核心功能,是对其他的Hadoop模块做支撑的,里面包含了大量的对底层文件、网络的访问,对数据类型的支持,以及对象的序列化、反序列化的操作支持等。

(2)Hadoop Distributed File System(HDFSTM):Hadoop分布式文件系统,也就是上面提到的HDFS,它用于存储大量的数据。

(3)Hadoop YARN:一个任务调度和资源管理的框架。

(4)Hadoop MapReduce:基于YARN的并行大数据处理组件。请注意Hadoop 1.0和Hadoop 2.0的区别,如图2所示。Hadoop 1.0环境的MapReduce是直接运行的,Hadoop 2.0环境的MapReduce依赖于YARN框架,在YARN框架启动后,MapReduce在需要运行的时候把任务提交给YARN框架,让YARN框架来分配资源择机运行,这是两者最大的区别。

图2 Hadoop 1.0和Hadoop 2.0

一般把Hadoop Common、HDFS、YARN、MapReduce这四部分统称为Hadoop框架,而在Hadoop生态环境中还有进行SQL化管理HDFS的Hive组件,支持OLTP业务的NoSQL分布式数据库Hbase组件,进行图形界面管理的Ambari组件等,Hadoop生态圈会增加越来越多的软件,提高软件的便利性。

985大学 211大学 全国院校对比 专升本

温馨提示:
本文【Hadoop框架】由作者教培参考提供。该文观点仅代表作者本人,培训啦系信息发布平台,仅提供信息存储空间服务,若存在侵权问题,请及时联系管理员或作者进行删除。
我们采用的作品包括内容和图片部分来源于网络用户投稿,我们不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系我站将及时删除。
内容侵权、违法和不良信息举报
Copyright @ 2024 培训啦 All Rights Reserved 版权所有. 湘ICP备2022011548号 美国留学 留求艺