教培参考
教育培训行业知识型媒体
发布时间: 2024年11月23日 11:28
hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。
Hadoop的优点:
1.高可靠性,Hadoop按位存储和处理数据的能力值得人们信赖。
2.高扩展性,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3.高效性,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4,高容错性,Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5,低成本,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop的模块组成:
1.Hadoop 分布式文件系统 (HDFS)—一个在标准或低端硬件上运行的分布式文件系统。
2.Yet Another Resource Negotiator (YARN)—管理与监控集群节点和资源使用情况。
3.MapReduce—一个帮助计划对数据运行并行计算的框架。该 Map 任务会提取输入数据,转换成能采用键值对形式对其进行计算的数据集。
4.Hadoop Common—提供可在所有模块上使用的常见 Java 库。
Hadoop能干什么?
1.大数据存储:分布式存储
2.日志处理:擅长日志分析
3.ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
4.机器学习: 比如Apache Mahout项目
5.搜索引擎:Hadoop + lucene实现
6.数据挖掘:目前比较流行的广告推荐,个性化广告推荐
Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。