跳转至

为什么 Hadoop 颇有分量

原文链接: https://www.nv5geospatialsoftware.com/Learn/Blogs/Blog-Details/why-hadoop-is-kind-of-a-big-deal

19291 为本文评分:

5.0

为什么 Hadoop 颇有分量

Hadoop 将大数据能力带入企业

Anonym 2014年6月19日,星期四

如今,似乎无论转向何方,大数据的话题都无处不在。与任何重大的颠覆性新技术一样,炒作周期所产生的喧嚣迅速掩盖了大数据先锋推向市场的工具最初的真正采用过程。或许没有什么比Hadoop的例子更能说明这一点了。在超过一半的财富50强公司和Facebook等知名社交媒体公司都已使用Hadoop的情况下,它已经产生了足够大的影响,其波及范围远远超出了以IT为中心的媒体,但即使如此,主流人群中许多人仍然对Hadoop究竟是什么缺乏清晰的理解。

Blue Gene / P 由阿贡国家实验室提供,授权基于 CCBY-SA 2.0

到现在,您的组织中很可能已有许多人听说过Hadoop。同时,他们中有很多人并不确切知道Hadoop是什么,或者为什么它如此重要,这种可能性甚至更高。从当今海量信息中提取利润的诱人之歌充满吸引力,但对许多企业来说,实现这一潜力一直是一项艰巨的挑战。甚至要用一种直接明了的方式来解释两个基本问题的答案都可能是一个挑战:Hadoop是什么?以及为什么它很重要?

最简单的回答是,Hadoop是一个用于大数据的软件框架,而大数据很重要。要进一步理解Hadoop,应该了解其存储和处理数据的基本原理。

Hadoop logo 版权所有 © 2014 Apache Software Foundation,授权基于 Apache License, Version 2.0

Hadoop存储数据文件的方式是关键。Hadoop的文件系统分布在多台计算机上。如果一个文件存储在Hadoop中,多份副本会保存在不同的节点上,这样做的好处是,即使其中任何一个节点因任何原因发生故障,文件仍然存在。此外,真正巨大的文件可以存储在Hadoop中;这些文件的大小远远超过任何单台计算机磁盘的容量。

问题的另一面涉及Hadoop如何处理这些分布式数据。它与Hadoop存储数据的方式很好地结合,因为Hadoop遵循的一个主要原则被称为“数据局部性”。传统上,企业会将数据移动到打算处理它的服务器上。虽然这看起来很合理,但实际上通过网络移动数据可能是一个非常耗时和耗费资源的过程,尤其是随着数据量的增加。任何曾经不耐烦地等待一个非常大的文件下载到自己的计算机上才能打开的人,都能体会到这一点。Hadoop秉持的原则是:在数据所在的位置进行处理,比将其移动到别处处理更好。本质上,每个存储数据的节点都是一台能够就地处理该数据的服务器。通过网络传输到节点的仅仅是处理指令本身,其体积小,不会阻塞和占用网络。

在多节点网络上分发大量数据并就地处理的能力,意味着Hadoop能够并行处理海量数据。Hadoop擅长应用那些可以在大数据集的每个组成部分上独立运行的数据处理任务,并在最后将最终结果整合为一个整体。

这可能听起来并不特别令人印象深刻,或者听起来很麻烦,甚至是不必要的过度复杂化,但这一切至关重要。Hadoop的设计旨在将数据和计算工作负载分布到商用硬件集群上,提供线性可扩展的计算能力,能够处理海量数据,并且容忍(不可避免的)硬件故障。换句话说,这正是我们未来将要处理越来越多数据的方式。

而这确实是一件大事。

IDL中的线程处理 测试数组中的无效值