大数据的承诺
原文链接: https://www.nv5geospatialsoftware.com/Learn/Blogs/Blog-Details/the-promise-of-big-data
19228 为本文评分:
5.0
大数据的承诺
巨大挑战意味着巨大机遇
匿名 2014年3月13日,星期四
大数据的激动人心之处,在于它的“大”。同时,这也正是大数据带来的核心挑战。根据定义,大数据过于庞大、流速过高、过于复杂且非结构化,无法在可接受的时间内使用传统的数据管理和数据处理技术进行处理。要从这些数据中提取价值,我们必须采用新颖、替代性的处理方式。正是在这种必须遵循——或创造——新方法的挑战中,真正的机遇得以显现。
关于大数据的讨论常常提到大数据的“三个V”模型,即在容量、速度和多样性一个或多个方面达到了极致。容量巨大意味着数据集的规模超出了传统数据库基础设施和软件工具捕获、管理和处理的能力。容量问题通常对传统IT实践构成最直接的挑战,需要动态可扩展的存储架构以及分布式查询和分析能力。
全球信息存储容量增长与数字化" 作者 Myworkforwiki,采用 CC BY-SA 3.0 许可协议。
数据速度——数据流入和流出组织的速率——正与其对应的数据容量一同沿着指数级增长的曲线发展。两者背后的驱动力显然是我们日益仪器化和充满传感器的世界。在线系统和嵌入式系统能够捕获和编译每个交易及数据收集点的大量日志和历史记录,其规模远远超出了当前有效处理它们的能力。智能手机和移动设备的现代普及已经创造了一个未来主义的现实,即每个人都有能力成为流式图像、音频和地理空间数据的自主来源。
在考虑数据速度时,不仅仅是数据被接收的速率至关重要。可能更重要的是,经过计算或派生的数据产品能够以多快的速度返回,使数据从输入到反馈循环中的决策过程。某些数据的价值与其时效性内在关联,每过一刻其价值都会迅速衰减。为了利用此类数据,解决方案可能需要能够近乎实时地返回结果。这类需求一直是NoSQL数据库日益广泛采用的关键推动力。
数据多样性的概念反映了大数据系统处理多样化、非结构化源数据的趋势。与基于高度结构化数据关系的传统架构不同,大数据处理旨在从高度不同、异构且多样的数据流中提取秩序和意义。来自社交网络的文本信息流、影像数据、原始信号信息和电子邮件,只是大数据应用获取信息的来源中的几个例子。
本质上,大数据利用统计推断和非线性系统辨识方法,从大型数据集中推断关系、影响和依赖性,并对结果和行为进行归纳预测。我们可以预见,大数据处理将继续进一步融入IT主流,并从商用硬件、云架构和开源软件的经济性和效率中获益。在此过程中,无疑将有无数的挑战需要克服,也无疑将有很多具有回报潜力的机遇。
