你知道“大数据技术”的生命周期吗?
近年来,每年都有大面积的数据,大量的新技术,以及大规模数据隐藏的信息和知识的出现可加以利用,以提供对人类社会的社会生活的基础。为了提高各个领域的运营效率,甚至整个社会经济的集约化,大数据的出现提高了各行各业的效率。大数据的核心技术究竟有哪些呢?
典型的大数据技术堆栈。底层基础架构,基础架构覆盖的计算资源。内存与存储和网络信息互联,具体表现为通过计算时间节点、在此基础之上是数据的存储和管理。包括文件信息系统,数据库和类似YARN的资源管理系统,然后,计算处理层,如had、MapReduce和Spark,并且在此之上的不同。例如进行处理,流处理和图计算等,包括对于那些编程语言模型。如BSP,GAS,等,数据分析和可视化基于计算处理层。分析包括简单的分析,流动分析,和更复杂的,大多数的表格结构分析的功能和关系的基础上,数据流分析的分析。
事件流以及一些简单的统计结果分析,而复杂问题分析则基于更复杂的数据进行结构与方法,矩阵、迭代算法计算和线性代数。可视化是非常重要的是显示分析结果一般,但通过交互式可视化,也更深层的问题。以获得新的线索,形成反复的分析和可视化,基于大规模数据的实时交互可视化技术能力分析问题以及在这个社会发展建设过程中我们可以通过引入自动化的因素是目前我国主要影响研究的热点。这两个不同区域进行垂直连接上述层,需要一个整体和协同地对待,首先变成和管理研究工具。
大数据采集与预处理在大数据生命周期中,数据采集处于第一环节。根据MapReduce生成的应用系统分类,大数据采集主要有四个来源。管理信息系统,网络信息系统,物理信息系统,科学实验系统。对于企业不同的数据集,可以有不同的结构。如文件、XML、关系表等,并在用于多个异构数据集,需要进一步整合处理的,从不同的数据集的数据的易购。整理、清洗、转换后,生成到一个新的数据集,为后续进行查询和分析研究问题以及处理企业提供信息统一的可视图。针对管理信息系统中异构数据库集成技术,Web信息系统中的实体识别技术和DeepWeb集成技术。传感器网络信息数据融合发展技术已经有很多问题研究主要工作,取得了较大的进展,已经推出了多种数据清洗和质量管理控制工具。例如,美国SAS公司的DataFlux,美国IBM公司的DataStag,、美国Informatica公司的InformaticaPowerCenter。
以上就是关于“大数据技术”的生命周期的问题。
转载请注明:http://www.0431gb208.com/sjslczl/3220.html