互联网大数据技术体系的层次主要包括以下四个层次:
1. 数据采集与处理层:该层主要负责从各种数据源中采集和提取数据,包括结构化数据(如数据库数据)和非结构化数据(如文本、图像、音视频数据等)。此外,还需要对采集到的数据进行预处理,包括数据清洗、归一化、去重、格式转换等。
2. 数据存储与管理层:该层主要负责存储和管理大规模的数据,包括传统的关系型数据库、分布式存储系统(如Hadoop、HBase、Cassandra等)、列式数据库、图数据库等。此外,还需要设计和实现相应的数据管理和访问接口,以便于高效地存取和使用数据。
3. 数据分析与挖掘层:该层主要负责对存储在数据存储与管理层的数据进行分析和挖掘,以提取有价值的信息和知识。常用的技术包括数据挖掘、机器学习、自然语言处理、图像处理、推荐系统等。通过分析和挖掘数据,可以揭示数据背后的规律、趋势和关联,为业务决策提供支持。
4. 数据可视化与应用层:该层主要负责将分析挖掘得到的数据结果以可视化的方式展示给用户,并开发相应的数据应用。通过数据可视化,可以更直观地呈现数据的统计结果和分析结论,帮助用户更好地理解和利用数据。此外,还可以基于数据分析结果开发各种数据应用,如智能推荐、个性化服务、智能决策等。
大数据领域每年都会涌现出大量新的技术,大数据技术可以挖掘出大规模数据中隐藏的信息和知识,为人类社会经济活动提供依据,提高各领域的运行效率,甚至提高整个社会经济的集约化程度。那么大数据计算包含哪些结构层次
(1)统一数据基础层
我们通过各种方式采集到的丰富数据,在清洗、结构化后进入统一的ODS数据基础层。
其主要功能包括:
-同步:结构化数据增量或全量同步到数据中台
-结构化:非结构化(日志)结构化处理并存储到数据中台
累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗
在权责方面,所有数据应该在源头统一,统一所有的数据基础层,并由一个团队负责和管控,其他团队无权复制数据基础层的数据。
(2)数据中间层
我们进行数据建模研发,并处理不因业务特别是组织架构变动而轻易转移的数据中间层。包括DWD明细数据中间层和DWS汇总数据中间层。
其主要功能包括:
-组合相关和相似数据:采用明细宽表,复用关联计算,减少数据扫描。
-公共指标统一加工:基于OneData体系构建命名规范、口径一致和算法统一的统计指标,为上层数据产-品、应用和服务提供公共指标;建立逻辑汇总宽表;
-建立一致性维度:建立一致数据分析维度表,降低数据计算口径、算法不统一的风险。
在权责方面,面向业务提供服务之前,由统一的团队负责从业务中抽象出源于业务而又不同于业务的数据域,再主导统一建设数据中间层,包括侧重明细数据预JOIN等处理的明细中间层、侧重面向应用可复用维度和指标的汇总数据中间层。特别是要由团队负责将核心业务数据统一加入数据中间层。允许部分业务数据有独立的数据团队按照统一的OneModel体系方法论建设数据体系,ODS数据基础层和DWD+DWS数据中间层因其统一性和可复用性,被称为数据公共层。
(3)数据应用层
在面向应用提供服务时,业务团队或深入业务线的数据团队有极大的自由度,只要依赖数据公共层,即可自由的建设ADS数据应用层。
其主要功能包括:
-个性化指标加工:不公用性;复杂性(指数型、比值型、排名型指标)
-基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串
大数据技术包含哪些结构层次.中琛魔方大数据平台(www.zcmorefun.com)表示不同功能的模块组合成一个具有实际应用价值的大数据分析平台,实现对各种业务的前瞻性预测和分析,为用户提供统一的决策分析支持,从而更好地突出平台本身的价值。