1.
大数据处理的第一个步骤就是数据抽取与集成。 这是因为大数据处理的数据来源类型丰富,大数据处理的第一步是对数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储。现有的数据抽取和集成方法有三种,分别是基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎。这些引擎都是很重要的。
2.
大数据处理的第二个步骤就是数据分析。 数据分析师大数据处理流程的核心步骤,通过数据抽取和集成环节,我们已经从异构的数据源中获得了用于大数据处理的原始数据,用户可以根据自己的需求对这些数据进行分析处理,比如数据挖掘、机器学习、数据统计等,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。通过数据分析我们能够掌握数据中的信息。
3.
大数据处理的第三个步骤就是数据解释。