"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
大数据里面的数据,分三种类型:
(1)结构化的数据:即有固定格式和有限长度的数据。
(2)非结构化的数据:现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页、语音,视频等。
(3)半结构化数据:是一些XML或者HTML的格式的数据。
大数据是一个抽象的概念,对当前无论是企业还是政府、高校等单位面临的数据无法存储、无法计算的状态。大数据,在于海量,单机无法快速处理,需要通过垂直扩展,即大内存高效能,水平扩展,即大磁盘大集群等来进行处理。