大数据学习的三个“敲门砖”

快资讯
首席数据师
什么是大数据?可能有人会说写字楼的所有人的资料信息就是个大数据。NO!这里的数据只能说比较大,但却不能称之为大数据。百度百科上给出了很明确的解释“大数据(big data),指无法在一定时间范围内用常规软...

什么是大数据?可能有人会说写字楼的所有人的资料信息就是个大数据。NO!这里的数据只能说比较大,但却不能称之为大数据。百度百科上给出了很明确的解释“大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

“第一砖”从相认到相识

现在我们“从相认到相识”,清楚的认识什么是大数据,如果区分大数据和数据大,是我们学习大数据走的第一步。

“第二砖”拜师学艺,融汇百家

拥有了“第一砖”后就是你即将选择师门的时候了,敲开山门的“第二砖”则是学习大数据的基础,就如同在门派中修炼内功,有助你行走江湖,话不多说我们来看看会涉及到哪些基础吧!

1、 javaSE,EE(SSM)

2、 MySQL(必须需要掌握的)

3、Linux

“第三砖”进阶提高,力挽狂澜

学习了大数据基础后,我们要做到就是在实际的数据分析上,如何去解决问题,所以如何分析数据就是我们的重点了,在数据中分析出有利于我们的数据则是我们的目标,我总结了以下几种方法,供大家参考,但方法是死的,人是活的,如何融会贯通就靠我们自己不断是尝试学习哦!

1、大数据离线分析

一般处理T+1数据(T是指日、周、月、年),处理历史数据

模块1:Hadoop

包括四大块(common、yarn、MapReduce、HDFS)

主要掌握环境搭建、处理数据的思想

模块2:Hive

大数据数据仓库

通过写SQL对数据进行操作,类似于mysql数据库中的sql

模块3:HBase

基于HDFS的NOSQL数据库 面向列的存储

2、大数据机器学习

spark MLlib:机器学习库

pyspark编程:Python和spark的结合

推荐系统

python数据分析

Python机器学习

THEEND