大数据很火，初学者应怎样学习？

很多人都知道大数据很火，就业很好，薪资很高，想往大数据方向发展。但该学哪些技术，学习路线是什么样的，这些都是因人而异的，但是大数据有三个发展方向：
1、平台搭建/优化/运维/监控
2、大数据开发/设计/架构
3、数据分析/挖掘。
请不要问我哪个容易，哪个前景好，哪个钱多，先进入业再说。
先说一下大数据的4V特征：
　　1、数据量大，TB->PB
　　2、数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等;
　　3、商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来;
　　4、处理时效性高，海量数据的处理需求不再局限在离线计算当中。

现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，再列举一些常见的：
　　文件存储：hadoop HDFS、Tachyon、KFS
　　离线计算：Hadoop MapReduce、Spark
　　流式、实时计算：Storm、Spark Streaming、S4、Heron
　　K-V、NOSQL数据库：HBase、Redis、MongoDB
　　资源管理：YARN、Mesos
　　日志收集：Flume、Scribe、Logstash、Kibana
　　消息系统：Kafka、StormMQ、ZeroMQ、RabbitMQ
　　查询分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
　　分布式协调服务：Zookeeper
　　集群管理与监控：Ambari、Ganglia、Nagios、Cloudera Manager
　　数据挖掘、机器学习：Mahout、Spark MLLib
　　数据同步：Sqoop
　　任务调度：Oozie
　　……

不感兴趣

开通SVIP免广告

1、初识Hadoop
1.1 学会百度与Google
　　不论遇到什么问题，先试试搜索并自己解决。
　　Google首选，翻不过去的，就用百度吧。
1.2 参考资料首选官方文档
　　特别是对于入门来说，官方文档永远是首选文档。
　　相信搞这块的大多是文化人，英文凑合就行，实在看不下去的，请参考第一步。
1.3 先让Hadoop跑起来
　　Hadoop可以算是大数据存储和计算的开山鼻祖，现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。
　　关于Hadoop,你至少需要搞清楚以下是什么：
　　Hadoop 1.0、Hadoop 2.0
　　MapReduce、HDFS
　　NameNode、DataNode
　　JobTracker、TaskTracker
　　Yarn、ResourceManager、NodeManager
　　自己搭建Hadoop，请使用第一步和第二步，能让它跑起来就行。
　　建议先使用安装包命令行安装，不要使用管理工具安装。
　　另外：Hadoop1.0知道它就行了，现在都用Hadoop 2.0.

1.4 试试使用Hadoop
　　HDFS目录操作命令;
　　上传、下载文件命令;
　　提交运行MapReduce示例程序;
　　打开Hadoop WEB界面，查看Job运行状态，查看Job运行日志。
　　知道Hadoop的系统日志在哪里。

有想要了解大数据课程的吗？

1.5 你该了解它们的原理了
　　MapReduce：如何分而治之;
　　HDFS：数据到底在哪里，什么是副本;
　　Yarn到底是什么，它能干什么;
　　NameNode到底在干些什么;
　　ResourceManager到底在干些什么;
　1.6 自己写一个MapReduce程序
　　请仿照WordCount例子，自己写一个(照抄也行)WordCount程序，
　　打包并提交到Hadoop运行。
　　你不会Java?Shell、Python都可以，有个东西叫Hadoop Streaming。
　　如果你认真完成了以上几步，恭喜你，你的一只脚已经进来了。

第二章：更高效的WordCount
　　2.1 学点SQL吧
　　你知道数据库吗?你会写SQL吗?
　　如果不会，请学点SQL吧。
　　2.2 SQL版WordCount
　　在1.6中，你写(或者抄)的WordCount一共有几行代码?
　　给你看看我的:
　　SELECT word,COUNT(1) FROM wordcount GROUP BY word;
　　这便是SQL的魅力，编程需要几十行，甚至上百行代码，我这一句就搞定;使用SQL处理分析Hadoop上的数据，方便、高效、易上手、更是趋势。不论是离线计算还是实时计算，越来越多的大数据处理框架都在积极提供SQL接口。

2.3 SQL On Hadoop之Hive
什么是Hive?官方给的解释是：
为什么说Hive是数据仓库工具，而不是数据库工具呢?有的朋友可能不知道数据仓库，数据仓库是逻辑上的概念，底层使用的是数据库。
数据仓库中的数据有这两个特点：最全的历史数据(海量)、相对稳定的;所谓相对稳定，指的是数据仓库不同于业务系统数据库，数据经常会被更新，数据一旦进入数据仓库，很少会被更新和删除，只会被大量查询。而Hive，也是具备这两个特点，因此，Hive适合做海量数据的数据仓库工具，而不是数据库工具。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

9回复贴，共1页

<<返回大数据的那...吧

分享到:

日	一	二	三	四	五	六