大数据世界吧 关注:17,373贴子:130,881
  • 18回复贴,共1

想从事大数据、海量数据处理相关的工作,如何自学打基础?

只看楼主收藏回复

想做数据处理尤其是大数据量处理的相关工作必须兼具计算机科学基础和统计基础。
现在有一个高大上的职业叫数据科学家,有人说数据科学家就是一个比程序员更懂统计的统计学家,一个比统计学家更会编程的程序员。觉得说得很形象。


1楼2018-04-11 14:16回复
    有很多知识还需要作为基础来学习和巩固。 是学习和巩固,不是必须会,是要知道了解,用的时候知道去哪里翻书找资料
    比如:线性代数,概率论、数理统计等


    2楼2018-04-11 14:19
    收起回复
      2026-03-10 20:13:19
      广告
      不感兴趣
      开通SVIP免广告
      计算机:
      数学软件:强大矩阵运算和优化功能的matlab,专而精的mathematica。
      语言:python(很流行的科学语言,潜力也很大,ipython这样交互式环境十分有利),fortran(强大的计算语言,充分优化的现成代码),R(相比于matlab,java,c,R是个高富帅)
      可视化


      3楼2018-04-11 14:20
      回复

        这是数据分析各类语言使用度的图表,R占的比例还是相当高啊。想利用现在动辄TB级的数据大显身手,光靠excel可不够啊。你真的需要写很多代码…
        统计:时间序列分析
        应用回归(很简单,亦很实用)
        多元统计分析


        4楼2018-04-11 14:24
        回复
          一切还是要去动手实践的
          1. 自己装个小集群跑hadoop/hive,可以到cloudera网站上下现成的打包虚拟机。看看hadoop in action. 这本书比权威指南容易懂很多。
          2. 装个cassandra什么的玩玩,在上面架个小项目,比如留言板什么的。。
          3. 读一些著名的paper,nosql的或者mapreduce。
          4. 看看apache hadoop家族的其他几个项目,比如zookeeper,pig,了解一下生态圈
          到这里为止你大概有个概念,知道bigdata怎么回事了
          找个开源项目,看看ticket list,看看能不能自己修。。
          能的话看看能不能混进项目组


          5楼2018-04-11 14:26
          回复
            个人觉得,大数据要靠实践多一点
            在真的上百上千节点的cluster上跑hadoop和自己虚拟机架的完全不同。cluster上跑各种奇葩的事情单机都是碰不到的。
            就好比dba靠读书考证很难牛*一样。所以最终还是要找个公司实战。
            不过如果上面几个都做到的话,基本上应聘大数据公司问题不大了。


            6楼2018-04-11 14:27
            收起回复
              有很多知识和课程还需要作为基础来学习和巩固。 是学习和巩固,不是必须会,是要知道了解,用的时候知道去哪里翻书找资料
              基础中的基础:线性代数,概率论
              核心知识:数理统计、预测模型、机器学习


              7楼2018-04-12 14:57
              回复
                有很多知识和课程还需要作为基础来学习和巩固。 是学习和巩固,不是必须会,是要知道了解,用的时候知道去哪里翻书找资料
                基础中的基础:线性代数,概率论
                核心知识:数理统计、预测模型、机器学习


                8楼2018-04-12 14:57
                回复
                  2026-03-10 20:07:19
                  广告
                  不感兴趣
                  开通SVIP免广告
                  转行的问题可以问我


                  9楼2018-04-19 09:48
                  收起回复
                    大数据的学习还是系统性的学习比较好,里面涉及到的组件还是比较多的。
                    当初我是JAVA开发,自学转的大数据,现在想想那段时间也是挺艰辛的,不过只要坚持下来,终会有收获。
                    现在我们公司正处于发展阶段,自己有机会接触新的东西,我前段时间刚报了一个人工智能的班。
                    不停的奋斗下去吧!!!


                    IP属地:北京10楼2018-04-27 11:20
                    收起回复
                      学习大数据首先要了解大数据的学习路线,首先搞清楚先学什么,再学什么,
                      大的学习框架知道了,剩下的就是一步一个脚印踏踏实实从最基础的开始学起。
                      首先需要学习Java,Java编程技术是大数据学习的基础,是大数据工程师最喜欢的编程工具,想学好大数据,掌握Java基础是必不可少的。


                      12楼2019-04-24 10:51
                      回复