官网北大青鸟天府校区
北大青鸟校区,北大青鸟校区
当前位置:主页 > 北大青鸟新闻 > 正文

如何成功转型大数据

                                时间:2017-09-24 16:41                             作者:北大青鸟佳音校区                             来源:北大青鸟佳音校区

  Ofer Mendelevitch近日在Hortonworks官方博客发表了自己关于人们转型数据科学家的观点。以下是Mendelevitch对不同人群给出的具体建议:

统计学家与应用科学家

  如果你有统计学或者机器学习的背景,那么你很可能很多年前就开始使用诸如R, Matlab或SAS进行回归分析、聚类分析等机器学习相关任务。

  R、Matlab和SAS是很强大的统计分析和可视化工具,对于很多机器学习算法都有很成熟的实现方法。

如何成功转型大数据

 

  但是,这些工具通常被用于做数据勘探和模型开发,很少单独用来开发产品级的数据产品。在开发端到端的数据产品时,大多数情况下,你需要需要同时用到其他软件模块如Java、Python等,并与Hadoop等数据平台整合。

  显然,熟悉一门或者多门现代编程语言,例如Python或Java是你的首要任务。此外,与有经验的数据工程师紧密合作将有助于更好地理解他们开发生产级数据产品所用到的工具和方法。

业务分析师

  如果你的背景是SQL,那么说明你已经跟数据打交道很多年了,你很清楚如何通过数据获取业务分析结果。Hive能让你以你熟悉的SQL语言访问Hadoop上的大数据集,因此是你步入大数据殿堂的首选。

  数据产品通常需要使用SQL无法胜任的高级机器学习和统计,因此对于业务分析师来说,进入数据科学领域的第二个重要步骤就是在理论层面深入了解此类算法(例如推荐引擎、决策树、NLP),并熟悉目前的实现工具如Mahout, WEKA,或Python的Scikit-learn。

Hadoop开发者

  作为Hadoop开发者,你一定已经了解了大数据集和集群计算的复杂性。你还可能熟悉Pig、Hive、HBase并有丰富的Java经验。

  首先,你需要深入了解机器学习和统计,以及这些算法面向大数据集的高效实现方法。Mahout是个不错的开始,可以在Hadoop上实现上述很多算法。

  另外一个需要关注的领域是数据清理(data cleanup),很多算法在建模前都会为数据分配基本结构。但不幸的是,现实中数据大多很“脏”,清理这些数据是数据科学中一项很繁重的工作。Hadoop通常是建模前大规模数据清理和预处理的工具选择。

  通向数据科学殿堂之路不一定历尽沧桑,你必须学习不少新规则、编程语言,更必要的是还要积累实战经验。这些都需要岁月、精神与投入,但最终你会发现全数都物超所值。

更多帮助请咨询专业指导老师

【立即咨询】

联系方式

咨询热线:028-86026994
在线报名

热点资讯



    专注、专业

    专注计算机教育22年

    好专业、好未来

    热门专业,轻松就业

    理实一体化教学

    全程实践教学,好学易懂

    技能+学历

    学高端技能,拿大专学历

地址:成都市青羊区东华正街四川广电国际大厦22楼        站点地图|XML地图

Copyright © 2003-2022 成都众软科技有限公司 All Rights Reserved. 业务电话:13458509837   蜀ICP备16031316号-5  京公网安备11010202009192号