数据分析师养成记 | 从“吃鸡能手”说起

供稿:北京天泽智云科技有限公司

  • 关键词:数据分析,工业智能,算法
  • 作者:侯雨帆 锁慧
  • 摘要:数据分析师的工作就是从混乱枯燥的数据里提出其商业价值.

最近,公司算法部新来了位实习生。



就是他↓↓


侯雨帆 | 天泽智云数据分析师

喜欢打球健身 | 爱好hiphop


下面开启“吃鸡能手”变身数据分析师的故事。


“上王者难 融入团队并不难”


Q:为什么会想到用“吃鸡能手、紫钻贵族、最强王者”这三个关键词做自我介绍?


哈哈哈,提到这三个关键词我就想笑。其实这三个都不是我能hold住的,想想看,单一个“最强王者”就得多难啊,其实当初更多是因为入职前听推荐人说咱们天泽智云的算法团队比较年轻化,都比我大不了多少,为了能够快速融入大家找到共同话题,选择了这三个关于游戏的关键词。


加入天泽智云之后才发现,上王者难,融入团队并不难。虽然在平时高强度的工作节奏下,每个人都显得一丝不苟,严肃认真。但通过接触,发现私底下都是很easy和nice的同事,很快就能和大家打成一片。



在每周四公司组织的运动中一块儿边打球边聊NBA;在六月初的团建活动中,和其他几个小伙伴在hiphop上也有很多共同欣赏的风格及rapper等等。



此外很巧的是我和咱们CTO刘宗长博士、及算法部的另外两位小伙伴都在密歇根大学呆过,之前参加的summer school经历也和他们迅速拉近了距离。


数据分析师—数据商业价值挖掘师


Q:大数据、AI等技术的兴起催生了一波大数据处理相关的职业,为什么选择做“数据分析师”?如何理解这个职位?


个人认为,数据分析的工作就是从混乱枯燥的数据里提出其商业价值,挖掘出它们的生产力。


我本科学的是金融数学,即将大四毕业去美国Texas A&M大学经济系读研究生,金融计量方向,综合考虑了自身专业及研究生方向,觉得“数据分析师”的岗位更加对口。除了CS里的机器学习算法,数据分析同时也需要一定的统计知识作为理论基础,另外还需要编程能力让自己的输出能够落地执行。


在校期间学习的一些课程让自己有过统计思维的相关训练,同时也用R及SPSS这些软件来执行一些简单的社会实践项目,但情景都比较单一,不像真正工作中各个项目的可操作性那么强,所以想通过这次实习加强这方面的体验。


此外,学校学到的算法和数据模型通常都是在经济金融的领域进行介绍,我也想趁这个实习机会多了解一些其他领域数据分析的工作场景,开阔自己的眼界。


Q:加入天泽智云后实际的工作内容与当初了解到的有何不同?如何快速调整进入工作状态?


不同主要有三点——自身学科和PHM领域的差异性、统计模型和机器/深度学习里的模型差异性、以及编程软件的差异性,像之前提到的R,公司更多用的是python和matlab。


在新人paper阅读的帮助和资深同事的mentor下,使我能够更快get到工业大数据的点。再加上在每周的Seminar和Quiz Project上的深入探讨,以及观看技术集训营教学视频与课件,增进团队间的彼此了解,让自己更清晰地明确工作的侧重点。


Seminar是算法部每周都有的技术研讨会,会上或探讨数据采集、数据分析建模、故障诊断等前沿技术,或结合团队成员的自身经验分享这些技术在工业领域的落地应用,在分享和讨论中共同成长。


Quiz Project则是每位新加入团队的小伙伴都要体验的一个建模实践,通过其来展示自己的技术背景,同时也为新伙伴和其他团队成员快速熟悉双方的用语和思维方式创造了契机。


Tips:天泽智云新入职工业智能专家进阶史

新人paper阅读了解基本概念-Quiz Project体验建模实例-教学视频与课件加强专业知识-了解参与项目提升专业技能-进阶


侯雨帆和部门小伙伴们


算法工具包开发始末


Q:听说不到两个月时间你就已经完成了两个算法工具包的开发,请简单介绍一下这两个算法包的功能、作用,及开发过程中遇到的趣事或挑战?


一个是关于相关性分析的算法工具包,另一个是时间序列的算法工具包。


相关性分析的大概总结了7种算法,其中有三种常用相关系数(pearson,kendall,spearman)的适用条件;二分类,多元有序/无序分类的logistic回归模型。此算法包在工业场景里功能体现在:用于判断连续和分类变量的相关性,及寻找对事件发生与否的影响变量。在初步拿到数据的时候,可以通过这些算法对一些有效变量进行筛选,达到“过滤”的作用。


时间序列的算法开发主要是用于预测和捕捉数据的规律性。在工作中一些看似没有规律可循的数据集可以尝试用一些季节性分解来刻画,其次这个时间序列包里面涉及的模型可以不需要太多历史数据就能完成预测,一定程度上来讲,可行性不差,其涉及到的模型有(ARIMA,GARCH族,ARX等)。


事实上,因为需要用到python开发,所以coding方面我都是后来慢慢摸索的。期间自然少不了同事的帮助。开发完成后我将这两个工具包的说明文档配置了使用条件分享在公司内部共享文件平台,更偏应用一些,希望可以为大家尽点绵薄之力。


开发的时候当然也是出了各种各样的bug,写了不少死循环,kernel也被“kill”了无数次……不过在同事的帮助共同努力下,最后还是攻克了难关。


在对一家客户某台冰机制冷量的研究过程中,有一台7度的冰机怎么也找不到描述函数。无论如何删除或添加变量,始终拿捏不准制冷量和环境的各项参数之间的关系,最终R方一直超不过0.3,效果可以说是相当惨了。


当时都想到要放弃了,突然有一天与技术团队沟通时提到这个问题,才知道原来现场工人一直有一个人为的开关动作在里面,我们则猜测这或许是拟合不到位的根源所在。


但收集到的起停数据没有实际的起停时刻值,只有开了多长时间。这就需要我自己重新根据现有资料把开关时间段手动计算出来,最后得到一个新的变量。经验证果真在加入这个变量后的函数瞬间拟合效果得到大大提升,R方也跃升至了0.88。


所以从某些层面来说数据分析真的是一件很磨人的事情,有些时候后面优化的功夫做再多,也比不过最开始的预处理得当后的效率来的快。


收获和感想


在天泽智云,团队之优秀和每个人在各自领域上的学问建树无疑是对我最大的震撼,以后我不论在学业也好工作也好,都会慢慢培养起职业素养,向团队前辈靠齐。


现在公司每周都有新人入职,团队越来越壮大,办公室也显得拥挤起来,每周四的篮球赛也从最初两队对打到现在几队轮流比赛。相信天泽智云未来肯定会发展的越来越好,在大家的共同努力下更早地实现公司愿景——让工业无忧!


此外,在实习期间我体验到更多的是从学生到职业人的思维、角色转变。企业之所以录用人,是因为他可以给企业创造价值、带来收益。“努力”本身并不具备价值,“能学”也不是竞争力,所以首先自己要有一技之长,日后再慢慢努力从“competitive”到“irreplaceable”。


欢迎更多数据科学家、算法科学家、测试主管、高级软件工程师(java)、项目经理、前端研发主管加入我们,和天泽智云一起,为实现工业无忧而奋斗!HR(hr@cinsightech.com)小姐姐等你来撩~


发布时间:2018年6月28日 9:41  人气:   审核编辑(王静 )
更多内容请访问(北京天泽智云科技有限公司
相关链接

我有需求