本文共 2407 字,大约阅读时间需要 8 分钟。
一直以来都有两个观点:1,当你不能够用生活中的例子来讲明白你所懂技术的时候,也许就是你自身对该技术理解深度不到位。2,牛人分两种,一种是把自己所会的技术讲的所有人都能听明白,而另一种就是讲的只有一小部分高手能听懂........
最近开始泡知乎论坛,买了一些Live开始学习。才发现自己对数据挖掘行业的认知浅薄,才知道自己该努力的方向。于是就有了今天的这篇文章:
大数据是什么?它跟柴米油盐有什么样的关系?大数据跟数据科学家,数据挖掘,算法工程师又有什么关系?
1,大数据是什么?
实际上,最近一年。嚷嚷大数据的人很多,而这个词的热度也丝毫不减。而个人认为,大数据重要的是思维,是商业模式,而不是技术!大数据的这一思维能带给我们什么?不再是传统的拍脑袋做决定,而是依靠我们所拥有的数据跟行业经验,在这方面,行业经验非常重要。这也就是为什么互联网公司要想在传统行业做大数据分析必须要找到一个在这个行业经验很多的人的原因。 记得一次中午吃饭,跟同事们就聊起了什么是大数据,什么是云计算的话题。实际很简单,我们吃饭的餐盘就是云,而我们食物就是大数据。而同事不是不知道云,他是不智道云跟我们有什么关系?它能带给我们什么?能给现在的工作提供哪些便利? 云只是一个平台,重要的还是它的内容。我们用完餐,就会把餐盘放到收餐台上。而食物是我们所要吸收的,餐盘里不同的小格子可以放不同的食物,这些食物有些是大块,有些是小块,这些就相当于数据前期 的整理。专业点的说法就是数据清理,或者叫ETL。
2,它跟柴米油盐有什么样的关系呢?
要做好一道菜,或是做出一顿美食。缺少不了柴米油盐,就相当于有了数据,我们不仅要有烹饪的工具,而且还要有烹饪的技术。最近在看舌尖系列,就觉得中国人烹饪美食的技术不亚于现在IT的相关技术。只不过是我们都忽略了老祖宗的一些东西罢了........ 当我们把食材准备好的时候,我们就需要开始烹饪了。这里就拿我的拿手菜(茄子烧肉)来举例子吧:茄子有很多的切法,可以切条,也可以切丁(就是那种小块)。而肉也是可以切成丝,也可以切成丁,同时也可以切成肉沫(这就是借助搅拌机了)。这些数据原始加工的过程,很大程度上决定了你最终分析出来的结果。有人的喜欢吃茄丁,有的人喜欢吃肉沫,有的人喜欢大块的肉............而不同人的喜好决定了你的分析目标是什么?这也就是为什么数据挖掘里分析目标的关键性。 当你有了分析目标之后,后边的油,盐,调料的多少就有了判断。而油是所有抄菜基上必须的一道步骤,这一步就相当于数据分析里的去缺失值,数据统计这一步。大体统计出数据的一个整体质量,有多少缺失值?中位数与平均数是否相等?是否符合正态分析?数据是呈现离散的,还是连续的?基本上都是在热锅的这一部分所要思考的。油热的好,葱姜蒜的香味就能出来,热不好,葱姜蒜有可能就糊锅了。后边抄菜的香味就出不来了。
3,大数据跟数据科学家,数据挖掘,算法工程师又有什么关系?
数据科学家:厨师长
数据科学家这个概念,最早听到是在IBM的一次沙龙活动中听到的。当时我们小团队也稀里糊涂拿到了优胜奖,以为我们就可以是数据科学家了。现在想想,真的是too young,too native。科学家那有那么简单的事。而大数据就是一个跟柴米油盐的工种,离科学家还有很远的距离! 当掌握了大数据思维之后,你也要跟实际的业务相关连。相当于你知道如何抄这个菜之后,食材的选择,新鲜程度如何这一方面你也需要掌握。同时你也要了解到当下这个菜的大体定价...........等等一系列的东西,有数据有关的,与数据无关的。你都要掌握你可以成为一个合格的数据科学家。否则,还是不要拿这个title出去忽悠人。
数据挖掘:创作厨师
至于数据挖掘,就你要你自创一个菜。刚开始学抄菜的时候,我们都是按照食谱一个一个的学着抄的。而到后期,当家人特别爱吃某两个菜的时候,你就要学会来调和这种菜的做法。比如,在做好鲫鱼豆腐汤的时候,是否要把冬瓜跟粉丝也放在一起。而当这样尝试之后,有的会成为一道更加美味的菜肴。而有的就不那以好吃了。 从以上的角度来看,数据挖掘==自创菜,而数据分析==照菜谱抄菜。这样我们就能看出这两者的差别了。一个是有分析目标,一个是没有分析目标。数据挖掘有可能会为公司创造更大业绩,也有可能失败。就是因为你不知道你挖掘出来的目标是否符合公司的业务要求,或者说你挖掘出来的客户都很好,但在业务执行的时候就是会出很多问题。
算法工程师:火候厨师
实际上,算法工程师在大数据行业里是很重要的。经常见到的说法就是:代码工程师好招。而是一个好的算法工程师难遇。换在古代的说法就是:千军易得,名将难求! 在大一点的饭店,你都会发现,客人在等餐的时间都会很长。而如何加快上餐速度。如何最快的烹饪好食物,并摆盘上菜。这一块是很有讲究的。而算法工程师,他们需要了解客户的业务,同时也要了解自己数据系统的性能。只有这两者相结合,才能更好的从业务角度来优化自己的数据架构。在这里,想起当时导师跟我讲的一个例子,中国人在写C的时候,爱用指针去调用内存,而在国外有些成熟的公司里都是用数组堆栈来直接调用。因为系统的延迟效应也是决定着你的最终成败。 在IT行业分工越来越细的今天,算法工程师的价值越来越大,有可能一个公司。一个算法工程师就相当于10个代码人员的工作效果。这里提到的不是效率,而是效果。因为最终的业务落地需要有内在的算法支持,但更重要的是你的代码逻辑表达。
好了,这次就先写到这吧!以后会坚持写的,希望能把抄菜大数据系列写完。最后,还是要感谢下公司,不定期的发菜(按照惯例,最后还是放上一道学会抄的菜),让我对各种菜谱开始了学习,在不能学习技术的同时,抄菜过程中也是对所学的知识进行深入思考。希望自己未来能抄得一手好菜,也能在大数据上精进一些,加油!
转载地址:http://vuzso.baihongyu.com/