❶ 学大数据可以从事什么职业
1、数据分析师。数据分析师 是数据师的一种,指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。
作为一名数据分析师、至少需要熟练SPSS、STATISTIC、Eviews、SAS等数据分析软件中的一门,至少能用Acess等进行数据库开发,至少掌握一门数学软件如matalab、mathmatics进行新模型的构建,至少掌握一门编程语言。总之,一个优秀的数据分析师,应该业务、管理、分析、工具、设计都不落下。
2、 数据架构师。
数据架构师是负责平台的整体数据架构设计,完成从业务模型到数据模型的设计工作 ,根据业务功能、业务模型,进行数据库建模设计,完成各种面向业务目标的数据分析模型的定义和应用开发,平台数据提取、数据挖掘及数据分析。
从事数据架构师这个职位,需要具备较强的业务理解和业务抽象能力,具备大容量事物及交易类互联网平台的数据库模型设计能力,对调度系统,元数据系统有非常深刻的认识和理解,熟悉常用的分析、统计、建模方法,熟悉数据仓库相关技术,如 ETL、报表开发,熟悉Hadoop,Hive等系统并有过实战经验。
6、Hadoop运维工程师
你需要具备的技术知识:平台大数据环境的部署维护和技术支持, 应用故障的处理跟踪及统计汇总分析,应用安全、数据的日常备份和应急恢复。
7、Hadoop开发工程师
Hadoop是一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架, 以一种可靠、高效、可伸缩的方式进行数据处理。所以说Hadoop解决了大数据如何存储的问题,因而在大数据培训机构中是必须学习的课程。
Hadoop开发工程师需要具备的技术:基于hadoop、hive等构建数据分析平台,进行数据平台架构设计、开发分布式计算业务,应用大数据、数据挖掘、分析建模等技术,对海量数据进行挖掘,发现其潜在的关联规则,对hadoop、hive、hbase、Map/Rece相关产品进行预研、开发,Hadoop相关技术解决海量数据处理问题、大数据量的分析, Hadoop相关业务脚本的性能优化与提升,不断提高系统运行效率。
8、大数据可视化工程师
随着大数据在人们工作及日常生活中的应用,大数据可视化也改变着人类的对信息的阅读和理解方式。从网络迁徙到谷歌流感趋势,再到阿里云推出县域经济可视化产品,大数据技术和大数据可视化都是幕后的英雄。
❷ 算法工程师应该具备哪些工程能力
作者 | 木东居士
来源 | Data_Engineering
最近看了 Milter 的《算法工程师究竟需要哪些工程能力》这篇文章,有所感想,因此也写一篇关于算法工程师的技术能力的问题,和大家分享一下居士关于算法工程师的技术能力的观点。
对于一名优秀的算法工程师,他(她)要具备的不仅仅是出色的技术能力,也要有很深的业务理解能力和对外沟通能力,总之,要求可以很高!
但是,从职责能力的划分上来讲,算法工程师首先是一名工程师,因此本文主要从工程能力要求上进行一些探讨。
开始之前先放一份思维导图,这将是这篇文章要分享的核心内容:
工程能力概览
算法工程师,从名字上我们就能看出,一名算法工程师首先应该具备算法能力和工程能力,我们可以认为这是基础的技术能力。由于现在开源技术的普及,Sklearn、Tensorflow 和 Spark ML 基本已经成为大部分算法工程师标配的工具库了,因此,熟练的调包能力也是决定了一名算法工程师能否快速实现需求。
其次,在真实的生产环境中,算法的落地会遇到各种各样的业务场景和数据环境,这也要求算法工程师需要具备Pipeline 构建能力,将整个生产环境中的数据流和模型打通。同时,在生产环境中,会出现各种“疑难杂症”等待你去解释,比如说为什么实验效果特别差?为什么模型效果不稳定?这就要要求算法工程师需要具备一定的数据分析能力。
很多时候,你会发现,你用在数据分析和Pipeline构建上的精力可能占据了你8成以上的工作内容。
当你具备了上面的能力时,你已经可以称自己是一名算法工程师了。此时,你可以去对着数据分析小得瑟一下:“你看,我能构建整个模型的Pipeline,你却只能拿到别人提供的数据后调调包吧。“或者,你也可以去找开发得瑟:”你看,我懂了很多算法哦,你就只会写代码吧。“
得瑟完之后,我们还是回归正题,算法工程师只具备这样能力是否已经够了?答案当然是不够的。由于不同公司的团队成熟度不同,工具化和流程的成熟度都不同,这就会对算法工程师有不同的要求,比如说模型发布能力和报表开发能力,当然也会有一些其它能力,虽然可能不是特别重要,但是当这些工作没人帮你做的时候,算法工程师可能依然要承担起这些工作内容,比如说灰度测试的能力、负载均衡的能力等等。
将上面的内容整理后,就是这样一份思维导图了(一张图多看几篇更能加深印象,因此我再贴出来一遍)
工程能力详解
一、基础能力
算法能力
算法能力就不多说了,算法工程师的基本能力要求,不懂算法对于一名算法工程师来讲是不太合理的。这里居士把统计学的内容也放进来了。
编程能力
编程能力主要分为两部分:
Python、C++、Java这类编程语言,这三种也是算法工程师需要了解的主流编程语言,一般掌握其一就够,看不同公司。 Sql就是很通用的能力了,Sql也是一门编程语言,而是是数据处理最常用的语言! 很好用。 大数据场景下,要了解Hive Sql。调包能力
大家虽然会调侃调包侠,但是说实话,能调包调的很溜的人,也是不多的,比如说现在让你自己用tensorflow构建一个复杂网络,不能google,你能写出来吗?能记清楚用法吗?
Sklearn Tensorflow Spark ML二、核心能力
Pipeline 构建能力
Pipeline构建能力,这里想表达的更多的是整个数据流的构建能力,数据从日志->特征->模型训练->反馈,这一个链条能否完成的能力,这里面会有很多难题需要克服。比如说:
实时和离线模型一致性问题? 离线和实时特征一致性问题? 实时特征构建的问题? 数据延迟的问题?很多时候,模型发布之类的工作是可以由其他同学支持完成,但是数据流这种问题更多的是需要算法工程师来解决的。
数据分析能力
这里的数据分析能力不是指商业分析或者业务分析,更多的是指特征分析、算法效果分析和各种异常问题定位分析的能力。
很多时候,两个算法工程师能力水平的强弱从数据分析能力上也能窥得一二。
三、辅助技术能力
辅助的技术能力是指,你会不会的影响不会特别大,但是也都是有用的能力,特别是不同公司的发展情况不同,很可能会出现一个算法工程师既要做数据接入、又要做数据清洗、还要做算法平台
也要搞前端、还要负责模型上线、系统运维。
这里就不再细讲了。
思考一
聊一下对技术能力、工程能力和数据分析的思考。
居士个人的理解,技术能力更多的是偏向于一个一个的技术点,而工程能力更多就是在一个团队中将项目做好的能力。很多算法出身的工程能力不行,那么他做的单纯的一个模型是无法应用到实际生产中的,而工程就是指把理论落地实际生产的过程。那么工程包含了什么?它包括了系统架构设计和模块设计、数据流搭建和平台搭建、调包或算法开发、分布式、上线以及各种落地的代码开发。报表和监控,其实本质也是做数据流,边缘性的可能要做些后台和前端的开发。
然后数据分析能力是什么?数据分析(不是纯粹的数据分析)除了分析方法论和套路外,是一个很综合性、相对偏软一点的能力,比如说你通过分析发现了我们的系统有哪些可以优化的点,通过分析发现了问题的原因是什么,这些都是分析能力。
思考二
针对前面的内容,和 Cathy 讨论后,对整个思路做了新的梳理,大家直接看图就好,居士也认为这样描述可能更为合理。
思考三
这里再补充一个模型复现的能力,比如你看了一篇论文,发现这个模型可能很适合自己的业务场景,那么你是否能力将论文里面的模型快速用公司现有的平台和工具来复现?
居士认为,这一个是一个非常重要的能力,但是没有想好具体该怎样划分。
❸ 想做一名算法工程师需要学什么
1、业务认知&问题定位
首先要清楚你所要解决的问题是什么,是否需要复杂的算法求解。问题的定义来源于你对业务的认知和理解。我们经常陷入一种误区,觉得自己是一名算法工程师,遇到任务问题都想要用复杂的算法去求解。正所谓一顿操作猛如虎,得来的效果却很一般。因此,做事之前一定要在理解业务的基础上,把问题定位清楚,用合适的方法求解。
2、数据挖掘&分析
深度学习的应用能够突飞猛进的一个重要原因就是大数据的支撑。当前获取数据的成本很低,而数据清理和挖掘的成本很高,但非常重要。数据是模型的输入,是模型能够拟合的上限。在入模之前,你需要花一定的精力用于数据工作,这是必要也是值得的。因此,掌握数据能力也是一名算法工程师的必经之路。
3、算法策略
这是每位算法工程师的硬实力,有了清晰的问题和可用的数据后,我们需要选择合适的算法策略求解问题。就销量预估而言,由于特征大部分都是表格型,树模型及其变体成为首选的方案。通过树模型,你能够快速拿到一个不错的baseline。但千万不要停滞不前,你需要调研更多的先进的方案进行优化,即使此时能够拿到的受益不多,但请坚持专研的精神(近期时序模型中,热度很高的informer值得尝试)。此外,“人工智能,有多少人工就有多少智能”这句话在实际应用领域体现得淋漓尽致。策略也属于算法的一部分,人工策略有时候能够带来很大的受益,也能够找到更适合的算法优化方向。例如,我们在优化首猜的货品池时,考虑到首猜目前的推荐算法已经非常优秀了,但消费者的成交来源主要是搜索,我们通过人工分析选择了做增量货品供给的方式,拿到了不错的业务效果。基于此,我们也找到了更合适的选品算法优化方向。
4、离线实验和线上AB实验
实验是验证理论的最佳手段,也是最具有说服力的。我们需要找到几个合适的指标进行优化,并且要保证离线效。
❹ 数据算法工程师是什么职位
算法工程师通过算式来完成不同的逻辑运算,他们的工作范围有对图像音频视频等信息进行处理,如图像和视频的分类、检测、识别、跟踪、计算成像等,通过大数据分析进行广告等内容的推荐,通过算法实现导航定位及机器的自动化,发送信号通讯方面也不能缺少算法工程师,可以说算法工程师几乎占据了互联网的每一个领域。
❺ 数据算法工程师是吃青春饭吗
你好。
这就是国人的误解了
数据算法工程师可不是几年就可以当得上、当得好的
是需要时间来锻炼和长经验的
当然咯,你不想继续那是你自己的事情了
❻ 有数据算法工程师都有哪些的大学有哪些
有很多大学都有。
大学(University、College)是实施高等教育的学校的一种,包括综合大学和专科大学、学院, 是一种功能独特的组织,是与社会的经济和政治机构既相互关联又鼎足而立的传承、研究、融合和创新高深学术的高等学府。它不仅是人类文化发展到一定阶段的产物,还在长期办学实践的基础上,经过历史的积淀、自身的努力和外部环境的影响,逐步形成了一种独特的文化。大学从产生已有上千年的历史。起初,主要是从德国、英国等国家最早发展起来的。中国现代大学源起于西方,现代西方大学又是从欧洲中世纪大学、英国大学、德国大学再到美国大学这样逐渐演化过来的。无论哪一个时代的大学都是以前大学的创造性继承而不是否定。
❼ 学大数据以后可以做什么工作
1. 数据分析师。
数据分析师 是数据师的一种,指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。
作为一名数据分析师、至少需要熟练SPSS、STATISTIC、Eviews、SAS、大数据魔镜等数据分析软件中的一门,至少能用Acess等进行数据库开发,至少掌握一门数学软件如matalab、mathmatics进行新模型的构建,至少掌握一门编程语言。总之,一个优秀的数据分析师,应该业务、管理、分析、工具、设计都不落下。
2. 数据架构师。
数据架构师是负责平台的整体数据架构设计,完成从业务模型到数据模型的设计工作 ,根据业务功能、业务模型,进行数据库建模设计,完成各种面向业务目标的数据分析模型的定义和应用开发,平台数据提取、数据挖掘及数据分析。
从事数据架构师这个职位,需要具备较强的业务理解和业务抽象能力,具备大容量事物及交易类互联网平台的数据库模型设计能力,对调度系统,元数据系统有非常深刻的认识和理解,熟悉常用的分析、统计、建模方法,熟悉数据仓库相关技术,如 ETL、报表开发,熟悉hadoop,Hive等系统并有过实战经验。
3. 数据挖掘工程师。
一般是指从大量的数据中通过算法搜索隐藏于其中知识的工程技术专业人员。这些知识可用使企业决策智能化,自动化,从而使企业提高工作效率,减少错误决策的可能性,以在激烈的竞争中处于不败之地。
成为数据挖据工程师需要具备深厚的统计学、数学、数据挖掘理论基础和相关项目经验,熟悉R、SAS、SPSS等统计分析软件之一,参与过完整的数据采集.整理.分析和建模工作。.具有海量数据下机器学习和算法实施相关经验,熟悉hadoop,hive,map-rece等。
4. 数据算法工程师。
在企业中负责大数据产品数据挖掘算法与模型部分的设计,将业务场景与模型算法进行融合等;深入研究数据挖掘模型,参与数据挖掘模型的构建、维护、部署和评估,支持产品研发团队模型算法构建,整合等;制定数据建模、数据处理和数据安全等架构规范并落地实施。
需要具备的知识有:扎实的数据挖掘基础知识,精通机器学习、数学统计常用算法;熟悉大数据生态,掌握常见分布式计算框架和技术原理,如Hadoop、MapRece、Yarn、Storm、Spark等;熟悉Linux操作系统和Shell编程,至少熟悉Scala/Java/Python/C++/R等语言中的一种编程;熟悉大规模并行计算的基本原理并具有实现并行计算算法的基本能力。
5. 数据产品经理。
数据平台建设及维护,客户端数据的分析,进行数据统计协助,数据化运营整理、提炼已有的数据报告,发现数据变化,进行深度专题分析,形成结论,撰写报告;负责公司数据产品的设计及开发实施,并保证业务目标的实现;进行数据产品开发。
需要具备的技能有:有数据分析/数据挖掘/用户行为研究的项目实践经验 ;有扎实的分析理论基础,精通1种以上统计分析工具软件,如SPSS、SAS,熟练使用Excel、SQL等工具; 熟悉SQL/HQL语句,工作经历有SQL server/My SQl等的优先 ;熟练操作excel,ppt等办公软件,熟练使用SPSS、SAS等统计分析软件其中之一 ;熟悉hadoop集群架构、有BI实践经验、参与过流式计算相关经验者加分 ;熟悉客户端产品的产品设计、开发流程 。
❽ 算法工程师的项目落地能力指什么
1、深刻理解业务,能根据业务需求调整实现方案的能力
就拿茶具的例子说,客户更关注不良品不能漏,宁可杀错,不可放过,所以这时候我们就得把业务朝着不良品检出率方向去优化;
2、结合业务需求的熟练工程实现能力
我们拿到一个项目需求以后,大脑中得立马有一个框架,这个项目输入输出是什么?得用到哪几个模型?适合什么样的业务框架?开发需要多久?调优需要多久?能达到什么样的指标?然后按照自己的规划进行开发调优。
3、对数据敏感,有较强的数据处理与数据维护管理能力
算法工程师一定要对数据敏感,看一眼数据就能知道这些数据能支持什么样的任务?有没有坑?数据该怎么标注与维护高效省成本?
4、对新技术的求知欲与探索学习能力
目前人工智能技术刚兴起,技术和算法迭代很快,所以对算法工程师追新技术,新解决方案的能力也有要求,不能落后太久。比如现在有个推理性能的瓶颈,攻关了很久没有突破,但是可能就已经有开源的方案了,而这就需要我们经常查资料,看论文了。
5、各部门的沟通合作能力
这是个通用能力,算法工程师当然也需要,就像这个茶具项目中的一样,算法工程师接到不合理的需求一定要及时沟通,并用自己的专业知识,给出更合理的解决方案,各部门一起为项目落地努力。