① 【硬核技术文】研发绩效,AI算法的完美舞台
作者 | 胡豫陇
清华大学博士后
方云智能团队核心成员,AI算法应用专家
方云创始团队具有深厚技术研发和企业管理经验,依托长期行业积累和对数字化产业的深刻理解,以数字化方式评价研发团队,驱动企业精确度量研发组织及个人的工作效能,合理调配研发资源。帮助技术决策者精确测评研发组织绩效(便于向上汇报、平级沟通)和个人绩效(便于向下管理)。回顾2020年度,我们在数据分析方面,基于实际用户数据做了大量尝试,取得了显着成效,并将研究成果转化为实际应用,深度提升了产品能力。
(一)算法研究过程
算法研究的基础是数据,无论是基于数学和经验知识的建模分析,还是基于统计学和机器学习的数据分析,都需要依托数据来开展。
算法研究的第一步 ,我们建 立了自主的数据指标体系,并在这个指标体系基础上,开展后续的研究。 指标体系由三级指标组成,一级为最基础元数据,二级指标由一级指标计算得到、三级指标由二级指标和一级指标计算得到。一般来说,高级指标具有更高的信息密度,在进行信息表征时,也能够实现更加深度的信息传达效果。但另一方面,数据分析时并不是选择的高级指标越多,越有效果。而是要根据具体场景和算法要求,选择必要的各级指标,才能达到所需的分析效果。例如在kmeans算法中,低级别指标反而具有更好的分类效果,而在SVM算法中,则需要高级别指标。
研究的第二步,Kmeans。 我们鉴于元数据收集较为完整,同时数据量不是很大的情况,结合sklearn的算法选择引导图,选择了Kmeans算法对员工的行为数据进行无监督学习聚类。
在选择了若干基础指标数据的同时,我们引入RFM思想,将员工在指定周期内的工作新鲜度(R)、工作频次(F)和工作量(M)也作为聚类指标,一并用于算法聚类,取得了十分明显的分类效果。这里的核心在于我们不仅通过基础指标评价了员工的工作结果数据,还通过RFM方法评价了员工的工作过程数据。将这两类数据相结合做出的聚类,能够很好的对员工进行分类表征。分类结果的解读可以直接根据指标的含义进行解释。
研究第三步,SVM。 在聚类取得了较好的效果的基础上,我们认为数据质量是可靠的,这相当于我们有了很好的客观数据集,在此基础上,我们提出由企业管理者对员工的表现进行打分,形成Label,这样我们就得到了监督学习的训练集,从而可以对员工行为进行监督学习下的预测。这项工作我们进行了多种尝试,并最终通过特征工程,选取了最为有效的15个指标,来作为员工行为的表征指标。
这里我们回顾一下研究的历程,以作为以后研究的经验参考。SVM最初分析时,我们选择了多于60个指标进行监督学习,但是学习效果并不好,类别间的区分度很低,这主要是由于过多的指标导致SVM算法无法清楚地寻找到类别间的界线。所以我们通过一些特征工程的方法,来进行降维。首先通过pearson相关度分析,我们将大量的指标根据关联度,分为了24类,每一类中的指标都具有高度的相关性。因此可以在每一类指标中选出一个最具代表性的指标。这个选取过程由我们研究团队根据实际情况,选择了最具代表性的24个指标。其次,24个指标做SVM依然过多,我们用RFE算法来判断哪些指标对学习准确率影响最大,从而来选出最有效的那些指标。RFE过程中,我们使用Lasso、Ridge、Logistic、RFClassifier、linerSVM这5种算法来作为筛选器,分别得到每一种算法下最有效的特征,进而,我们选取那些被更多算法视为“有效”的特征,例如任务平均完成时长,在5种筛选器种都被认为有效,那么这个特征对于我们做监督学习,就是一个很好的特征。
此外,特征筛选还应考虑一个问题,那就是筛选器和分类器是否要具有相同的算法范式。例如,如果分类准备用SVM,那么筛选器就业要选SVM类的。这样才能保证筛选出来的特征,在对应的分类算法下是最为有效的。
研究第四步,数据分布拟合。 虽然在前三步研究中我们取得了一定的成效,但通过仔细检验已有的数据我们发现数据仍然存在两方面问题,一是一些数据还是会存在漏填、错填的问题,这属于数据错误问题。二是在填报比较完整的数据中,存在一些极值数据,这些数据并不一定是错误数据,也有可能是个别员工行为表现异常导致。无论是哪种情况导致的数据异常(前提是已经预处理过缺失值),我们都可以通过拟合数据的分布,来判断数据的分布情况,并寻找那些离群点。
在数据分布拟合研究中,我们通过对多种分布函数的尝试,最终提出可通过正态分布、F分布、卡方分布、Gamma分布这四种常见的分布函数来拟合员工行为数据。以正态分布为例,如果我们拟合某个指标符合正态分布,那么我们可以认为左右两侧5%区间以内的数据是常规行为,而两侧5%以外的数据是异常行为。并且通过进一步分析我们发现,一侧5%到千分之一之间的数据,有时也属于合理行为,而一侧千分之一以外的数据,才最有可能称为异常行为。通过这样的分析,我们就可以通过数据分布拟合的方式,来发现员工的异常行为数据,并提出对应的管理策略。
此外,我们还曾提出在拟合时,要拟合显着才能认为数据符合某一分布。但如果这样判断,我们发现有的数据并不满足显着的要求,但是数据确本身具有很强的实用信息,因此我们提出,不必以显着为分析前提。而这其实也表明,数字化时代,要以更加符合实际的分析手段来分析数据,指导业务。而不用拘泥于过于学术或刻板的分析标准。
总结而言,在这四条主线研究思路下,我们对合作客户的员工行为数据开展了特征工程、非监督学习、监督学习、数据分布拟合等一系列标准的算法研究。进而,结合实际应用场景,将研究结果转化为了具体应用。接下来总结一下所形成的具体应用。
(二)产品转化结果
研究成果向产品转化,是一个不断积累,由量变引起质变的过程。在最初的研究中,我们会在多个点上开展研究,但最终哪些研究成果能转变为实际应用,是不确定的。而随着研究的增多,能够转变为实际产品功能的成果就会显现,这体现在三个层次。第一层次,一些好的研究点,一些对特定场景的解决方案,能够转变为实际产品功能。第二层次,单个功能点看似没有太大价值,但是当出现某个典型功能点后,我们会意识到,其他看似无用的功能点,却是对这个典型功能点的有效补充。第三层次,多个研究会呈现出一些共性,这些共性能够转化为产品思路和产品模式,这是要比单点产品功能更具价值的地方。这样的由研究向产品转化的思路,扎根实践,又提炼总结,是具有很好的参考意义的。
我们在多个研究点探索后,不断思考如何将研究点转化为实用的功能,这既要结合客户需求,也要结合我们自己对用户痛点、产品功能的设计。2020年度的研究,我们始终在做的主线是员工行为画像,无论是监督学习还是非监督学习,都是为了选定一套合适的指标和权重,来达成对员工的排名。在这个思路下,我们整合多种排名算法,最终提出:由用户自主选择排名模式。在不同的排名模式下,我们为用户提供不同的算法或排名方式,这就相当于我们以后端智能化的方式,满足了用户在前端多样化的需求。而这也正是数字化时代,产品以智能化方式,为用户提供个性化功能的体现。具体而言,我们为用户提供四种可选模式,来实现对员工排名。
模式一、行业最佳实践 ,以成熟用户已有案例,制定一套指标和相应权重。用户选取想要的案例类别,我们根据其实际数据,计算相应排名结果。这里打分模式有两种,一是产品自定义给出,二是根据已有打分排名,用Kmeans确认不同类别优秀度,回归树反推指标权重。
模式二:AI聚类算法 ,系统对员工进行自然状态进行三次或多次kmeans聚类,每次调整指标种类和权重,然后由客户选择一种符合预期的聚类结果,那么客户的选择就对应了指标种类和权重。
模式三:AI监督学习 ,对员工进行kmeans聚类,得到n个类别,客户对n类按优秀度进行排序打分,接下来,系统依据打分情况,通过RFE算法(Estimator选用决策树回归或决策树分类),判断不同指标重要度。
模式四:AI辅助定制(纯手动) ,由用户指定n个指标,并为n个指标确定权重,系统对员工进行排名,可选择算法有:加权求和、RandomForestRegressor、GradientBoostingRegressor。备注,后两种具体实现方式是,根据加权求和打分得到y,x就是输入的加权指标。然后训练得到模型。
方云智能多种AI绩效评价方法均已通过实践验证,并实现产品化。
(三) 算法准确率分析
数据分析时结果一般需要有一定的准确度,才可以说算法对问题实现了一定解决。在数字化转型的过程中,我们不必以绝对的预测准确率来判断算法好坏。这是由于我们在评价员工行为时,训练集标注或者人的认知,都是极具主观性的,而且这种主观性又是会动态变化的,所以算法能够捕捉到的,有时候也许是客观规律,但有时候也许就只是管理者的一时情绪。我们评价算法的好坏,应该从实践出发,对于符合认知、规律的算法是好算法,但是能解释或捕捉短期用户态度的算法,也是可靠的。具体而言,我们针对已有的研究,给出下述准确率总结。
一、Kmeans是非监督学习,无准确率,但可以阐述我们对老黄牛和南郭先生的发现,是符合管理常识的。
SVM预测,我们首先得到了一个关键结论,管理严格程度高、中、低,对应员工表现中、高、低。这一结论的得出是符合常识规律的,那么我们也可以反推认为算法是有效的。
二、根据对过去员工数据+label进行SVM训练,我们预测未来的准确率最初仅为60%,但经过样本筛选,参数调优后,准确率可达到93%。
三、数据合理性分析中,我们通过以不同的分布拟合员工行为数据,选出95%区间内的员工,再进一步选出95%到0.001之间的员工,准确选出数据出现问题的员工。具体实践结果表明,我们确实捕捉到了行为极值点,也捕捉到了5%以外但行为合理的点。
(四)研究总结和下一步计划
算法研究、数据分析的目的,最终还是为了找到新的用户需求,开发新的产品功能。第二部分中我们总结了由研究向产品实际功能转化的思路。一是好的研究点直接转变为实际产品功能。二是一些低价值的功能点支撑典型功能点后。三是研究体现出的共性思路,转化为产品思路和产品模式。
接下来我们的研究也致力于从这三个方面来探索更多的产品功能和产品模式。目前提的主思路有:
一是将项目管理的知识和流程植入产品,帮助企业管理者简单、高效的完成项目管理。这其中将人员动态分配到不同的任务中,就会是十分典型的一个功能。在此基础上,员工行为的分析和排名就会成为很好的辅助功能,我们可以依据员工行为特点,将他们分配到不同情况的任务中。
二是深化单点功能。我们在SVM训练模型时发现,每个月的模型放到下个月或者其他月份来预测,准确率不稳定。其中很可能的原因是每个月的评价标准有所波动。那我们就可以在长期数据上,对每个月都进行模型训练,得到多个模型。在此基础上,将未来一个月的数据放在过去多个月的模型上预测,这样就会出现一个月的数据在多个月模型下评价各不相同的情况,这就能反应出每个月评价标准的波动情况。
三是产品模式的升级。我们可以采用轻量化前端,收集一些简单必要的数据后,将复杂的分析都放在后端来实现。功能上的呈现就是,用户在前端进行一些个性化的数据和模式选择,系统能够在后端为用户进行多样化的分析,呈现给用户智能化的操作界面(如智能化流程、模板化流程)、分析结果(排名、雷达图、行为空间映射等),甚至是客制化流程、数据,算法,系统提供分析结果。
免费试用地址: FarCloud|方云|方云数据智能研发绩效|30天提效30%
② 信也科技王春平:价值观在前的人工智能算法发展
9月27日,由玛娜数据基金会主办的“促进人工智能算法性别平等”报告发布会暨政策研讨会在上海举行,联合国妇女署驻华办公室高级项目官员马雷军、上海市浦东新区妇女联合会副主席国云丹、玛娜数据基金会秘书长张唯、玛娜数据基金会课题组专家负责人周旅军、专家况琨,以及小米集团 科技 委员会技术向善议题召集人朱汐、信也集团首席算法科学家王春平、Thought Works(中国)数据智能团队解决方案架构师任添石等各界嘉宾出席了本次会议,共同探讨如何促进人工智能算法中的性别平等。
作为金融 科技 企业信也 科技 集团的代表,也是在人工智能领域取得优秀成就的女性从业者,王春平博士在会上阐述了其对于人工智能在研究、应用中对于数据伦理、性别平等的观点与建议。
人工智能时代加速,促进性别平等即发展大前提
人工智能自1956年被提出以来,短短60余年的时间中,这项科学技术的飞速发展给人类 社会 带来了不小的变化。人工智能算法是以数学方式或计算机代码表达的意见,由算法模型和数据输入决定着预测的后果。
随着人工智能时代的加速到来,人类将生活在一个算法无所不在的世界,随着算法决策开始介入并主导人类 社会 事务,算法对人类的生活和未来都将产生不可估量的影响。基于此,由算法偏见可能带来的伦理风险也开始引起人们重视。单就性别角度而言,由于目前人工智能领域目前仍处于男性主导的状况,使得人工智能算法在日常应用中不自觉就容易出现 “性别歧视“的争议。
据当日发布的《促进人工智能算法性别平等》报告(后文简称《报告》)介绍,目前人工智能算法的诸多应用场景中均存在一定的性别歧视现象。以人工智能开放平台为例,一张“端着水果篮的男性”图片被AI人脸识别平台检测为“女性”,单独截出头像却能够被检测为“男性”。在就业场景中,2018年亚马逊公司的自动招聘算法倾向于给关键词含“女”字的简历打低分,降低了女性工作申请成功率,最后弃用了该招聘算法。
信也 科技 首席科学家王春平表示:“人工智能算法的基础是数据,但在实际生活中因为种种原因,沉淀下来的很多数据分布是有偏的,从而可能将 社会 中的一些偏见渗透进算法中。作为人工智能算法的女性从业者,我认为需要通过多种方式去消除这些偏见。”
消除偏见与歧视,数据算法从业者新课题
2019年,国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》,提出了人工智能治理的框架和行动指南,明确提出要在数据获取、算法设计、技术开发、产品研发和应用过程中消除偏见和歧视。该委员会近日又发布了《新一代人工智能伦理规范》,第十三条特别强调避免偏见歧视,在数据采集和算法开发中,加强伦理审查,充分考虑差异化诉求,避免可能存在的数据与算法偏见,努力实现人工智能系统的普惠性、公平性和非歧视性。
“算法中存在性别歧视问题,主要源于训练AI的数据集反映了人类 社会 存在的性别偏见,而算法工程师对这一问题缺乏意识,未将解决性别偏见纳入开发需求,从而使得算法放大了性别歧视。“玛娜数据基金会课题组专家况坤表示。
据《报告》中专题 社会 调研的数据显示,58%的人工智能算法从业者不知道算法当中存在的性别偏见问题,73%的从业者不知道存在专门针对女性的恶意算法。从业者对算法性别平等的意识及能力亟需提升。
王春平博士表示,“对于在人工智能算法中尽可能地促进性别平等,我们认为首先需要从研发者的意识与环境培养开始。比如在信也 科技 集团内部,我们有很多公司政策都在保证并促进不同性别员工得到平等的机会。比如说我们会有比较完善针对人工智能领域或数字化应用相关的培训课程,这些课程包含了业务场景、算法学习、工程化落地,会开放给所有职位的员工,并且会尽可能地帮助公司内部对于人工智能算法有兴趣的员工参与一些实验性的创新项目,为其提供平等的岗位机会。我们认为保障女性员工获得公平的职业机会,为算法开发团队营造没有明显两性区分的环境,并有意识消除算法工程师们的性别偏见,对于人工智能算法在应用中尽可能实现性别平等是有益的。”
商业与伦理的平衡,价值观在前的人工智能算法未来
人工智能算法独特的运行逻辑导致人们 社会 生活的结构性场景发生了重大变化,加剧了决策者与相对人之间的“数字鸿沟”,人工智能算法独特的运行逻辑正在深刻地改变着以往的生产方式和生活方式,并与人的行为形成了支配关系。这也表示,人们的行为可以借助于数据算法来预测甚至被改变。
对于企业来说,人工智能算法的准确为商业行为的执行提供了准确的预判,但同时算法发展带来的伦理问题、性别歧视问题同样也是企业需要考虑的问题。
王春平博士认为,目前为止,人工智能算法在应用中反映的依然是相关性,在开发过程中考虑的因素与得到的决策结果之间,很大程度上只是相关。在很多应用里,性别可能是被引入的一个带有相关性的干扰项,如何排除偏见,公平地看待不同的性别,但是又不会影响到最终的商业判断准确性,具有不小挑战。目前这个问题已经引起了重视,有很多从不同角度试图解决这个问题的尝试,比如基于因果推理理论,寻找与期望预测结果拥有直接因果关系的因素;通过创新性地构造特征表征空间,抑制某些带有偏见的因素,比如由于性别带来差异。
“虽然很多时候,基于商业行为,我们很难判定部分情况下算法在偏好与偏见之间的界限,但是在算法的创新开发过程中,作为人工智能算法工程师如果拥有正确的价值观,就能尽可能提前审视并察觉歧视偏见的存在,很好地利用对于算法的不断更新去调整它带来的问题,这是我们作为算法开发者的使命与责任,也是人工智能算法发展的重要前提。” 王春平如是说到。
信也 科技 作为国内领先的金融 科技 企业之一,一直致力于推进 科技 应用与 社会 发展的互相融合与发展,尤其是在人工智能领域,信也 科技 通过在开发过程中纳入 社会 性别多元化视角,尽己所能为促进算法中的性别平等而努力。作为企业,信也 科技 致力推动在内部技术开发中的客观认识和理性反思,从而更好地促进 科技 发展。未来,信也 科技 将继续通过技术的不断创新,以确立正确价值观,助力促进人工智能时代的性别平等。
③ 浜у搧缁忕悊闇瑕佷简瑙g殑鍑犵嶅父瑙佺畻娉
鍦ㄤ骇鍝佺畻娉曞寲镄勬椂浠o纴涓崭简瑙g畻娉曪纴鎭愭曢毦浠ュ仛濂戒竴娆句骇鍝佺殑璁捐°傛棤璁烘槸淇℃伅娴佺殑鎺ㄩ佽缮鏄鎼灭储缁撴灉镄勫𪾢绀猴纴绠楁硶娣卞埢濉戦犱简鐢ㄦ埛浣挞獙銆傚洜姝わ纴浜呜В绠楁硶锛屾槸浣滀负PM镄勪竴椤瑰熀纭锷熻俱傛湰鏂囨荤粨浜嗗父瑙佺殑涓浜涚畻娉旷煡璇嗭纴寰埚氭潵镊鎴戝圭绣璺澶х炰滑镄勫垎浜杩涜岀殑姊崇悊锛屽ぇ瀹朵竴璧疯ˉ琛ヨ俱傜敱浜庢枃绔犲唴瀹硅缉闀匡纴锲犳や细鍒嗗緢澶氩ぉ镟存柊瀹岋纴涓嬮溃杩涘叆姝i樸
涓銆佺儹搴︾畻娉曘
锅囧傜幇鍦ㄦ垜浠瑕佺粰涓娆炬柊闂诲簲鐢ㄨ捐″唴瀹圭殑鍒嗗彂链哄埗锛岃烽梾镐庢牱鍒嗗彂鏂伴椈鍐呭规洿涓哄悎鐞嗗憿锛熷湪钥冭槛绠楁硶镞讹纴鎴戜滑棣栧厛𨱍冲埌链夊嚑涓绾︽潫𨱒′欢锛
鈶犱笉钖屾柊闂荤殑閲嶈佹у苟涓岖浉钖屻
鈶$敤鎴峰弬涓庣殑钖勭嶈屼负浼氩姪鎺ㄦ垨𨰾変绠鏂伴椈鐑搴︺
鈶㈡柊闂绘湁镞舵晥镐э纴鐑搴﹂殢镞堕棿琛板噺銆
鈶d笉钖岀殑浜猴纴鏂伴椈锽滃ソ鏄涓嶅悓镄勚
鍓3涓闂棰桡纴鎴戜滑棣栧厛瑙e喅銆
1.1鍒濆嬬儹搴﹀垎S0
闂棰1镄勮В鍐虫柟妗埚緢绠鍗曪纴缁欎笉钖岀被鍨嬬殑鏂伴椈璧嬩篑涓嶅悓镄勫埯濮嫔粪0銆傛瘆濡傦纴濞变箰绫绘柊闂诲线寰姣旀枃鍖栫被镄勬柊闂荤殑鐑搴︽洿楂桡纴澶у舵洿鐖辩湅锛屽洜姝ゅ埯濮嫔兼洿澶т竴镣广
涓婂浘涓锛0.6銆0.8銆1.2銆1.5灏辨槸涓嶅悓绫诲埆鏂伴椈镄勫埯濮嬫潈閲嶃
涓婅堪鍒濆嫔肩殑璁惧畾杩樻湁涓𨱒¤ˉ鍏咃纴灏辨槸褰揿ぉ镄勯吨澶уご𨱒℃柊闂伙纴鎴戜滑甯屾湜鍏ュ簱镞剁儹搴﹀氨寰堥珮銆傛瘆濡傞┈淇濆浗钥佸笀镓撴妩灞呯劧璧浜呜开杩﹀ゥ鐗规浖銆备负浜呜╂柊闂诲獟浣揿垰鍙戝嚭𨱒ュ氨链夊緢楂樼殑鐑搴︺傛垜浠闇瑕佹彁鍓嶅嗳澶囦竴涓 鐑璇嶅簱 锛屾疮澶╂姄鍙栧悇绫诲ご閮ㄩ棬鎴风绣绔欐垨绀句氦缃戠珯涓婄殑鏂伴椈鐑璇嶃备竴镞﹀钩鍙颁笂链夌敤鎴峰彂甯幂殑鏂伴椈锻戒腑浜嗗綋澶╃殑鐑璇嶏纴濡傦细钬滈┈淇濆浗钬濄佲滃ゥ鐗规浖钬濄佲滆开杩︹濓纴鎴戜滑灏辩粰杩欎釜鐢ㄦ埛镄勫唴瀹硅祴浜堣缉楂樼殑鍒濆嬬儹搴︺
1.2鐢ㄦ埛浜や簰鐑搴﹀垎S(Users)
闂棰2镄勮В鍐虫柟妗堬纴鏄鎶婅〃寰佺敤鎴峰枩濂界殑钖勭嶈屼负𨰾庡嚭𨱒ャ傛瘆濡傛祻瑙堛佽瘎璁恒佺偣璧炪佸枩娆銆佹敹钘忋佸垎浜銆佽浆鍙戙佺偣韪┿佷妇鎶ャ佹埅锲剧瓑绛夈傝屼负瓒婂氾纴棰楃矑瓒婄粏銆
姣斿傛垜浠鍙鍙栧嚑涓鎸囨爣锛氭祻瑙堬纸1鍒嗭级銆佺偣璧烇纸3鍒嗭级銆佽瘎璁猴纸5鍒嗭级銆佸垎浜锛10鍒嗭级
涓涓鐢ㄦ埛濡傛灉鍦ㄦ煇𨱒℃柊闂讳笂閮藉懡涓浜嗕笂杩拌屼负锛岄偅涔堣繖𨱒℃柊闂诲彲浠ヨ幏寰楃殑璇ョ敤鎴稴(Users)涓猴细18鍒嗐
浣嗘槸锛岃繖绉嶈$畻鏂规硶杩樻湁涓涓闂棰樿佽В鍐筹纴闾e氨鏄鐢ㄦ埛瑙勬ā镄勯梾棰樸傚垰鍙戝嚭铡荤殑鏂伴椈锛岃偗瀹氱湅寰椾汉灏戯纴鎴戜滑甯屾湜鍙浠ュ己鍖栫敤鎴疯屼负鍒嗭纴璁╃敤鎴风殑涓涓镣硅禐鍜岃瘎浠峰彲浠ュ緢寮哄湴锷╂帹璇ユ浔鏂伴椈鐑搴︺备絾鏄闅忕潃阒呰荤殑浜鸿秺𨱒ヨ秺澶氾纴鎴戜滑甯屾湜鍙浠ュ急鍖栫敤鎴疯屼负鍒嗐傚洜姝わ纴闇瑕侀拡瀵圭敤鎴疯勬ā锛屽己鍖栨垨钥呭急鍖栫敤鎴风殑琛屼负𨱒冮吨銆傜敤浠涔堟暟瀛﹀伐鍏峰幓瑙e喅杩欎竴闂棰桡纻鐣欑粰浣犳濊冦
1.3镞堕棿琛板噺鐑搴﹀垎
闂棰3镄勮В鍐虫柟妗堥渶瑕佺敤鍒颁竴涓宸ュ叿銆傛垜浠甯屾湜鏂伴椈镄勭儹搴︽槸闅忕潃镞堕棿钥岄掑噺镄勶纴杩欐牱澶у堕殢镞剁湅鍒扮殑閮芥槸鏂伴椈钥屼笉鏄镞ч椈浜嗐傚备綍𨱒ュ害閲忚繖绉嶉殢镞堕棿阃掑噺镄勭儹搴﹀憿锛
𨱍冲儚涓涓嬶纴鎴块棿閲屾斁浜嗕竴𨱒鐑鍜栧暋锛岃繖𨱒鍜栧暋浼氶殢镌娓╁害鎱㈡参琛板噺锛岀洿鍒颁笌鎴块棿瀹ゆ俯鎸佸钩銆傛柊闂荤殑鐑搴﹀氨镀忔埧闂撮噷镄勭儹鍜栧暋锛岄殢镌镞堕棿钥屾参鎱㈤檷娓┿傚洜姝わ纴杩欓噷镄勫伐鍏峰氨鏄鐗涢】鍐峰嵈瀹氩緥銆
鐗涢】鍐峰嵈瀹氩緥 鏄鐢辫嫳锲界墿鐞嗗﹀惰垒钀ㄥ厠路鐗涢】鐖靛+锛1642-1727锛夋墍鎻愬嚭镄勪竴涓缁忛獙镐х殑鍏崇郴銆傛槸鎸囩墿浣撴墍鎹熷け镄勭儹镄勯熺巼涓庣墿浣揿拰鍏跺懆锲寸幆澧冮棿镄勬俯搴﹀樊鏄鎴愭瘆渚嬬殑銆傚綋鐗╀綋琛ㄩ溃涓庡懆锲村瓨鍦ㄦ俯搴﹀樊镞讹纴鍗曚綅镞堕棿浠庡崟浣嶉溃绉鏁eけ镄勭儹閲忎笌娓╁害宸鎴愭f瘆锛屾瘆渚嬬郴鏁扮О涓虹儹浼犻掔郴鏁般
鏁板﹀叕寮忎负锛
鍏寮忓彉鎹涔嫔悗锛屽彉鎴愪笅闱㈡洿瀹规槗鐞呜В镄勫叕寮忥细
鍏朵腑锛孴0锛氩埯濮嬫俯搴︺乀(t)锛氱墿浣揿綋鍓岖殑娓╁害銆乼o锛氩埯濮嬫椂鍒汇乼锛氭煇涓镞跺埢銆丠锛氩懆锲寸殑娓╁害銆佄憋细 鍐峰嵈绯绘暟銆
灏嗗叕寮忛噷镄勬俯搴T鎹㈡垚鐑搴︼纴灏卞彲浠ョ敤𨱒ヨ閲忔柊闂荤殑鐑搴﹁“鍑忎简銆傝繖閲岄溃链镙稿绩镄勬槸鍐峰嵈绯绘暟伪锛屛卞湪鎺у埗涓嶅悓绫诲瀷鍐呭圭殑琛板噺绋嫔害銆傛湁浜涘唴瀹圭殑镟存浛阃熷害蹇锛屾垜浠璁剧疆镄勫㖞鍗寸郴鏁板彲浠ュぇ涓浜涳纴链変簺镟存浛阃熷害鎱锛屾垜浠鍙浠ユ带鍒跺缑灏忎竴浜涖
鍏蜂綋璁$畻鍐峰嵈绯绘暟锛屽彲浠ヨ繖镙锋搷浣溿傚亣璁炬垜浠璁や负鍒濆嬬儹搴﹀垎涓100锛24灏忔椂钖庯纴鐑搴﹀垎涓1锛岄偅涔埚氨链夛细1=100*e^(-24伪)锛屽缑鍒拔=0.192銆备粠杩欓噷鍙浠ョ湅鍒帮纴褰撴垜浠甯屾湜涓𨱒″唴瀹癸纴鐢ㄦ椂澶氢箙锛屽彲浠ュ㖞鍗村埌浣旷岖▼搴︽椂锛屽嵆鍙纭瀹毼卞笺傞渶瑕佹敞镒忕殑鏄锛屾ゅ勮$畻鎴戜滑璁惧畾镄则-to镄勫樊鍊硷纴鏄鎸夊皬镞朵负鍗曚綅𨱒ヨ$畻镄勶纴钥屼笉鏄鎸夌収鍒嗛挓鎴栬呯掋
镓惧埌浜呜閲忔柊闂荤儹搴﹁“鍑忕殑锷炴硶锛屽备綍鐢ㄥ湪鏁翠綋镄勬柊闂荤儹搴﹀垎锻锛
寮澶撮儴鍒嗙敤浜呜繖涓鍏寮忔潵澶ф傛弿杩版垜浠甯屾湜杈炬垚镄勬晥鏋滐细 鏂伴椈鐑搴﹀垎 = 鍒濆嬬儹搴﹀垎 + 鐢ㄦ埛浜や簰浜х敓镄勭儹搴﹀垎 钬 闅忔椂闂磋“鍑忕殑鐑搴﹀垎锛 Score = S0 + S(Users) 钬 S(Time)銆
鐪嬩简涓婇溃镄勭墰椤垮㖞鍗村畾寰嫔悗锛岃ュ叕寮忓彲浠ユ紨鍖栦负Score =锛圫0 + S(Users)锛/(e^伪*(t-t0))
濡傛灉鍙鏄瑙e喅浜嗗墠3涓闂棰桡纴鍗筹细鍒濆嬬儹搴﹀垎銆佺敤鎴疯屼负锷╂帹鐑搴﹀垎銆佺儹搴﹀垎琛板噺锛岄偅涔埚ぇ瀹剁湅鍒扮殑鏂伴椈閮芥槸涓镙风殑锛屼互鍓岖殑缃戞槗鏂伴椈銆佽吘璁鏂伴椈涓嶅氨鏄杩欐牱涔堬纻鐜板湪鎴戜滑𨱍崇粰涓嶅悓镄勪汉鎺ㄨ崘涓嶅悓镄勬柊闂伙纴镐庝箞锷烇纻杩欎究鏄浠婃棩澶存浔瑙e喅镄勯梾棰树简銆傞渶瑕佺敤鍒颁釜镐у寲鎺ㄨ崘浜嗐
涓镐у寲鎺ㄨ崘涓鑸链変袱绉嶆柟娉曪纴鏂规硶1鏄镙规嵁鍐呭圭浉璇嗗害鎺ㄨ崘銆傛瘆濡备綘锽沧㈢湅绉戞瘆镄勬柊闂伙纴闾d箞鎴戞帹钻愭ф枃镄勪技涔庝篃涓嶉敊銆傛柟娉2鏄镙规嵁鐢ㄦ埛鍝佸懗鐩歌瘑搴︽帹钻愩傛瘆濡备綘锽沧㈢戞瘆锛屽彟涓涓浜轰篃锽沧㈢戞瘆锛岄偅涔堟垜鍙浠ユ帹钻愬彟涓涓锽沧㈢殑鏂伴椈缁椤埌浣犮备笅𨱒ユ潵璇翠竴璇村备綍閲囧彇杩欎袱绉嶅姙娉曟潵鎺ㄨ崘銆
浜屻佸熀浜庡唴瀹规帹钻
鎸夌収鏂规硶1锛屾垜浠鏄闇瑕佽$畻鍑轰袱绡囨柊闂荤殑鐩镐技搴︺傞偅涔堜袱绡囨柊闂荤殑鍏崇郴瑕佹庝箞璁$畻锻锛
棣栧厛锻锛岀涓姝ユ垜浠闇瑕佸规柊闂昏繘琛屽垎璇嶃傛瘆濡傝繖镙蜂竴涓鍙ュ瓙锛氱戞瘆鏄涓栫晫涓婃渶浼樼镄勭鐞冭繍锷ㄥ憳锛岃┕濮嗘柉涔熸槸銆傝繖鍙ヨ瘽鎴戜滑鍒呜瘝钖庝究寰楀埌浜嗗备笅璇岖粍锛氱戞瘆銆佷笘鐣屻佷紭绉銆佺鐞冭繍锷ㄥ憳銆佽┕濮嗘柉銆佹槸銆佷篃銆佷笂銆
浠庤繖涓璇岖粍鍙浠ョ湅鍑猴纴钬沧槸钬濄佲滀篃钬濄佲滀笂钬濊繖绫昏瘝骞舵病链夊お澶氩惈涔夛纴闇瑕佸幓鎺夛纴鐣欎笅镄勮瘝镓嶆湁镒忎箟銆傚洜姝わ纴鎴戜滑鍒呜瘝镄勬椂鍊欙纴闇瑕佺敤鍒颁袱涓璇嶅簱锛屾e父璇嶅簱鍜屽仠鐢ㄨ瘝搴撱傚仠鐢ㄨ瘝搴撶殑鍐呭瑰氨鏄涓婅堪铡绘帀镄勯偅绫昏瘝锛岃屾e父璇嶅簱灏辨槸鎴戜滑𨰾呜В鍐呭圭殑镙囧嗳銆备竴绡囨柊闂诲氨鏄鎸夌収姝e父璇嶅簱𨰾嗘垚涓涓涓鍗旷嫭镄勮瘝&璇岖粍镄勚
闾d箞杩欓噷链変釜闂棰桡纴灏辨槸鍒呜瘝鍒板簳鏄镐庝箞鍒嗙殑銆备竴鑸鍒呜瘝镄勬柟娉曟湁寰埚氱嶏纴姝e悜鍖归厤𨰾嗗垎锛岄嗗悜鍖归厤𨰾嗗垎锛屾渶灏戝垏鍒嗐
姝e悜鍖归厤娉曟槸浠庡乏钖戝彸镓鎻忓绘垒璇岖殑链澶у尮閰嶃备竴鑸浼氩厛瑙勫畾涓涓璇岖殑链澶ч暱搴︼纴姣忔℃壂鎻忕殑镞跺椤绘垒褰揿墠寮濮嬬殑杩欎釜闀垮害镄勮瘝𨱒ュ拰瀛楀吀涓镄勮瘝鍖归厤锛屽傛灉娌℃湁镓惧埌锛屽氨缂╃煭闀垮害缁х画瀵绘垒锛岀洿鍒版垒鍒版垨钥呮垚涓哄崟瀛椼
涓句釜渚嫔瓙銆傛垜浠𨰾熷垎璇岖殑闀垮彞涓猴细绉戞瘆瑙佽繃鍑屾櫒锲涚偣镄勫ぉ绌恒
鎴戜滑璇嶅吀鏄杩欐牱镄勶细{绉戞瘆銆佽佽繃銆佸噷鏅ㄥ洓镣广佸ぉ绌簘
闾d箞姝e悜鍖归厤娉曟槸镐庝箞杩愯岀殑锻锛
棣栧厛鎴戜滑璁惧畾链澶ц瘝闀夸负4銆傛垜浠浠庡乏鍒板彸锛屽厛璇曡瘯4涓瀛楃"绉戞瘆瑙佽繃"锛屾潵璺熸垜浠璇嶅吀鍖归厤锛屽彂鐜版病链夊尮閰嶅埌镄勚傞偅灏辩缉鐭瀛楃︼纴璇曚竴璇曗灭戞瘆瑙佲濓纴鍙戠幇杩樻槸娌℃湁銆傜户缁缂╃煭瀛楃︼纴璇曚竴璇曗灭戞瘆钬濓纴璇岖粍涓鍑虹幇浜嗭紒
濂戒简锛屾垜浠鍒嗗嚭浜嗙涓涓璇嶏纴鎶婅繖涓璇崭粠铡熷彞涓韪㈡帀锛岄偅涔埚师鍙ョ幇鍦ㄥ彉涓猴细瑙佽繃鍑屾櫒锲涚偣镄勫ぉ绌恒
缁х画鎸夌収铡熸柟娉曞垎璇嶃傚厛璇曡瘯链宸︿晶镄4涓瀛楃︹滆佽繃鍑屾櫒钬濓纴𨱒ヨ窡璇嶅吀鍖归厤锛屾垒涓嶅埌鍖归厤镄勮瘝銆傜户缁缂╃煭瀛楃︹滆佽繃鍑屸濓纴𨱒ヨ窡璇嶅吀鍖归厤锛岃缮鏄鍖归厤涓嶅埌锛岄偅涔堢户缁缂╃煭銆
渚濇℃寜镦т笂杩版柟娉曪纴杩欐牱闀垮彞灏变细琚鍒嗘垚涓涓涓璇岖粍浜嗐傝繖灏辨槸姝e悜鍖归厤娉曘
阃嗗悜鍖归厤娉曟槸浠庡彸镊冲乏锛屽垎璇嶈勫垯璺熸e悜鍖归厤娉曞樊涓嶅氾纴灏变笉璧桦彊浜嗐
链灏戝垏鍒嗘硶鏄渚濇嵁链灏戝垏鍒嗗师鍒欙纴浠庡嚑绉嶅垎璇岖畻娉曞垏鍒嗙粨鏋滀腑鍙栧垏鍒呜瘝鏁版渶灏戜竴绉岖殑銆傛瘆濡傦纴浠庢e悜链澶у尮閰嶅拰阃嗗悜链澶у尮閰崭袱钥呬腑阃夋嫨璇嶆暟杈冨皯镄勬柟妗堬纴褰撹瘝鏁扮浉钖屾椂锛岄噰鍙栨煇绉岖瓥鐣ワ纴阃夋嫨鍏朵腑涓涓銆
④ 论内容理解算法
经过几年的膨胀期,算法的热度快速下降,不论是AI四小龙的上市之路艰辛,还是各大头部互联网公司的副总裁重返学术界,以及算法人员的招聘冻结。这里有总体经济形势恶化带来的影响,也与算法本身的能力上限有关,在各类学习任务上,算法的性能正在逐渐进入瓶颈,通用任务效果提升的梯度在逐渐变小,有效的进展都依赖于超大规模的数据和模型参数,以通用语义表征任务为例,完成一次超大规模的预训练模型的成本达到数百万元,极大地限制了中小企业参与的机会。
在业务应用方面,经过几年的持续建设和多种类型功能的输出,业务依赖的不同方向所对应的内容理解算法在应用和效果层面已趋成熟,能够带来惊喜效果的机会变的很少。这种形势下,作为偏后台支持的角色,如何去识别并持续深化内容理解算法的作用变得很重要。本文试图从价值视角分析内容理解的生存形势,发掘未来发展的可能性以及从业人员的应对手段方面做了些不算严谨的阐述。
一直以来我们定义内容理解算法为业务的万金油,随时随地可以插拔式应用。从配合内容生产者做创作提示,帮助运营做质量分析,版权保护,相似查找,帮助搜索算法提供长尾查询的效率增强,帮助推荐算法提供标签等细粒度语义特征,根据消费者的负向反馈进行同类型的内容屏蔽(如软色情,恶心,不喜欢的明星)。因此很自然地,我们把内容理解算法的使命定义为“内容流转的全链路提质提效”,这里的质量包含对确定性劣质的去除,以及优质内容的免审或者高曝推荐。效率指的是把内容从生产到消费的链路上的时间优化到最快,包括配合运营进行快速的内容筛选,辅助分发算法进行人群和内容的精准匹配。
这里需要回答的是,在上述相对完备的能力基础上,内容理解算法所能提供的最核心的价值是什么?
首先是客户的定义问题,内容理解算法的客户不是运营,不是分发算法,也不是生产者和消费者。而是要回归到最原始的“内容”,用于对内容进行附加值的极大化提升。
其次,参与到内容流转各环节的角色承担了对内容理解算法的价值落地和放大,不论是运营所主导的平台意志实现,分发算法对内容和消费者的高效匹配,以及生产者和消费者分别从内容供给和消费方面对内容理解算法的诉求。
最后,内容本身是一种载体,载体背后是人对现实世界的刻画,平台层面有对内容进行按需取用的逻辑,消费者也有用脚投票的权利,这里的内容理解算法不应当做任何的自我倾向,按照业务诉求的多样化能力输出是内容理解存在的核心价值,否则通过简单搬运学术界的开源模型便可形成表面上的业务能力堆砌,显然是无法满足业务的增长诉求。
因此,我们可以形成价值定义: “内容理解算法的核心价值是内容全生命周期内,根据服务业务的多样化诉求,提供智能化和结构化的理解能力,其衡量标准为上述能力带来的附加效率提升和成本下降。”
从这个定义来看,内容理解算法似乎没有站在主战线上,价值被隐性地统计起来。实则不然,就如战争一样,冲锋在前的部队只有少数,而承担防守和辅助任务的兵种实际上是不可或缺的,很多时候也决定了战争的走向, 历史 上由于后勤保障问题导致战争走向改变的例子比比皆是。就如定义中的效率提升,它其实不是一票式的,由于效率的提升会带来供给者和消费者的规模增大,又会产出对内容理解算法效率提升的更多诉求,这种正反馈式的链路也是内容业务可以快速实现既定目标的重要方式。
一、估值 游戏
以2021年11月小红书的估值来看,彼时6千万DAU和47分钟人均时长的内容社区获得200亿美金的估值认可,这属于一个早期内容社区经历过较长时间的成长后才能达到的高度。考虑一个相对创新内容业务,两到三年的时间想要达到5000万DAU和5分钟的人均时长其实还是比较困难的,按照对标小红书的逻辑,估值上限为30亿美金,假设内容理解算法对业务贡献率用3%折算,估算下来内容理解估值为9千万美金,按照简单的市销率10倍计算,内容理解每年的营收为900万美金(按照估值反推营收的原因是是内容理解算法对业务的点状式能力输出难以做到精准的量化统计)。
900万美金是非常尴尬的数字,因为内容理解算法存在比较高昂的成本,从大头上来看,内容理解算法支出分为三部分,第一部分是算法人员,以15人的支撑团队计算(看起来有点多,实则不然,想要支撑对未来预期的增长,15个人实际并不够用),按照单人每年的支付成本150万计算(这个成本折算到员工回报大约为100万左右,已经没多大市场竞争力),大约400万美金/年;第二部分是资源消耗,按照百万内容/天的规模计算,各种资源成本(包括机器,存储、辅助软件等)大约500万美金/年;第三部分是配套工程人员,产品经理,外包标注支持等,这部分大约150万美金/年。可以看到业务发展到这个阶段,内容理解算法是入不敷出的。
按照上述口径,能够改善内容理解价值的核心方法包括三个方向,一是业务估值的上升,需要业务DAU和时长的稳定提升。二是内容理解算法的业务贡献率提升,这里对内容理解算法的要求是比较高的,不仅仅要从内容的质量,生产者的辅助,分发流量效率,业务的大盘生态,或者业务商业化上有所作为。三是降低成本,这个路径的可行性很弱,反倒是随着业务的成长,成本的消耗会进一步增加,能够做的是控制成本增长的速度小于业务增长。
“按照业务贡献对处于业务发展前期的内容理解算法进行价值衡量,情况是非常不乐观的”。
二、价值重塑
前面的视角是业务闭环下的价值衡量,放开到更大的视角,内容理解算法之所以构成相对独立的功能单元是因为它提供的能力是相对通用的,比如标签识别算法不仅仅可用于小红书,也可用于抖音和快手这样的内容业务。
因此在支撑具体的业务的过程中沉淀出通用算法进行其他类似业务的价值输出,是内容理解算法的另一扇门。这里面临的另一个问题是如果是头部业务,一定是要求内容理解算法是为它量身定制的,而中小业务愿意为内容理解算法买单的价钱是有限的。针对这个问题的核心解法是在做头部业务能力定制的时候,提供尽可能通用的能力,通过对数量众多的中小业务形成价值输出,实现量级的堆砌。
此外,要差异化成熟业务和创新业务,对于成熟业务而言,内容理解算法对业务的微小提升可能是非常明显的,以京东平台为例,如果内容理解算法通过图像搜索或者同款识别等能力提升业务成交0.1%,也将是数亿美金每年的价值加成。对于创新业务而言,内容理解算法应当深入业务,从内容的全生命周期为业务提供硬核的能力,用以帮助业务实现生产者和消费者体感的明显提升,最终带来业务的正反馈式增长,早期的抖音就是依托炫酷的AI特效体系实现用户规模的快速增长。
“目前能看到的,让内容理解算法进行价值放大的有效途径是贴身服务头部业务的过程中,沉淀通用化能力横向输出尽可能多的同类型业务。针对成熟业务寻找对业务增长的确定性增长点,创新业务寻找到适合于业务快速增长的硬核能力”。
作为一名内容理解算法沉浮六年的老兵,我对内容理解算法的未来持谨慎乐观的态度。原因有三个方面,一是这一轮深度学习带来的算法提升空间变得有限;二是互联网用户进入存量时代后,头部内容会更加精耕细作,从追求效率转向运营的精细化和粘性保持;三是对未来可能出现的下一代内容消费方式的期待和观望。
一、相对有限的算法提升空间
过去的几年,内容理解算法的演进可以分为三个方向,一次是从传统的手工特征到神经网络特征的升级,通过大数据和大算力实现效果的明显提升,也极大降低了算法人员的准入门槛;二是对内容的理解从单一模态升级为多模态&跨模态,以及以图神经网络为基础的推理能力;三是极大规模数据的模型学习,即以大规模预训练模型为基础的统一内容表征方式,催生了transformer家族的不断壮大。
然则,算法的性能逐渐接近瓶颈,不论是在看图说话、 情感 分析、还是标签识别等算法任务上距离人类仍然存在一定的距离,并且这份距离看起来短期内没有明确的突破机会。反倒是业界开始从监督学习往无监督学习靠近,试图利用海量数据学到背后的范式,这本质上是对追赶上人类能力的背离。
以transformer为例,百亿数据下训练一次消耗数百块GPU,数周的训练时间才有可能获得明显的效果的提升,这还不包括精细的网络调整的令人沮丧时间成本。此外下游任务想要得到期待的效果,还需要进一步的迁移学习。从表象来看,只是提供一个更好的算法学习的起点。
我们经历了一个业务对我们翘首以待到逐渐理性的合作过程,AI算法从来就无法成为救世主,而是有更强生产力的工具。当然我们不应当过于悲观,起码过往的几年,蓬勃发展的算法体系带来了从业人员的准入门槛极大下降,大众对AI算法的广泛认知也有助于内容理解算法相对长期的旺盛生命力和成长。
二、存量用户时代的内容社区的运营方式
中国互联网用于见顶,意味着各大内容业务必须进入存量用户阶段。存量用户阶段面临的困境是粗放式增长不复出现,用户群体开始细分,用户粘性变得更加艰辛,要求内容社区必须进行精细化运营。精细化运营背后的表现为对效率的要求下降,转而对用户心智和长期的战术保持耐心。这种情况下内容理解算法会成为散落到业务众多需求列表的功能支撑点,独当一面的机会愈发减少。
“从算法学习的角度来看,人的创意,玩法设计,互动属性是目标(ground truth)的天花板,因此此时此刻保持工具属性是相对合理的态度”。
三、下一代的内容消费方式
互联网时代的内容消费经历了文本到图像的升级,再到视频的升级,每一次内容消费升级背后产出对内容理解算法的爆发式增长,那么下一代的内容消费方式又是什么呢?
业界目前正在押注元宇宙,facebook甚至把名字都改成了meta。过去有几波VR/AR的热潮,看起来除了在某些线上成人网站和线下 游戏 设备之外,并未有足够颠覆我们日常生活方式的输出。
人类对更高级的感知外部环境和与他人无时空差别的交互需求是明确存在的,只是它是否由“元宇宙”承载却是个未知数。如果元宇宙是这个载体的话,那么虚拟世界的感情识别,触感生成,自然交互,生态的 健康 治理,超大规模内容消费下的负载下降会是内容理解算法可以尝试去攻克和深耕的全新地带,也会承担更为核心的角色。
“下一代的内容理解消费方式有机会成为内容理解的下一个主战场,但是目前的形势并不明朗,需要我们保持耐心地思考和观望”。
四、其他的可能
抛开头部综合性AI大厂商如网络,腾讯,阿里巴巴,华为等企业作为内容理解多样性需求输出的第一极之外,还有以内容理解算法作为平台能力输出的第二极,比较有名的是AI四小龙(商汤、旷视、依图,云从),以及深度结合各民生领域的产业AI能力输出。
医疗AI,解决医疗资源匮乏导致看病需求无法被满足,人工看诊时间长等问题。比较典型的case是COVID-Moonshot众包协议,由500多名国际科学家共同参与,以加速COVID-19的抗病毒药物研发。
教育AI,解决优质教育资源匮乏导致的分配不公,及教师和学生的信息不对称问题,虽然国家正在推新教育双减政策,但是教育作为一项基本的人身权利应当得到更好的满足,比较知名的企业有松鼠AI,猿辅导等。
制造AI,解决制造车间设备、数量、功能增多、调度分配难度大、需求端个性化要求等问题,利用AI,自动化,IOT,边缘计算,云,5G等手段,充分利用生产车间的海量价值数据,把人从简单重复的劳动中解放出来以从事更高级的任务,帮助提高产量的同时降低缺陷率,比较知名的企业有正在香港上市的创新奇智和创新型工业AI-PASS平台提供商远舢智能等。
此外,还有在智能驾驶、智慧城市、芯片AI等产业领域深度耕耘的各种公司,他们正在充分发挥大数据和AI算法的能力,为各大产业带来源源不断的创新能力。
回到内容理解算法的现存生存环境,仍然存在一定的潜力可以挖掘。在下一代内容消费方式到来之前,可以做得更好,形成与上下游的积极联动,在现在的舞台上展现出更佳的风采。
一、产品
内容理解算法的产品是不是刚需,这个话题有点争议,有人说算法的产出速度是比较慢的,让昂贵的产品角色参与建设本身会存在浪费的情况。我个人认为内容理解算法所对应的产品角色必须具备,因为在庞大的业务体系后面,如果缺失了面向业务需求的自顶向下的内容理解算法体系设计和建设,非常容易出现业务赋能的水土不服。
产品需要考虑的核心问题是如何衡量长期和短期投入,算法是比较精细的工作,对结果的预期是非确定性的,因此需要做好对业务预期的管理以及同业务需求的及时交互。为了保障算法最终在业务的使用效果,前期可以通过简化版本或者半成品算法的产品化方案进行快速试错,帮助业务决策的同时给算法的长期迭代争取空间。此外,针对算法长期迭代设计有效的样本数据回流机制,通过配置化输出给到业务尽可能多的试错方式,以及业务上线使用后的效果实时监控等都是产品需要思考的工作。
二、运营
运营应该是内容理解算法打交道最频繁的相关方,内容理解算法的评价标准和业务适配都需要运营来进行构建和监控。内容理解算法是运营进行内容供给生态和消费生态运营的智能助手,从内容结构化标签角度提供到运营各种分析使用方式,如内容审核、内容圈选,内容人群定投等。
和运营打交道对内容理解算法提出高要求,如何快速衡量需求的合理性及可行性非常关键。有时候内容理解算法做了过度承诺,导致上线效果不佳,影响业务的发展。有时候对算法实现效果的不自信或产品化用法借力不够从而拒绝需求导致业务失去宝贵的试错机会。因此内容理解算法应当对内容运营的链路有相当的掌握,可以和运营一起定义全链路算法能力,从应用的视角推进算法需求的合理有序的开展。
三、生产者
生产者对于平台来说至关重要,巧妇难为无米之炊,不论运营和分发算法多么牛逼,缺少了高质量的内容生产来源,业务是不可能有持续增长的。通常情况下两千优质生产者加上数万的普通生产者即可支撑起千万DAU的业务,如何服务好这部分生产者对平台来说非常关键。
内容理解算法和生产者目前的主要交互方式包括几个方面,一是在内容生产的时候给到生产者的内容元素的智能推荐,如话题,标题,配乐的推荐等;二是进行内容展现效果的提升,如滤镜,贴纸,美颜,画质增强等;三是从质量层面给予生产者指导和管控,包括从业务视角给到生产者发布的内容大致因为何种理由不被平台采纳,内容高热趋势消费榜单,内容的版权保护等。
从生产者视角来看,尽可能多地从平台获取流量或者商业化价值是根本追求,因此往往会出现对平台规则的不断试探以攫取利益,如发布大量的擦边球或危言耸听的内容。内容理解算法需要在内容供给规模不断变大的情况下帮助平台保持 健康 的生态和有效的流量分配同时尽可能给到生产者更多指导。这种相爱相杀的关系也给内容理解算法带来了不少的挑战和生存空间。
四、分发算法和消费者
把分发算法和消费者放在一起的核心逻辑是内容理解算法绝大部分情况下是需要通过分发算法和消费者打交道的。从消费者视角观察,高活用户代表主流心智,如何服务好这波群体关系到业务的生存问题。中低活用户是平台的增量所在,持续加强这部分用户的平台粘性是关键任务(这里会有部分用户的出逃,为了维护平台的心智,这部分的牺牲是可接受的)。分发算法承担了把海量内容做负载下降后根据用户的长短期兴趣进行推荐的使命,分发算法是需要秉承平台意志的,用于进行内容的流量调配用于影响消费者的体感和心智,给平台带来源源不断的生机。
早期编辑为主的内容分发模式下,消费者是被教育的对象,一天之内能够看到的新鲜内容是非常少的,这种情况导致消费者的浏览深度和时长是受限的。个性化推荐模式下,用户的兴趣被极致放大,由于相关内容和新鲜内容的快速推送,消费者会感受到强烈的沉浸式消费体感。然而内容的多样性,消费体感的持续维护,兴趣的拓展等变得非常重要,这给分发算法的精准性提出很高要求。提供分发算法细粒度的识别能力是内容理解算法可以大展身手的机会,内容是否具备不错的分发潜力以加大分发流量?内容的适合人群是什么?用户无序浏览背后的核心兴趣是什么?软色情/部分人群不喜好内容(蛇虫宠物)如何精准识别用以分发调控等问题都是分发算法难以触达的地方,这些命题正是内容理解算法可以深入研究并影响内容分发和消费的重要方面。
除了特定的场景(如互动玩法,个性化封面图等),内容理解算法应当恪守自己在内容生命周期的参与广度。涉及到内容的分发和消费,内容理解算法应当把自己定义为分发算法不可或缺的助力,而不是试图去做替换,站在内容理解算法视角,分发算法可以约等于消费者。以饭馆运作为例,分发算法是大厨,根据消费者的口味和食材和菜谱提供个性化的食物服务。内容理解算法可以对食材进行质量管控,研发新的菜谱,在必要的时候提供半成品的菜品。和消费者的交互交由分发算法来处理,毕竟术业有专攻,内容理解算法可以在对内容的深度理解和消费者洞察上做纵向的深入,提供更多的可能性,包括生态、多样性、内容保量等。
内容理解算法和分发算法的理想态是正和 游戏 ,零和 游戏 对双方都是没有意义的,因此这里额外对内容理解算法提出的要求是在内容消费场景建立一套相对客观的评价体系,通过算法的标准化评估进行上线流程的加速,通过不断的快速试错给分发算法提供更多枪支弹药。
五、工程&数据分析
一个好汉三个帮,内容理解算法背后也站着一群小伙伴,面向算法生产的大规模工程基础设施和面向算法洞察的数据分析能力可以帮助内容理解算法更好的发展。在内容爆炸式增长的今天,高效的算法工程体系非常关键,甚至是拉开不同公司差距的最重要手段之一。有个非常明显的例子,在业界举办的各种算法大赛上,只要是大型互联网公司参赛基本上都会出现霸榜的情况,这背后是模型训练效率的强大先发优势,拥有百块级别GPU并发训练能力的高校是非常少的。此外以通用向量检索功能为例,百亿级的向量索引能力在有限的算力和内存消耗下稳定运行起来是需要大量的工程优化手段的,而这个功能对算法的高效使用至关重要。
服务于内容理解算法,数据分析有非常多的应用。根据消费统计行为构建面向内容兴趣的用户画像,风向趋势内容消费对供给的指导,层次耦合的内容标签的合理挂靠关系,算法上线前的有效性分析,及算法上线后持续监控和异常告警等。
内容理解算法需要做的是面向业务场进行完整的架构设计,从算法的效率角度,包括算法服务效率,算法洞察视角等方面联动工程&数据分析提供强大的生产力,通过规模和系统厚度构建足够的技术门槛。
2021年对中国互联网,甚至是中国 社会 的前行都是不同寻找的一年,在全球经济下行,国家间人为壁垒构建的情况下,恰恰又遭遇了国内人口增长的停滞,国家对互联网平台的强管控,以及互联网用户渗透的见顶。
内容理解算法背后的AI算法体系多少也收到了波折,不过从整体形势来看,AI算法体系和产业化仍然在往前走。基础理论研发体系中对应的论文发表、会议举办及大赛的举行和参赛人员的规模都在增长。这两年的遇冷问题主要是受到市场大环境的影响,AI占总体投资的比重仍然在上升。从国内方面来看,全球经济的技术封锁进一步坚定了中国立足自主创新的决心和信心,国家十四五计划也明确提出了大数据,人工智能,VR/AR的产业发展规划,AI产业仍然有很强的潜力值得挖掘。
作为依附于业务的内容理解算法,需要有清晰的自我认知和定位。我们的核心价值是什么?它如何得到有效的定义和量化?作为服务于业务众多角色中的一员,如何做好同其他角色的正向互动?上述问题背后的答案代表了内容理解算法的核心作用。现在的算法界有一股投机风,什么热门就搞什么,有号称无需数据标注的无监督学习,有号称可以效果对标大量标注样本的小样本学习,有号称单个算法模型打遍天下的多模态预训练学习等等。如果从问题抽象简化的角度去研究基础的理论体系和算法学习范式是没有问题的,但是如果业务的算同学也把这类概念摆在嘴上是有问题的,脱离了业务场景的核心诉求去谈技术创造新商业,是一种对客户的傲慢,属于典型的机械主义。
作为深度结合业务的内容理解算法,应当从业务场景出发,结合算法的可行性去 探索 用于业务赋能的核心技术,对于明确可以产生正向业务价值的算法技术,哪怕需要较长一段时期的打磨,也要敢于投注建设,在算法研发的过程中不断地思索业务的更多可能性,逐渐把业务的不确定性转化为技术的相对确定性。对于较长时间无法形成对业务贡献的算法,应当果断放弃深入研究,当然作为技术观望跟进是没有问题的。
从目前形势来看,内容理解算法的发展确实碰到了一些困难,但我们可以保持对未来的谨慎乐观,期待下一代内容消费形态的来临,同时尽可能多地进行业务场景的细化进行能力输出和加强,把存量业务价值做好放大,通过算法自身的持续建设,为将来可能来临的那一刻做好技术储备。
⑤ 图计算应用场景有哪些
图计算模型在大数据公司,尤其是IT公司运用十分广泛。近几年,以深度学习和图计算结合的大规模图表征为代表的系列算法发挥着越来越重要的作用。图计算的发展和应用有井喷之势,各大公司也相应推出图计算平台,例如Google Pregel、Facebook Giraph、腾讯星图、华为GES、阿里GraphScope等。
GraphScope 是阿里巴巴达摩院实验室研发的一站式图计算平台。GraphScope 提供 Python 客户端,能十分方便的对接上下游工作流。它具有高效的跨引擎内存管理,在业界首次支持 Gremlin 分布式编译优化,同时支持算法的自动并行化和支持自动增量化处理动态图更新,提供了企业级场景的极致性能。GraphScope 已经证明在多个关键互联网领域(如风控,电商推荐,广告,网络安全,知识图谱等)实现重要的业务新价值,其代码当前已在github/alibaba/graphscope 上开源,以供更多开发者使用。