‘壹’ 成为一名 AI 算法工程师,你需要具备哪些能力
这是一篇关于如何成为一名 AI 算法工程师的长文~经常有朋友私信问,如何学 python 呀,如何敲代码呀,如何进入 AI 行业呀?这里总结了成为AI算法工程师所需要掌握的一些要点,看看你距离成为一名 AI 工程师还有多远吧~
一、程序编写
如同大部分应用软件程序流程的开发设计一样,开发者也在应用多语种来撰写人工智能技术新项目,可是如今都还没一切一种极致的计算机语言是能够 彻底大圣配人工智能技术新项目的。计算机语言的挑选通常在于对人工智能技术程序流程的期待作用。
因为其英语的语法,简易性和多功能化,Python变成开发者最爱的人工智能技术开发设计计算机语言。Python最触动内心的地区之一就是说便携式,它能够 在Linux、Windows、MacOS和UNIX等服务平台上应用。容许客户建立互动式的、表述的、模块化设计的、动态性的、可移植的和高级的编码。
此外,Python是一种多现代性计算机语言,适用面向对象编程,全过程式和作用式程序编写设计风格。因为其简易的函数库和理想化的构造,Python适用神经元网络和NLP解决方法的开发设计。
变成一个达标的AI数据工程师必须灵活运用python基本英语的语法、python句子和表述句、python中的涵数与控制模块、python面向对象编程及其python文字实际操作。把握面向对象编程数据信息编程技术,都是为中后期的AI学习培训奠定扎扎实实的程序编写工作能力。
二、数学课
要学习培训人工智能技术,最基础的高数、线代、摡率论务必把握,最少也得会高斯函数、矩阵求导,搞清楚梯度下降是什么原因,不然针对实体模型的基本概念彻底不可以了解,实体模型调参加训炼也就无从说起了。
高数
高数必须把握的有关内容包含涵数、数列、极限、最后、极值与最值、威廉姆斯指数值和系数。
线性代数
线性代数的内容包含行列式、引流矩阵、最小二乘法、矢量的线性相关性、引流矩阵的初等变换和秩、线性方程组的解和矩阵特征值
概率统计
概率统计里的恶性事件、几率、贝叶斯定理、概率分布、期待与方差与参数估计
了解数学思维训练管理体系在深度神经网络中的运用,能够 了解深度神经网络中常见的数学函数公式,可以用python程序编写保持常见的数学课优化算法。
三、深度神经网络
深度神经网络一部分包含MLP实体模型、CNN卷积神经网络、RNN循环系统神经元网络、GAN生成式抵抗神经元网络等。
MLP实体模型
必须具有了解双层感知机的运作全过程和基本原理,并可以构建双层感知机实体模型。
CNN卷积神经网络
把握怎么使用CNN互联网解决室内空间难题,如照片、视频等数据信息。了解卷积、池化,及其反卷积、反池化的全过程和基本原理。而且可以构建有关的卷积互联网实体模型。
RNN循环系统神经元网络
把握怎么使用RNN解决时间序列难题,如智能化回复、智能翻译等。了解循环系统神经元网络RNN和LSTM、GRU的运作全过程和基本原理。可以构建有关的循环系统神经网络模型训炼与提升。
GAN生成式抵抗神经元网络
让神经元网络具有造就工作能力,了解生成式抵抗神经元网络和其变异互联网的基本原理,并可以构建变分自编号的互联网实体模型训炼和提升,可保持图象转化成、视频语音转化成等。
四、新项目实战演练
开展一些新项目实战演练针对你的工作经验累积是十分有利的。
人工智能技术图象/视觉行业数据工程师应当具有的新项目实践经验:YOLOV3多物块跟踪/CenterLoss图像识别技术/Mask-RCNN图像分割。
可以解决多总体目标跟踪,图像识别技术、图象隔开、图象核对等应用领域新项目。而且根据新项目能学得许多 工程项目方法,具体新项目中训炼实体模型的方式 和调参的工作经验。掌握了这些,你的AI算法工程师之路就能更近一步啦~
‘贰’ 抖音ai绘画的算法有哪些
抖音应用的ai技术,抖音快手ai算法机制有哪些
1.
物体/动作检测技术 这一类应该是最早应用在短视频内容创作上的,包括很多自拍相机也有类似的功能。比如眨眼睛、吐舌头、比各种手势来触发一些特效,这些是基于人脸的。同理,基于一些生活中的图标、物体检测来触发一些特效。 图2 比心特效
2.
美颜、美妆、美体、美牙等人像美化功能
‘叁’ AI教育靠谱吗现在发展怎么样
AI教育是靠谱的,是科技带动教育的产物。但是效果却是因人而异的,建议各位家长可以带孩子去尝试看看。‘肆’ 算法在研发阶段,对AI数据标注行业有什么样的需求
研发阶段是对新建算法的训练。在这个阶段,算法经历了从0到1的过程,对数据量级需求较大,初期多采用标准数据集产品训练,中后期则需要专业的数据定制采标服务。
‘伍’ 仿生智能算法与ai芯片的关系
仿生智能算法与ai芯片的关系
仿生智能算法是软件,ai芯片是硬件。
仿生智能,从字面的意思上我们就能了解到其本质的概貌,“仿生”就是尽可能滴模仿真正人体,“智能”就是它要能够明白想要做什么,同时它又可以通过一些软件的方式,来实现一些个人的定制化的功能。进而为人类服务。
‘陆’ 人工智能需要什么基础
1、核心三要素——算力、算法、数据(三大基石):
算法、算力、数据作为人工智能(AI)核心三要素,相互影响,相互支撑,在不同行业中形成了不一样的产业形态。随着算法的创新、算力的增强、数据资源的累积,传统基础设施将借此东风实现智能化升级,并有望推动经济发展全要素的智能化革新。让人类社会从信息化进入智能化。
(1)算力:
在AI技术当中,算力是算法和数据的基础设施,支撑着算法和数据,进而影响着AI的发展,算力的大小代表着对数据处理能力的强弱。
(2)算法:
算法是AI的背后“推手”。
AI算法是数据驱动型算法,是AI的推动力量。
(3)数据:
在AI技术当中,数据相当于AI算法的“饲料”。
机器学习中的监督学习和半监督学习都要用标注好的数据进行训练,由此催生了大量数据标注公司,它们将处于未经处理的初级数据,转换为机器可识别信息。只有经过大量的训练,覆盖尽可能多的各种场景才能得到一个良好的模型。
2、技术基础:
(1)文艺复兴后的人工神经网络。
人工神经网络是一种仿造神经元运作的函数演算,能接受外界资讯输入的刺激,且根据不同刺激影响的权重转换成输出的反应,或用以改变内部函数的权重结构,以适应不同环境的数学模型。
(2)靠巨量数据运作的机器学习。
科学家发现,要让机器有智慧,并不一定要真正赋予它思辩能力,可以大量阅读、储存资料并具有分辨的能力,就足以帮助人类工作。
(3)人工智能的重要应用:自然语言处理。
自然语言处理的研究,是要让机器“理解”人类的语言,是人工智能领域里的其中一项重要分支。
自然语言处理可先简单理解分为进、出计算机等两种:
其一是从人类到电脑──让电脑把人类的语言转换成程式可以处理的型式;
其二是从电脑回馈到人──把电脑所演算的成果转换成人类可以理解的语言表达出来。
‘柒’ 如何成为AI人工智能算法工程师
我在学校也打了python,做了一个履带式演示或类似的东西,因为时间不长,我把它放在一旁。明确的目标,例如,如果您想进行NLP,则需要知道NLP的应用程序具有智能的问题解答,机器翻译,搜索引擎等。然后,如果要进行智能问题解答,则必须知道最先进的技术是深度学习,并且使用的算法是RNN/LSTM/Seq2Seq
/等。我明确的目标是在实习期间给我任务。当任务清晰时,所需的语言就清晰了,要学习的算法也就清晰了,并且很多事情都是合乎逻辑的。
从金融到技术
人工智能的应用非常广泛,每个研究方向都是无限的。由于金融公司很少与图像处理和诸如NLP之类的技术进行交互,因此我强烈的好奇心使我决定去纯粹的技术公司进行调查。致力于智能家居,目标是Javis
人工智能/机器学习/深度学习
我经常在公交车的广告牌上看到这些字眼,好像没有该技术的公司会落后一样。还有各种学习,例如强化学习,迁移学习,增量学习。
这些话之间是什么关系机器学习是人工智能的一种,而深度学习是机器学习的一种。在学习机器学习之前先学习AI。
计算机“算法”与数学“算法”之间的区别
理论知识对于AI算法工程师来说非常重要。敲代码只是想法的实现过程。这里的“算法”与计算机CS的“算法”不同。
AI算法是从数学上推导的,因此仍然需要学习数学基础。学习越深入,要求越高。在面试期间,极少允许使用手写代码,并且90%的人要求模型挑选算法细节。
在学校里,我是一个不喜欢做笔记的人,甚至是一个不喜欢上课的人。但是自从我进入机器学习之路以来,笔记就开始腾飞了〜
‘捌’ 各类场景应用中涉及的AI算法汇总
整理了各类场景应用中AI算法
一、图像CV
内容安全,目标检测,图像识别,智能视觉生产,图像搜索,图像分割,物体检测,图像分类,图像标签,名人识别,概念识别,场景识别,物体识别,场景分析,智能相册,内容推荐,图库管理,网红人物识别,明星人物识别,图像搜索,商品图片搜索,版权图片搜索,通用图片搜索,车牌识别,垃圾分类,车辆检测,菜品识别,车型识别,犬类识别,实例分割,风格迁移,智能填充,智能识图,拍照搜商品,精准广告投放,电商导购,图像分析,图像理解,图像处理,图像质量评估,场景识别,物体识别,场所识别,图像自训练平台,图像分类,目标检测,图像分割,关键点检测,图像生成,场景文字识别,度量学习,图像识别,图像比对,图像分类使用手册,图像分类API文档目标检测使用手册,目标检测API文档Logo检测使用手册,Logo检测API文档,通用图片搜索,车牌识别,垃圾分类,车辆检测,车型识别,犬类识别,实例分割,风格迁移,智能填充,车牌识别,相册聚类,场景与物体识别,无限天空,图像识别引擎,黄色图片识别,暴力图像识别,工业轮胎智能检测,肋骨骨折识别,显微识别,图像处理,广告识别,人脸算法,人体算法,图像识别,图像增强,OCR,图像处理,ZoomAI,智能贴图,智能制作,质量评价,图像识别,智能鉴黄,图像识别,实时手写识别,唇语识别,通用文字识别,手写文字识别,图像技术,图像识别,图像审核,图像搜索,图像增强,图像特效,车辆分析,图像生成,绘画机器人独家,动漫化身独家,像素风独家,超清人像独家,图像融合,换脸技术,神奇变脸,图像风格化,证件照生成,线稿图像识别,宝宝检测,图像分类,圉像深度估计,天空分割,食物分割,猫狗脸技术,食物识别独家,图像美学评分,车辆分析,车型识别,车型识别(含指导价),车型识别(含配置参数),车标识别,人脸识别(活体),车牌识别,表情识别,安全帽识别,计算机影像,计算机视觉,聚焦光学字符识别、人脸识别、质检、感知、理解、交互,图像视频分析,Logo检测,内容审核,智能批改,笔记评估,思维导图评估,物体检测,物体识别。
二、人脸、体态、眼瞳、声音、指纹
人脸分割人脸识别,无,人体分析HAS,识别人的年龄,性别,穿着信息,客流统计分析,智能客服,热点区域分析,人体检测,人脸口罩识别,人脸对比,人脸搜索,人脸检测与属性分析,人脸活体检测,人体关键点检测,行人重识别,细粒度人像分割,人像分割,人脸解析,3D人体姿态估计,人脸融合,人脸识别,换脸甄别,人脸支付,人脸核身,人像变换,人脸试妆,人脸融合,人体分析,手势识别,人脸验证与检索,人脸比对,人脸比对sensetime,人脸水印照比对,静默活体检测,静默活体检测sensetime,人脸检测和属性分析,人脸特征分析tuputech,配合式活体检测,人脸安防,计算机视觉,智能应用服务,人脸查询人脸分析人脸统计名单库管理人脸布控,人脸应用,人体应用,人体查询,车辆查询车辆分析车辆统计车辆布控车辆名单库管理,车辆应用,人脸图像识别人体图像识别车辆图像识别,图像识别,图像比对,人脸比对,人体检测,人脸口罩识别,人脸对比,人脸搜索,人脸检测与属性分析,人脸活体检测,人体关键点检测,行人重识别,细粒度人像分割,人像分割,人脸解析,3D人体姿态估计,人脸融合,人脸识别,人脸检测,人脸比对,人脸搜索,人脸关键点,稠密关键点,人脸属性,情绪识别,颜值评分,视线估计,皮肤分析,3D人脸重建,面部特征分析人体识别,人体检测,人体关键点,人体抠像,人体属性,手势识别人像处理,美颜美型,人脸融合,滤镜,声纹识别支付,语音合成,语音合成,声纹识别,语音唤醒,人脸识别引擎,摄像头人脸识别,图片人脸检测,身份识别,人脸识别,人脸属性,人体识别,声纹识别,衣服检索及聚类,语音分析,声纹识别,说话人归档,人脸和人体识别,人脸检测,手势识别,人脸与人体识别,人脸识别云服务,人脸识别私有化,人脸离线识别SDK,人脸实名认证,人像特效,人体分析,人脸技不,皮肤分析独家,头部分割,宏观人脸分析,人脸关键点检测,微观人脸分析独家,头发分析独家,五官分割,头发分割人体技术,人体外轮廓点检测独家,精细化人像抠图,人体框检测,肢体关键点检测,人像分割,服饰识别,手势识别,皮肤分割,人脸,说话人识别,人脸检测识别,人脸1:1比对,人脸检测,AI人脸/人形车辆,大数据人像图片防伪,QoS保障,CDN,表情识别,举手动作识别,人脸检测,网络切片,边缘计算,人脸分析,人脸检测,人脸搜索,人体分析,手势识别,着装检测,人脸识别,行为检测,人脸识别,人形检测,行为分析,人脸检测,人脸跟踪,人脸比对,人脸查找,人脸属性分析,活体检测,声音指纹,声纹识别。
三、视频
视频分割、视频处理、视频理解、智能视觉、多媒体,视频内容分析,人体动作监控,视频分类,智能交通,人/动物轨迹分析,目标计数,目标跟踪,视频编辑-,精彩片段提取,新闻视频拆分,视频摘要,视频封面,视频拆条,视频标签-,视频推荐,视频搜索,视频指纹-,数字版权管理,广告识别,视频快速审核,视频版权,视频查重,视频换脸,车辆解析, 体育 视频摘要,视频内容分析,颜色识别,货架商品检测, 时尚 搭配,危险动作识别,无,无,视频,视频换脸,车辆解析, 体育 视频摘要,视频内容分析,颜色识别,货架商品检测, 时尚 搭配,危险动作识别,菜品识别,视频识别引擎,结肠息肉检测,胃镜评估系统,视频标签,场景识别,客流分析,手势识别,视频技术,短视频标签,视觉看点识别,动态封面图自动生成,智能剪辑,新闻拆条,智能插帧,视频技术,多模态媒资检索公测中,媒体内容分析,媒体内容审核,视频生成,视频动作识别,
四、ocr文字识别
手写识别,票据识别,通用文档,通用卡证,保险智能理赔,财税报销电子化,证照电子化审批,票据类文字识别,行业类文字识别,证件类文字识别,通用类文字识别,通用文字识别,驾驶证识别,身份证识别,增值税发票识别,行驶证识别,营业执照识别,银行卡识别,增值税发票核验,营业执照核验,智能扫码,行业文档识别, 汽车 相关识别,票据单据识别,卡证文字识别,通用文字识别,手写文字识别,印刷文字识别,银行卡识别,名片识别,身份证识别intsig,营业执照识别intsig,增值税发票识别intsig,拍照速算识别,公式识别,指尖文字识别,驾驶证识别JD,行驶证识别JD,车牌识别JD,身份证识别,增值税发票识别,营业执照识别,火车票识别,出租车发票识别,印刷文字识别(多语种),印刷文字识别(多语种)intsig内容审核,色情内容过滤,政治人物检查,暴恐敏感信息过滤,广告过滤,OCR自定义模板使用手册,OCR自定义模板API文档,通用文字识别,驾驶证识别,身份证识别,增值税发票识别,行驶证识别,营业执照识别,银行卡识别,身份证识别,驾驶证识别,行驶证识别,银行卡识别,通用文字识别,自定义模板文字识别,文字识别引擎,身份证识别,图片文字识别,通用文字识别,身份证识别,名片识别,光学字符识别服务,通用文字识别,手写体文字识别,表格识别,整题识别(含公式),购物小票识别,身份证识别,名片识别,自定义模板文字识别,文字识别,通用文字识别,银行卡识别,身份证识别,字幕识别,网络图片识别, 游戏 直播关键字识别,新闻标题识别,OCR文字识别,通用场景文字识别,卡证文字识别,财务票据文字识别,医疗票据文字识别, 汽车 场景文字识别,教育场景文字识别,其他场景文字识别,iOCR自定义模板文字识别,通用类OCR,通用文本识别(中英)通用文本识别(多语言)通用表格识别,证照类OCR,身份证社保卡户口本护照名片银行卡结婚证离婚证房产证不动产证,车辆相关OCR,行驶证驾驶证车辆合格证车辆登记证,公司商铺类OCR,商户小票税务登记证开户许可证营业执照组织机构代码证,票据类OCR,增值税发票增值税卷票火车票飞机行程单出租车发票购车发票智能技术,票据机器人证照机器人文本配置机器人表格配置机器人框选配置机器人,文字识别,行驶证识别,驾驶证识别,表单识别器,通用文本,财务票据识别,机构文档识别,个人证件识别,车辆相关识别,通用表格,印章识别,财报识别,合同比对,识别文字识别,签名比对,OCR识别,教育OCR,印刷识别,手写识别,表格识别,公式识别,试卷拆录
五、自然语言NPL
文本相似度,文本摘要,文本纠错,中心词提取,文本信息抽取,智能文本分类,命名实体,词性标注,多语言分词,NLP基础服务,地址标准化,商品评价解析智能短信解析,机器阅读理解,金融研报信息识别,法律案件抽取,行业问答推理,行业知识图谱构建,文本实体关系抽取,搜索推荐,知识问答,短文本相似度,文本实体抽取, 情感 倾向分析,兴趣画像匹配,文本分类-多标签,文本分类-单标签,定制自然语言处理,语言生成,语言理解,自然语言处理基础,文本摘要,数据转文字,文本生成,智能问答系统,内容推荐,评价分析,文本分类,对话理解,意图理解, 情感 分析,观点抽取,中文分词,短文本相似度,关键词提取,词向量,命名实体,识别依存,句法分析, 情感 分析,评论观点抽取,短文本相似度,机器翻译,词法分析,词义相似度,词向量,句法分析,文本分类,短语挖掘,闲聊,文本流畅度,同义词,聚类,语言模型填空,新闻热词生成,机器阅读理解,商品信息抽取,词法分析, 情感 分析,关键词提取,用户评论分析,资讯热点挖掘,AIUI人机交互,文本纠错,词法分析,依存句法分析,语义角色标注,语义依存分析(依存树),语义依存分析(依存图), 情感 分析,关键词提取,NLP能力生产平台,NLP基础技术,中文词法分析-LAC,词向量—Word2vec,语言模型—Language_model,NLP核心技术, 情感 分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答,信息检索、新闻推荐、智能客服, 情感 分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答,机器问答、自然语言推断、 情感 分析和文档排序,NLP系统应用,问答系统对话系统智能客服,用户消费习惯理解热点话题分析舆情监控,自然语言处理,文本分类使用手册,文本分类API文档, 情感 分析,评论观点抽取,短文本相似度,机器翻译,词法分析,词义相似度,词向量,句法分析,文本分类,短语挖掘,闲聊,文本流畅度,同义词,聚类,语言模型填空,新闻热词生成,机器阅读理解,商品信息抽取智能创作,智能写作,搭配短文,种草标题,卖点标题,社交电商营销文案,自然语言处理能力,基础文本分析,分词、词性分析技术,词向量表示,依存句法分析,DNN语言模型,语义解析技术,意图成分识别, 情感 分析,对话情绪识别,文本相似度检测,文本解析和抽取技术,智能信息抽取,阅读理解,智能标签,NLG,自动摘要,自动写文章,语言处理基础技术,文本审核, 情感 分析,机器翻译,智能聊天,自然语言,基于标题的视频标签,台词看点识别,意图识别,词法分析,相关词,舆情分析,流量预测,标签技术,自然语言处理,语义对话,自然语言处理,车型信息提取,关键词提取,语义理解,语义相似度,意图解析,中文词向量,表示依存,句法分析,上下文理解,词法分析,意图分析,情绪计算,视觉 情感 ,语音 情感 , 情感 分析,沉浸式阅读器,语言理解,文本分析,自然语言处理,在线语音识别,自然语言理解火速上线中, 情感 判别,语义角色标注,依存句法分析,词性标注,实体识别,中文分词,分词,
6、知识图谱
知识图谱,药学知识图谱,智能分诊,腾讯知识图谱,无,药学知识图谱,智能分诊,知识理解,知识图谱Schema,图数据库BGraph,知识图谱,语言与知识,语言处理基础技术,语言处理应用技术,知识理解,文本审核,智能对话定制平台,智能文档分析平台,智能创作平台,知识图谱,实体链接,意图图谱,识别实体,逻辑推理,知识挖掘,知识卡片
7、对话问答机器人
智能问答机器人,智能语音助手,智能对话质检,智能话务机器人,无,电话机器人,NeuHub助力京东智能客服升级,腾讯云小微,智能硬件AI语音助手,对话机器人,无,问答系统对话系统智能客服,Replika对话技术,客服机器人,智能问答,智能场景,个性化回复,多轮交互,情绪识别,智能客服,金融虚拟客服,电话质检,AI语音交互机器人,中移云客服·智能AI外呼,人机对话精准语义分析
8、翻译
协同翻译工具平台,电商内容多语言工具,文档翻译,专业版翻译引擎,通用版翻译引擎,无,机器翻译,无,机器翻译,音视频字幕平台,机器翻译,机器翻译niutrans,文本翻译,语音翻译,拍照翻译,机器翻译,机器翻译,文本翻译,语音翻译,通用翻译,自然语言翻译服务,文本翻译,图片翻译,语音翻译,实时语音翻译,文档翻译(开发版,机器翻译,文本翻译,语音翻译,拍照翻译,机器翻译实时长语音转写,录音文件长语音转写,翻译工具,机器翻译火速上线中
9、声音
便携智能语音一体机,语音合成声音定制,语音合成,一句话识别,实时语音识别录音文件识别,客服电话,语音录入,语音指令,语音对话,语音识别,科学研究,安防监控,声音分类,语音合成,语音识别,实时语音转写,定制语音合成,定制语音识别,语音合成,语音合成声音定制,离线语音合成,短语音识别,录音文件识别,声纹识别,离线语音识别,实时语音识别,呼叫中心短语音识别,呼叫中心录音文件识别,呼叫中心实时语音识别,语音识别,语音合成,声纹识别,语音识别,语音听写,语音转写,实时语音转写,语音唤醒,离线命令词识别,离线语音听写,语音合成,在线语音合成,离线语音合成,语音分析,语音评测,性别年龄识别,声纹识别,歌曲识别,A.I.客服平台能力中间件,语音识别,语音交互技术,语音合成,语音合成声音定制,离线语音合成,短语音识别,录音文件识别,声纹识别,离线语音识别,实时语音识别,呼叫中心短语音识别,呼叫中心录音文件识别,呼叫中心实时语音识别,远场语音识别,语音识别,一句话识别,实时语音识别,录音文件识别,语音合成,实时语音识别,长语音识别,语音识别,语音合成,波束形成,声源定位,去混响,降噪,回声消除,分布式拾音,语音识别,语音唤醒,语音合成,声纹识别,智能语音服务,语音合成,短语音识别,实时语音识别,语音理解与交互,离线唤醒词识别,语音识别,一句话识别,实时语音识别,录音文件识别,电话语音识别,语音唤醒,离线语音识别,离线命令词识别,远场语音识别,语音合成,通用语音合成,个性化语音合成,语音技术,短语音识别,实时语音识别,音频文件转写,在线语音合成,离线语音合成,语音自训练平台,语音交互,语音合成,语音识别,一句话识别,实时短语音识别,语音合成,语音唤醒,本地语音合成,语音翻译,语音转文本,短语音听写,长语音转写,实时语音转写,语音内容审核,会议超极本,语音交互技术,语音识别,语义理解,语音合成,音频转写,音视频类产品,语音通知/验证码,订单小号,拨打验证,点击拨号,数据语音,统一认证,语音会议,企业视频彩铃,语音识别,语音文件转录,实时语音识别,一句话语音识别,语音合成,通用语音合成,个性化语音合成,语音评测,通用语音评测,中英文造句评测,在线语音识别,语音识别,语音唤醒,语音合成,语音合成,语音识别,语音听写,语音转写,短语音转写(同步),语音识别,语音 情感 识别
十、数据挖掘AI硬件
算法类型:包括二分类、多分类和回归,精准营销,表格数据预测,销量预测,交通流量预测,时序预测,大数据,无,机器学习使用手册,机器学习API文档,大数据处理,大数据传输,数据工厂,大数据分析,数据仓库,数据采集与标注,数据采集服务,数据标注服务,AI开发平台,全功能AI开发平台BML,零门槛AI开发平台EasyDL,AI硬件与平台,GPU云服务器,机器人平台,度目视频分析盒子,度目AI镜头模组,度目人脸应用套件,度目人脸抓拍机,人脸识别摄像机,昆仑AI加速卡,智能预测,购车指数,数据科学虚拟机,平台效率,云与AI,抗DDoS,天盾,网站漏洞扫描,网页防篡改,入侵检测防护,弹性云服务器,对象存储服务,云专线(CDA,AI计算机平台—360net深度学习基础模型,AI算法训练适配主流AI框架
十一、其他
内容审核,智能鉴黄,特定人物识别,通用图片审核,文本智能审核,广告检测,Logo检测,商品理解,拍照购,商品图片搜索,通用商品识别,疫情物资识别,酒标识别,细分市场划分,品牌竞争力分析,老品升级,新品定制,商品竞争力分析,商品销量预测,商品营销,用户评论占比预测,商品命名实体识别,商品颜色识别,强化学习,智能地图引擎,内容审核,智能鉴黄,特定人物识别,通用图片审核,文本智能审核,广告检测,Logo检测商品理解,拍照购,商品图片搜索,通用商品识别,疫情物资识别,酒标识别,细分市场划分,品牌竞争力分析,老品升级,新品定制,商品竞争力分析,商品销量预测,商品营销,用户评论占比预测,商品命名实体识别,商品颜色识别,个性化与推荐系统,推荐系统,舆情分析,舆情标签,智慧教育,智能语音评测,拍照搜题,题目识别切分,整页拍搜批改,作文批改,学业大数据平台,文档校审系统,会议同传系统,文档翻译系统,视频翻译系统,教育学习,口语评测,朗读听书,增强现实,3D肢体关键点SDK,美颜滤镜SDK,短视频SDK,基础服务,私有云部署,多模态交互,多模态 情感 分析,多模态意图解析,多模态融合,多模态语义,内容审查器,Microsoft基因组学,医学人工智能开放平台,数据查验接口,身份验证(公安简项),银行卡验证,发票查验,设备接入服务Web/H5直播消息设备托管异常巡检电话提醒,音视频,视频监控服务云广播服务云存储云录制,司乘体验,智能地图引擎,消息类产品,视频短信,短信通知/验证码,企业挂机彩信,来去电身份提示,企业固话彩印,模板闪信,异网短信,内容生产,试卷拆录解决方案,教学管理,教学质量评估解决方案,教学异常行为监测,授课质量分析解决方案,路况识别,人车检测,视觉SLAM,高精地图,免费SDK,智能诊后随访管理,用药管家,智能预问诊,智能导诊,智能自诊,智能问药,智能问答,裁判文书近义词计算,法条推荐,案由预测,
‘玖’ 【硬核技术文】研发绩效,AI算法的完美舞台
作者 | 胡豫陇
清华大学博士后
方云智能团队核心成员,AI算法应用专家
方云创始团队具有深厚技术研发和企业管理经验,依托长期行业积累和对数字化产业的深刻理解,以数字化方式评价研发团队,驱动企业精确度量研发组织及个人的工作效能,合理调配研发资源。帮助技术决策者精确测评研发组织绩效(便于向上汇报、平级沟通)和个人绩效(便于向下管理)。回顾2020年度,我们在数据分析方面,基于实际用户数据做了大量尝试,取得了显着成效,并将研究成果转化为实际应用,深度提升了产品能力。
(一)算法研究过程
算法研究的基础是数据,无论是基于数学和经验知识的建模分析,还是基于统计学和机器学习的数据分析,都需要依托数据来开展。
算法研究的第一步 ,我们建 立了自主的数据指标体系,并在这个指标体系基础上,开展后续的研究。 指标体系由三级指标组成,一级为最基础元数据,二级指标由一级指标计算得到、三级指标由二级指标和一级指标计算得到。一般来说,高级指标具有更高的信息密度,在进行信息表征时,也能够实现更加深度的信息传达效果。但另一方面,数据分析时并不是选择的高级指标越多,越有效果。而是要根据具体场景和算法要求,选择必要的各级指标,才能达到所需的分析效果。例如在kmeans算法中,低级别指标反而具有更好的分类效果,而在SVM算法中,则需要高级别指标。
研究的第二步,Kmeans。 我们鉴于元数据收集较为完整,同时数据量不是很大的情况,结合sklearn的算法选择引导图,选择了Kmeans算法对员工的行为数据进行无监督学习聚类。
在选择了若干基础指标数据的同时,我们引入RFM思想,将员工在指定周期内的工作新鲜度(R)、工作频次(F)和工作量(M)也作为聚类指标,一并用于算法聚类,取得了十分明显的分类效果。这里的核心在于我们不仅通过基础指标评价了员工的工作结果数据,还通过RFM方法评价了员工的工作过程数据。将这两类数据相结合做出的聚类,能够很好的对员工进行分类表征。分类结果的解读可以直接根据指标的含义进行解释。
研究第三步,SVM。 在聚类取得了较好的效果的基础上,我们认为数据质量是可靠的,这相当于我们有了很好的客观数据集,在此基础上,我们提出由企业管理者对员工的表现进行打分,形成Label,这样我们就得到了监督学习的训练集,从而可以对员工行为进行监督学习下的预测。这项工作我们进行了多种尝试,并最终通过特征工程,选取了最为有效的15个指标,来作为员工行为的表征指标。
这里我们回顾一下研究的历程,以作为以后研究的经验参考。SVM最初分析时,我们选择了多于60个指标进行监督学习,但是学习效果并不好,类别间的区分度很低,这主要是由于过多的指标导致SVM算法无法清楚地寻找到类别间的界线。所以我们通过一些特征工程的方法,来进行降维。首先通过pearson相关度分析,我们将大量的指标根据关联度,分为了24类,每一类中的指标都具有高度的相关性。因此可以在每一类指标中选出一个最具代表性的指标。这个选取过程由我们研究团队根据实际情况,选择了最具代表性的24个指标。其次,24个指标做SVM依然过多,我们用RFE算法来判断哪些指标对学习准确率影响最大,从而来选出最有效的那些指标。RFE过程中,我们使用Lasso、Ridge、Logistic、RFClassifier、linerSVM这5种算法来作为筛选器,分别得到每一种算法下最有效的特征,进而,我们选取那些被更多算法视为“有效”的特征,例如任务平均完成时长,在5种筛选器种都被认为有效,那么这个特征对于我们做监督学习,就是一个很好的特征。
此外,特征筛选还应考虑一个问题,那就是筛选器和分类器是否要具有相同的算法范式。例如,如果分类准备用SVM,那么筛选器就业要选SVM类的。这样才能保证筛选出来的特征,在对应的分类算法下是最为有效的。
研究第四步,数据分布拟合。 虽然在前三步研究中我们取得了一定的成效,但通过仔细检验已有的数据我们发现数据仍然存在两方面问题,一是一些数据还是会存在漏填、错填的问题,这属于数据错误问题。二是在填报比较完整的数据中,存在一些极值数据,这些数据并不一定是错误数据,也有可能是个别员工行为表现异常导致。无论是哪种情况导致的数据异常(前提是已经预处理过缺失值),我们都可以通过拟合数据的分布,来判断数据的分布情况,并寻找那些离群点。
在数据分布拟合研究中,我们通过对多种分布函数的尝试,最终提出可通过正态分布、F分布、卡方分布、Gamma分布这四种常见的分布函数来拟合员工行为数据。以正态分布为例,如果我们拟合某个指标符合正态分布,那么我们可以认为左右两侧5%区间以内的数据是常规行为,而两侧5%以外的数据是异常行为。并且通过进一步分析我们发现,一侧5%到千分之一之间的数据,有时也属于合理行为,而一侧千分之一以外的数据,才最有可能称为异常行为。通过这样的分析,我们就可以通过数据分布拟合的方式,来发现员工的异常行为数据,并提出对应的管理策略。
此外,我们还曾提出在拟合时,要拟合显着才能认为数据符合某一分布。但如果这样判断,我们发现有的数据并不满足显着的要求,但是数据确本身具有很强的实用信息,因此我们提出,不必以显着为分析前提。而这其实也表明,数字化时代,要以更加符合实际的分析手段来分析数据,指导业务。而不用拘泥于过于学术或刻板的分析标准。
总结而言,在这四条主线研究思路下,我们对合作客户的员工行为数据开展了特征工程、非监督学习、监督学习、数据分布拟合等一系列标准的算法研究。进而,结合实际应用场景,将研究结果转化为了具体应用。接下来总结一下所形成的具体应用。
(二)产品转化结果
研究成果向产品转化,是一个不断积累,由量变引起质变的过程。在最初的研究中,我们会在多个点上开展研究,但最终哪些研究成果能转变为实际应用,是不确定的。而随着研究的增多,能够转变为实际产品功能的成果就会显现,这体现在三个层次。第一层次,一些好的研究点,一些对特定场景的解决方案,能够转变为实际产品功能。第二层次,单个功能点看似没有太大价值,但是当出现某个典型功能点后,我们会意识到,其他看似无用的功能点,却是对这个典型功能点的有效补充。第三层次,多个研究会呈现出一些共性,这些共性能够转化为产品思路和产品模式,这是要比单点产品功能更具价值的地方。这样的由研究向产品转化的思路,扎根实践,又提炼总结,是具有很好的参考意义的。
我们在多个研究点探索后,不断思考如何将研究点转化为实用的功能,这既要结合客户需求,也要结合我们自己对用户痛点、产品功能的设计。2020年度的研究,我们始终在做的主线是员工行为画像,无论是监督学习还是非监督学习,都是为了选定一套合适的指标和权重,来达成对员工的排名。在这个思路下,我们整合多种排名算法,最终提出:由用户自主选择排名模式。在不同的排名模式下,我们为用户提供不同的算法或排名方式,这就相当于我们以后端智能化的方式,满足了用户在前端多样化的需求。而这也正是数字化时代,产品以智能化方式,为用户提供个性化功能的体现。具体而言,我们为用户提供四种可选模式,来实现对员工排名。
模式一、行业最佳实践 ,以成熟用户已有案例,制定一套指标和相应权重。用户选取想要的案例类别,我们根据其实际数据,计算相应排名结果。这里打分模式有两种,一是产品自定义给出,二是根据已有打分排名,用Kmeans确认不同类别优秀度,回归树反推指标权重。
模式二:AI聚类算法 ,系统对员工进行自然状态进行三次或多次kmeans聚类,每次调整指标种类和权重,然后由客户选择一种符合预期的聚类结果,那么客户的选择就对应了指标种类和权重。
模式三:AI监督学习 ,对员工进行kmeans聚类,得到n个类别,客户对n类按优秀度进行排序打分,接下来,系统依据打分情况,通过RFE算法(Estimator选用决策树回归或决策树分类),判断不同指标重要度。
模式四:AI辅助定制(纯手动) ,由用户指定n个指标,并为n个指标确定权重,系统对员工进行排名,可选择算法有:加权求和、RandomForestRegressor、GradientBoostingRegressor。备注,后两种具体实现方式是,根据加权求和打分得到y,x就是输入的加权指标。然后训练得到模型。
方云智能多种AI绩效评价方法均已通过实践验证,并实现产品化。
(三) 算法准确率分析
数据分析时结果一般需要有一定的准确度,才可以说算法对问题实现了一定解决。在数字化转型的过程中,我们不必以绝对的预测准确率来判断算法好坏。这是由于我们在评价员工行为时,训练集标注或者人的认知,都是极具主观性的,而且这种主观性又是会动态变化的,所以算法能够捕捉到的,有时候也许是客观规律,但有时候也许就只是管理者的一时情绪。我们评价算法的好坏,应该从实践出发,对于符合认知、规律的算法是好算法,但是能解释或捕捉短期用户态度的算法,也是可靠的。具体而言,我们针对已有的研究,给出下述准确率总结。
一、Kmeans是非监督学习,无准确率,但可以阐述我们对老黄牛和南郭先生的发现,是符合管理常识的。
SVM预测,我们首先得到了一个关键结论,管理严格程度高、中、低,对应员工表现中、高、低。这一结论的得出是符合常识规律的,那么我们也可以反推认为算法是有效的。
二、根据对过去员工数据+label进行SVM训练,我们预测未来的准确率最初仅为60%,但经过样本筛选,参数调优后,准确率可达到93%。
三、数据合理性分析中,我们通过以不同的分布拟合员工行为数据,选出95%区间内的员工,再进一步选出95%到0.001之间的员工,准确选出数据出现问题的员工。具体实践结果表明,我们确实捕捉到了行为极值点,也捕捉到了5%以外但行为合理的点。
(四)研究总结和下一步计划
算法研究、数据分析的目的,最终还是为了找到新的用户需求,开发新的产品功能。第二部分中我们总结了由研究向产品实际功能转化的思路。一是好的研究点直接转变为实际产品功能。二是一些低价值的功能点支撑典型功能点后。三是研究体现出的共性思路,转化为产品思路和产品模式。
接下来我们的研究也致力于从这三个方面来探索更多的产品功能和产品模式。目前提的主思路有:
一是将项目管理的知识和流程植入产品,帮助企业管理者简单、高效的完成项目管理。这其中将人员动态分配到不同的任务中,就会是十分典型的一个功能。在此基础上,员工行为的分析和排名就会成为很好的辅助功能,我们可以依据员工行为特点,将他们分配到不同情况的任务中。
二是深化单点功能。我们在SVM训练模型时发现,每个月的模型放到下个月或者其他月份来预测,准确率不稳定。其中很可能的原因是每个月的评价标准有所波动。那我们就可以在长期数据上,对每个月都进行模型训练,得到多个模型。在此基础上,将未来一个月的数据放在过去多个月的模型上预测,这样就会出现一个月的数据在多个月模型下评价各不相同的情况,这就能反应出每个月评价标准的波动情况。
三是产品模式的升级。我们可以采用轻量化前端,收集一些简单必要的数据后,将复杂的分析都放在后端来实现。功能上的呈现就是,用户在前端进行一些个性化的数据和模式选择,系统能够在后端为用户进行多样化的分析,呈现给用户智能化的操作界面(如智能化流程、模板化流程)、分析结果(排名、雷达图、行为空间映射等),甚至是客制化流程、数据,算法,系统提供分析结果。
免费试用地址: FarCloud|方云|方云数据智能研发绩效|30天提效30%
‘拾’ 论内容理解算法
经过几年的膨胀期,算法的热度快速下降,不论是AI四小龙的上市之路艰辛,还是各大头部互联网公司的副总裁重返学术界,以及算法人员的招聘冻结。这里有总体经济形势恶化带来的影响,也与算法本身的能力上限有关,在各类学习任务上,算法的性能正在逐渐进入瓶颈,通用任务效果提升的梯度在逐渐变小,有效的进展都依赖于超大规模的数据和模型参数,以通用语义表征任务为例,完成一次超大规模的预训练模型的成本达到数百万元,极大地限制了中小企业参与的机会。
在业务应用方面,经过几年的持续建设和多种类型功能的输出,业务依赖的不同方向所对应的内容理解算法在应用和效果层面已趋成熟,能够带来惊喜效果的机会变的很少。这种形势下,作为偏后台支持的角色,如何去识别并持续深化内容理解算法的作用变得很重要。本文试图从价值视角分析内容理解的生存形势,发掘未来发展的可能性以及从业人员的应对手段方面做了些不算严谨的阐述。
一直以来我们定义内容理解算法为业务的万金油,随时随地可以插拔式应用。从配合内容生产者做创作提示,帮助运营做质量分析,版权保护,相似查找,帮助搜索算法提供长尾查询的效率增强,帮助推荐算法提供标签等细粒度语义特征,根据消费者的负向反馈进行同类型的内容屏蔽(如软色情,恶心,不喜欢的明星)。因此很自然地,我们把内容理解算法的使命定义为“内容流转的全链路提质提效”,这里的质量包含对确定性劣质的去除,以及优质内容的免审或者高曝推荐。效率指的是把内容从生产到消费的链路上的时间优化到最快,包括配合运营进行快速的内容筛选,辅助分发算法进行人群和内容的精准匹配。
这里需要回答的是,在上述相对完备的能力基础上,内容理解算法所能提供的最核心的价值是什么?
首先是客户的定义问题,内容理解算法的客户不是运营,不是分发算法,也不是生产者和消费者。而是要回归到最原始的“内容”,用于对内容进行附加值的极大化提升。
其次,参与到内容流转各环节的角色承担了对内容理解算法的价值落地和放大,不论是运营所主导的平台意志实现,分发算法对内容和消费者的高效匹配,以及生产者和消费者分别从内容供给和消费方面对内容理解算法的诉求。
最后,内容本身是一种载体,载体背后是人对现实世界的刻画,平台层面有对内容进行按需取用的逻辑,消费者也有用脚投票的权利,这里的内容理解算法不应当做任何的自我倾向,按照业务诉求的多样化能力输出是内容理解存在的核心价值,否则通过简单搬运学术界的开源模型便可形成表面上的业务能力堆砌,显然是无法满足业务的增长诉求。
因此,我们可以形成价值定义: “内容理解算法的核心价值是内容全生命周期内,根据服务业务的多样化诉求,提供智能化和结构化的理解能力,其衡量标准为上述能力带来的附加效率提升和成本下降。”
从这个定义来看,内容理解算法似乎没有站在主战线上,价值被隐性地统计起来。实则不然,就如战争一样,冲锋在前的部队只有少数,而承担防守和辅助任务的兵种实际上是不可或缺的,很多时候也决定了战争的走向, 历史 上由于后勤保障问题导致战争走向改变的例子比比皆是。就如定义中的效率提升,它其实不是一票式的,由于效率的提升会带来供给者和消费者的规模增大,又会产出对内容理解算法效率提升的更多诉求,这种正反馈式的链路也是内容业务可以快速实现既定目标的重要方式。
一、估值 游戏
以2021年11月小红书的估值来看,彼时6千万DAU和47分钟人均时长的内容社区获得200亿美金的估值认可,这属于一个早期内容社区经历过较长时间的成长后才能达到的高度。考虑一个相对创新内容业务,两到三年的时间想要达到5000万DAU和5分钟的人均时长其实还是比较困难的,按照对标小红书的逻辑,估值上限为30亿美金,假设内容理解算法对业务贡献率用3%折算,估算下来内容理解估值为9千万美金,按照简单的市销率10倍计算,内容理解每年的营收为900万美金(按照估值反推营收的原因是是内容理解算法对业务的点状式能力输出难以做到精准的量化统计)。
900万美金是非常尴尬的数字,因为内容理解算法存在比较高昂的成本,从大头上来看,内容理解算法支出分为三部分,第一部分是算法人员,以15人的支撑团队计算(看起来有点多,实则不然,想要支撑对未来预期的增长,15个人实际并不够用),按照单人每年的支付成本150万计算(这个成本折算到员工回报大约为100万左右,已经没多大市场竞争力),大约400万美金/年;第二部分是资源消耗,按照百万内容/天的规模计算,各种资源成本(包括机器,存储、辅助软件等)大约500万美金/年;第三部分是配套工程人员,产品经理,外包标注支持等,这部分大约150万美金/年。可以看到业务发展到这个阶段,内容理解算法是入不敷出的。
按照上述口径,能够改善内容理解价值的核心方法包括三个方向,一是业务估值的上升,需要业务DAU和时长的稳定提升。二是内容理解算法的业务贡献率提升,这里对内容理解算法的要求是比较高的,不仅仅要从内容的质量,生产者的辅助,分发流量效率,业务的大盘生态,或者业务商业化上有所作为。三是降低成本,这个路径的可行性很弱,反倒是随着业务的成长,成本的消耗会进一步增加,能够做的是控制成本增长的速度小于业务增长。
“按照业务贡献对处于业务发展前期的内容理解算法进行价值衡量,情况是非常不乐观的”。
二、价值重塑
前面的视角是业务闭环下的价值衡量,放开到更大的视角,内容理解算法之所以构成相对独立的功能单元是因为它提供的能力是相对通用的,比如标签识别算法不仅仅可用于小红书,也可用于抖音和快手这样的内容业务。
因此在支撑具体的业务的过程中沉淀出通用算法进行其他类似业务的价值输出,是内容理解算法的另一扇门。这里面临的另一个问题是如果是头部业务,一定是要求内容理解算法是为它量身定制的,而中小业务愿意为内容理解算法买单的价钱是有限的。针对这个问题的核心解法是在做头部业务能力定制的时候,提供尽可能通用的能力,通过对数量众多的中小业务形成价值输出,实现量级的堆砌。
此外,要差异化成熟业务和创新业务,对于成熟业务而言,内容理解算法对业务的微小提升可能是非常明显的,以京东平台为例,如果内容理解算法通过图像搜索或者同款识别等能力提升业务成交0.1%,也将是数亿美金每年的价值加成。对于创新业务而言,内容理解算法应当深入业务,从内容的全生命周期为业务提供硬核的能力,用以帮助业务实现生产者和消费者体感的明显提升,最终带来业务的正反馈式增长,早期的抖音就是依托炫酷的AI特效体系实现用户规模的快速增长。
“目前能看到的,让内容理解算法进行价值放大的有效途径是贴身服务头部业务的过程中,沉淀通用化能力横向输出尽可能多的同类型业务。针对成熟业务寻找对业务增长的确定性增长点,创新业务寻找到适合于业务快速增长的硬核能力”。
作为一名内容理解算法沉浮六年的老兵,我对内容理解算法的未来持谨慎乐观的态度。原因有三个方面,一是这一轮深度学习带来的算法提升空间变得有限;二是互联网用户进入存量时代后,头部内容会更加精耕细作,从追求效率转向运营的精细化和粘性保持;三是对未来可能出现的下一代内容消费方式的期待和观望。
一、相对有限的算法提升空间
过去的几年,内容理解算法的演进可以分为三个方向,一次是从传统的手工特征到神经网络特征的升级,通过大数据和大算力实现效果的明显提升,也极大降低了算法人员的准入门槛;二是对内容的理解从单一模态升级为多模态&跨模态,以及以图神经网络为基础的推理能力;三是极大规模数据的模型学习,即以大规模预训练模型为基础的统一内容表征方式,催生了transformer家族的不断壮大。
然则,算法的性能逐渐接近瓶颈,不论是在看图说话、 情感 分析、还是标签识别等算法任务上距离人类仍然存在一定的距离,并且这份距离看起来短期内没有明确的突破机会。反倒是业界开始从监督学习往无监督学习靠近,试图利用海量数据学到背后的范式,这本质上是对追赶上人类能力的背离。
以transformer为例,百亿数据下训练一次消耗数百块GPU,数周的训练时间才有可能获得明显的效果的提升,这还不包括精细的网络调整的令人沮丧时间成本。此外下游任务想要得到期待的效果,还需要进一步的迁移学习。从表象来看,只是提供一个更好的算法学习的起点。
我们经历了一个业务对我们翘首以待到逐渐理性的合作过程,AI算法从来就无法成为救世主,而是有更强生产力的工具。当然我们不应当过于悲观,起码过往的几年,蓬勃发展的算法体系带来了从业人员的准入门槛极大下降,大众对AI算法的广泛认知也有助于内容理解算法相对长期的旺盛生命力和成长。
二、存量用户时代的内容社区的运营方式
中国互联网用于见顶,意味着各大内容业务必须进入存量用户阶段。存量用户阶段面临的困境是粗放式增长不复出现,用户群体开始细分,用户粘性变得更加艰辛,要求内容社区必须进行精细化运营。精细化运营背后的表现为对效率的要求下降,转而对用户心智和长期的战术保持耐心。这种情况下内容理解算法会成为散落到业务众多需求列表的功能支撑点,独当一面的机会愈发减少。
“从算法学习的角度来看,人的创意,玩法设计,互动属性是目标(ground truth)的天花板,因此此时此刻保持工具属性是相对合理的态度”。
三、下一代的内容消费方式
互联网时代的内容消费经历了文本到图像的升级,再到视频的升级,每一次内容消费升级背后产出对内容理解算法的爆发式增长,那么下一代的内容消费方式又是什么呢?
业界目前正在押注元宇宙,facebook甚至把名字都改成了meta。过去有几波VR/AR的热潮,看起来除了在某些线上成人网站和线下 游戏 设备之外,并未有足够颠覆我们日常生活方式的输出。
人类对更高级的感知外部环境和与他人无时空差别的交互需求是明确存在的,只是它是否由“元宇宙”承载却是个未知数。如果元宇宙是这个载体的话,那么虚拟世界的感情识别,触感生成,自然交互,生态的 健康 治理,超大规模内容消费下的负载下降会是内容理解算法可以尝试去攻克和深耕的全新地带,也会承担更为核心的角色。
“下一代的内容理解消费方式有机会成为内容理解的下一个主战场,但是目前的形势并不明朗,需要我们保持耐心地思考和观望”。
四、其他的可能
抛开头部综合性AI大厂商如网络,腾讯,阿里巴巴,华为等企业作为内容理解多样性需求输出的第一极之外,还有以内容理解算法作为平台能力输出的第二极,比较有名的是AI四小龙(商汤、旷视、依图,云从),以及深度结合各民生领域的产业AI能力输出。
医疗AI,解决医疗资源匮乏导致看病需求无法被满足,人工看诊时间长等问题。比较典型的case是COVID-Moonshot众包协议,由500多名国际科学家共同参与,以加速COVID-19的抗病毒药物研发。
教育AI,解决优质教育资源匮乏导致的分配不公,及教师和学生的信息不对称问题,虽然国家正在推新教育双减政策,但是教育作为一项基本的人身权利应当得到更好的满足,比较知名的企业有松鼠AI,猿辅导等。
制造AI,解决制造车间设备、数量、功能增多、调度分配难度大、需求端个性化要求等问题,利用AI,自动化,IOT,边缘计算,云,5G等手段,充分利用生产车间的海量价值数据,把人从简单重复的劳动中解放出来以从事更高级的任务,帮助提高产量的同时降低缺陷率,比较知名的企业有正在香港上市的创新奇智和创新型工业AI-PASS平台提供商远舢智能等。
此外,还有在智能驾驶、智慧城市、芯片AI等产业领域深度耕耘的各种公司,他们正在充分发挥大数据和AI算法的能力,为各大产业带来源源不断的创新能力。
回到内容理解算法的现存生存环境,仍然存在一定的潜力可以挖掘。在下一代内容消费方式到来之前,可以做得更好,形成与上下游的积极联动,在现在的舞台上展现出更佳的风采。
一、产品
内容理解算法的产品是不是刚需,这个话题有点争议,有人说算法的产出速度是比较慢的,让昂贵的产品角色参与建设本身会存在浪费的情况。我个人认为内容理解算法所对应的产品角色必须具备,因为在庞大的业务体系后面,如果缺失了面向业务需求的自顶向下的内容理解算法体系设计和建设,非常容易出现业务赋能的水土不服。
产品需要考虑的核心问题是如何衡量长期和短期投入,算法是比较精细的工作,对结果的预期是非确定性的,因此需要做好对业务预期的管理以及同业务需求的及时交互。为了保障算法最终在业务的使用效果,前期可以通过简化版本或者半成品算法的产品化方案进行快速试错,帮助业务决策的同时给算法的长期迭代争取空间。此外,针对算法长期迭代设计有效的样本数据回流机制,通过配置化输出给到业务尽可能多的试错方式,以及业务上线使用后的效果实时监控等都是产品需要思考的工作。
二、运营
运营应该是内容理解算法打交道最频繁的相关方,内容理解算法的评价标准和业务适配都需要运营来进行构建和监控。内容理解算法是运营进行内容供给生态和消费生态运营的智能助手,从内容结构化标签角度提供到运营各种分析使用方式,如内容审核、内容圈选,内容人群定投等。
和运营打交道对内容理解算法提出高要求,如何快速衡量需求的合理性及可行性非常关键。有时候内容理解算法做了过度承诺,导致上线效果不佳,影响业务的发展。有时候对算法实现效果的不自信或产品化用法借力不够从而拒绝需求导致业务失去宝贵的试错机会。因此内容理解算法应当对内容运营的链路有相当的掌握,可以和运营一起定义全链路算法能力,从应用的视角推进算法需求的合理有序的开展。
三、生产者
生产者对于平台来说至关重要,巧妇难为无米之炊,不论运营和分发算法多么牛逼,缺少了高质量的内容生产来源,业务是不可能有持续增长的。通常情况下两千优质生产者加上数万的普通生产者即可支撑起千万DAU的业务,如何服务好这部分生产者对平台来说非常关键。
内容理解算法和生产者目前的主要交互方式包括几个方面,一是在内容生产的时候给到生产者的内容元素的智能推荐,如话题,标题,配乐的推荐等;二是进行内容展现效果的提升,如滤镜,贴纸,美颜,画质增强等;三是从质量层面给予生产者指导和管控,包括从业务视角给到生产者发布的内容大致因为何种理由不被平台采纳,内容高热趋势消费榜单,内容的版权保护等。
从生产者视角来看,尽可能多地从平台获取流量或者商业化价值是根本追求,因此往往会出现对平台规则的不断试探以攫取利益,如发布大量的擦边球或危言耸听的内容。内容理解算法需要在内容供给规模不断变大的情况下帮助平台保持 健康 的生态和有效的流量分配同时尽可能给到生产者更多指导。这种相爱相杀的关系也给内容理解算法带来了不少的挑战和生存空间。
四、分发算法和消费者
把分发算法和消费者放在一起的核心逻辑是内容理解算法绝大部分情况下是需要通过分发算法和消费者打交道的。从消费者视角观察,高活用户代表主流心智,如何服务好这波群体关系到业务的生存问题。中低活用户是平台的增量所在,持续加强这部分用户的平台粘性是关键任务(这里会有部分用户的出逃,为了维护平台的心智,这部分的牺牲是可接受的)。分发算法承担了把海量内容做负载下降后根据用户的长短期兴趣进行推荐的使命,分发算法是需要秉承平台意志的,用于进行内容的流量调配用于影响消费者的体感和心智,给平台带来源源不断的生机。
早期编辑为主的内容分发模式下,消费者是被教育的对象,一天之内能够看到的新鲜内容是非常少的,这种情况导致消费者的浏览深度和时长是受限的。个性化推荐模式下,用户的兴趣被极致放大,由于相关内容和新鲜内容的快速推送,消费者会感受到强烈的沉浸式消费体感。然而内容的多样性,消费体感的持续维护,兴趣的拓展等变得非常重要,这给分发算法的精准性提出很高要求。提供分发算法细粒度的识别能力是内容理解算法可以大展身手的机会,内容是否具备不错的分发潜力以加大分发流量?内容的适合人群是什么?用户无序浏览背后的核心兴趣是什么?软色情/部分人群不喜好内容(蛇虫宠物)如何精准识别用以分发调控等问题都是分发算法难以触达的地方,这些命题正是内容理解算法可以深入研究并影响内容分发和消费的重要方面。
除了特定的场景(如互动玩法,个性化封面图等),内容理解算法应当恪守自己在内容生命周期的参与广度。涉及到内容的分发和消费,内容理解算法应当把自己定义为分发算法不可或缺的助力,而不是试图去做替换,站在内容理解算法视角,分发算法可以约等于消费者。以饭馆运作为例,分发算法是大厨,根据消费者的口味和食材和菜谱提供个性化的食物服务。内容理解算法可以对食材进行质量管控,研发新的菜谱,在必要的时候提供半成品的菜品。和消费者的交互交由分发算法来处理,毕竟术业有专攻,内容理解算法可以在对内容的深度理解和消费者洞察上做纵向的深入,提供更多的可能性,包括生态、多样性、内容保量等。
内容理解算法和分发算法的理想态是正和 游戏 ,零和 游戏 对双方都是没有意义的,因此这里额外对内容理解算法提出的要求是在内容消费场景建立一套相对客观的评价体系,通过算法的标准化评估进行上线流程的加速,通过不断的快速试错给分发算法提供更多枪支弹药。
五、工程&数据分析
一个好汉三个帮,内容理解算法背后也站着一群小伙伴,面向算法生产的大规模工程基础设施和面向算法洞察的数据分析能力可以帮助内容理解算法更好的发展。在内容爆炸式增长的今天,高效的算法工程体系非常关键,甚至是拉开不同公司差距的最重要手段之一。有个非常明显的例子,在业界举办的各种算法大赛上,只要是大型互联网公司参赛基本上都会出现霸榜的情况,这背后是模型训练效率的强大先发优势,拥有百块级别GPU并发训练能力的高校是非常少的。此外以通用向量检索功能为例,百亿级的向量索引能力在有限的算力和内存消耗下稳定运行起来是需要大量的工程优化手段的,而这个功能对算法的高效使用至关重要。
服务于内容理解算法,数据分析有非常多的应用。根据消费统计行为构建面向内容兴趣的用户画像,风向趋势内容消费对供给的指导,层次耦合的内容标签的合理挂靠关系,算法上线前的有效性分析,及算法上线后持续监控和异常告警等。
内容理解算法需要做的是面向业务场进行完整的架构设计,从算法的效率角度,包括算法服务效率,算法洞察视角等方面联动工程&数据分析提供强大的生产力,通过规模和系统厚度构建足够的技术门槛。
2021年对中国互联网,甚至是中国 社会 的前行都是不同寻找的一年,在全球经济下行,国家间人为壁垒构建的情况下,恰恰又遭遇了国内人口增长的停滞,国家对互联网平台的强管控,以及互联网用户渗透的见顶。
内容理解算法背后的AI算法体系多少也收到了波折,不过从整体形势来看,AI算法体系和产业化仍然在往前走。基础理论研发体系中对应的论文发表、会议举办及大赛的举行和参赛人员的规模都在增长。这两年的遇冷问题主要是受到市场大环境的影响,AI占总体投资的比重仍然在上升。从国内方面来看,全球经济的技术封锁进一步坚定了中国立足自主创新的决心和信心,国家十四五计划也明确提出了大数据,人工智能,VR/AR的产业发展规划,AI产业仍然有很强的潜力值得挖掘。
作为依附于业务的内容理解算法,需要有清晰的自我认知和定位。我们的核心价值是什么?它如何得到有效的定义和量化?作为服务于业务众多角色中的一员,如何做好同其他角色的正向互动?上述问题背后的答案代表了内容理解算法的核心作用。现在的算法界有一股投机风,什么热门就搞什么,有号称无需数据标注的无监督学习,有号称可以效果对标大量标注样本的小样本学习,有号称单个算法模型打遍天下的多模态预训练学习等等。如果从问题抽象简化的角度去研究基础的理论体系和算法学习范式是没有问题的,但是如果业务的算同学也把这类概念摆在嘴上是有问题的,脱离了业务场景的核心诉求去谈技术创造新商业,是一种对客户的傲慢,属于典型的机械主义。
作为深度结合业务的内容理解算法,应当从业务场景出发,结合算法的可行性去 探索 用于业务赋能的核心技术,对于明确可以产生正向业务价值的算法技术,哪怕需要较长一段时期的打磨,也要敢于投注建设,在算法研发的过程中不断地思索业务的更多可能性,逐渐把业务的不确定性转化为技术的相对确定性。对于较长时间无法形成对业务贡献的算法,应当果断放弃深入研究,当然作为技术观望跟进是没有问题的。
从目前形势来看,内容理解算法的发展确实碰到了一些困难,但我们可以保持对未来的谨慎乐观,期待下一代内容消费形态的来临,同时尽可能多地进行业务场景的细化进行能力输出和加强,把存量业务价值做好放大,通过算法自身的持续建设,为将来可能来临的那一刻做好技术储备。