㈠ 神经网络算法的必要性
这里的distinct表示去重,也可以用group by实现, 两者的区别在于distinct会读取所有的记录,而group by是在分组之后每组只返回一条记录,也就是说后者读取的条数要少很多,效率会更高一些,因此可以将上述代码改为:
create table validate_set as
select
user_id,
wm_concat(',',brand_id) as brand
from(
select user_id,brand_id
from t_alibaba_bigdata_user_brand_total_1
where type = '1' and visit_datetime > '07-15'
group by user_id,brand_id
)a
group by user_id;
训练集和测试集建立好之后,我们可以通过以下命令来计算测试集的推荐数目:
select sum(regexp_count(brand,',')+1) from t_tmall_add_user_brand_predict_dh;
其中REGEXP_COUNT是ODPS的一个自建函数,它的用法如下:
bigint regexp_count(string source, string pattern[, bigint start_position])
表示计算 source 中从 start_position 开始,匹配指定模式pattern 的子串的次数。比如我们有一条输出结果是:100 1,2,3,4,通过计算其中的,数(3)+1=4就计算出推荐的个数了。
UDF计算重复条数
UDF(User-Defined Function)(用户定义函数),是用户根据实际应用的需要而自行开发的函数。在 Eclipse 中的项目下新建 UDF。填入 Package 名称为:chanvee.udf,和 UDF 类名:CountHits,点击确认。插件会自动帮我们生成chanvee.udf包用于写 UDF 代码,和test.chanvee.udf包用于本地测试。
编辑CountHits.java文件,注意下文的Long不能替换为long类型,否则在ODPS上运行会报Method Not Found错误:
package chanvee.udf
import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;
public class CountHits extends UDF {
public Long evaluate (String a,String b){
if(a == null || b == null) {
return 0L; //异常值
}
Set<String> set1 = new HashSet<String>();
Set<String> set2 = new HashSet<String>();
set1.addAll(Arrays.asList(a.split(",")));
set2.addAll(Arrays.asList(b.split(",")));
Long hits = 0L;
for(String s : set2){
if( set1.contains(s) )
hits++;
}
return hits;
}
}
本段函数的主要工作是在a串和b串去重后,计算它们中重复元素的个数。接下来在本地测试下 UDF 。在test.jark.udf包中有两个文件TestCountHits.java和TestUDFBase.java。由于如果 UDF 的输入参数是多个的话,本地测试默认的分隔符是逗号,与我们brand中的逗号冲突了。所以修改下TestUDFBase.java文件的第15行的分隔符为空格(当然也可以其他符号):
private final static String ODPS_SEPARATOR = " ";
同时修改第72行,去掉(String),原因是Long型不能强制转换成String:
return callMeth.invoke(UDFClass, input_parameter.toArray()) + "\n";
在TestCountHits.in文件中输入测试样例:
123456,444,555,666 123456,666,777,888
888,999 111,222
111,111,222,222 111,222,222,333
运行TestCountHits.java后,在TestCountHits.out文件中得到测试结果(样例):
2
0
2
在确认 UDF 没有问题后,准备上传。将Package chanvee.udf打成 jar 包,命名为chanvee_udf.jar,置于C:/TOOLS下,执行以下命令:
create resource jar C:/TOOLS/chanvee_udf.jar
create function count_hits chanvee.udf.CountHits jark-udf.jar
上述命令作用分别是将用户 jar 包上传到 ODPS 和在 ODPS 上注册函数并命名为count_hits。现在使用ls functions命令就能看到我们刚刚注册的函数了。
现在,我们就能像调用一般内建函数一样调用我们自己的count_hits函数了。计算推荐集和验证集中的重复条数,有下面代码:
select sum(count_hits(a.brand,b.brand)) hits from t_tmall_add_user_brand_predict_dh a
join validate_set b on a.user_id = b.user_id;
上面演示了一般 UDF 的创建使用过程,其他类似的 UDF 都可以参考以上过程构建。UDF 是 SQL 的一大工具 ,很多规则算法都可以用过 UDF 方便地实现。
计算评估值
我们知道准确率的计算公式:precision=hitspnums, 其中 pnum 代表推荐的条数。
召回率的计算公式:recall=hitsrnums, 其中 rnum 为验证的条数。
F1:
F1=2∗hitspnum+rnum
为了计算方便,我们用full outer join连接验证集和推荐集,并将计算出的 hits、pnums、rnums 放到临时表里:
select sum(count_hits(p.brand,r.brand) hits,
sum(regexp_count(p.brand,',')+1) pnums,
sum(regexp_count(r.brand,',')+1) rnums
from t_tmall_add_user_brand_predict_dh p
full outer join validate_set r on p.user_id = r.user_id
有了这三个值后,就可以用上面的公式轻松计算出评测值了。
select (hits/pnums) precision, (hits/rnums) recall,(2*hits/(pnums+rnums)) F1
from (
select hits , pnums , rnums
from ...
)a;
综合一下,有如下代码:
create table evaluation as
select (hits/pnums) precision , (hits/rnums) recall , (2*hits/(pnums+rnums)) F1 ,
hits , pnums , rnums , getdate() eval_time
from (
select sum(count_hits(p.brand,v.brand) hits,
sum(regexp_count(p.brand,',')+1) pnums,
sum(regexp_count(v.brand,',')+1) rnums
from t_tmall_add_user_brand_predict_dh p
full outer join validate_set r on p.user_id = r.user_id
)a;
我们将评测值写到了evaluation表中,可供组员查看分析。运行一次上面代码后,若以后再进行评测,可以将第一行改成insert into/overwrite table evaluation后直接运行,这样可以与上次的结果进行比较。
现在已有的模型算法就可以在本地测试调优后,再上传到线上进行评估了。
㈡ 什么时候使用遗传算法 vs 什么时候使用神经网络
一个遗传算法 ( GA ) 搜索技术用于计算找到精确或近似优化和搜索问题的解决方案。神经网络是非线性统计数据建模工具。可以用来建模输入和输出之间复杂的关系,或者为数据中的查找模式 。当有一个条目的数量在不同的类中,神经网络可以"学习"分类项还没有"看见"之前。 比如,人脸识别,语音识别。遗传算法可以执行定向搜索解决方案的空间。比如:查找两点之间的最短路径。
㈢ 神经网络算法的优势与应用
人工神经网络(ANN)以大脑处理机制作为基础,开发用于建立复杂模式和预测问题的算法。
首先了解大脑如何处理信息:
在大脑中,有数亿个神经元细胞,以电信号的形式处理信息。外部信息或者刺激被神经元的树突接收,在神经元细胞体中处理,转化成输出并通过轴突,传递到下一个神经元。下一个神经元可以选择接受它或拒绝它,这取决于信号的强度。
[图片上传失败...(image-cc0d9d-1512012156403)]
现在,让我们尝试了解 ANN 如何工作:
这里, $w_1$ , $w_2$ , $w_3$ 给出输入信号的强度
从上面可以看出,ANN 是一个非常简单的表示大脑神经元如何工作的结构。
为了使事情变得更清晰,用一个简单的例子来理解 ANN:一家银行想评估是否批准贷款申请给客户,所以,它想预测一个客户是否有可能违约贷款。它有如下数据:
所以,必须预测列 X。更接近 1 的预测值表明客户更可能违约。
基于如下例子的神经元结构,尝试创建人造神经网络结构:
通常,上述示例中的简单 ANN 结构可以是:
[图片上传失败...(image-1b4516-1512012156403)]
ANN 有一些关键优势,使它们最适合某些问题和情况:
ANN 是具有广泛应用的强大的模型。以上列举了几个突出的例子,但它们在医药、安全、银行、金融、政府、农业和国防等领域有着广泛的应用。
㈣ 神经网络算法是用来干什么的
神经网络算法是由多个神经元组成的算法网络。
逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生的想法或解决问题的办法。这种思维方式的根本之点在于以下两点:
1、信息是通过神经元上的兴奋模式分布储在网络上。
2、信息处理是通过神经元之间同时相互作用的动态过程来完成的。
思维学普遍认为,人类大脑的思维分为抽象(逻辑)思维、形象(直观)思维和灵感(顿悟)思维三种基本方式。
㈤ 人工智能时代,神经网络的原理及使用方法 | 微课堂
人工智能时代已经悄然来临,在计算机技术高速发展的未来,机器是否能代替人脑?也许有些读者会说,永远不可能,因为人脑的思考包含感性逻辑。事实上,神经网络算法正是在模仿人脑的思考方式。想不想知道神经网络是如何“思考”的呢?下面我向大家简单介绍一下神经网络的原理及使用方法。
所谓人工智能,就是让机器具备人的思维和意识。人工智能主要有三个学派——行为主义、符号主义和连接主义。
行为主义是基于控制论,是在构建感知动作的控制系统。理解行为主义有个很好的例子,就是让机器人单脚站立,通过感知要摔倒的方向控制两只手的动作,保持身体的平衡,这就构建了一个感知动作控制系统。
符号主义是基于算数逻辑和表达式。求解问题时,先把问题描述为表达式,再求解表达式。如果你在求解某个问题时,可以用if case这样的条件语句,和若干计算公式描述出来,这就使用了符号主义的方法,比如“专家系统”。符号主义可以认为是用公式描述的人工智能,它让计算机具备了理性思维。但是人类不仅具备理性思维,还具备无法用公式描述的感性思维。比如,如果你看过这篇推送,下回再见到“符号主义”几个字,你会觉得眼熟,会想到这是人工智能相关的知识,这是人的直觉,是感性的。
连接主义就是在模拟人的这种感性思维,是在仿造人脑内的神经元连接关系。这张图给出了人脑中的一根神经元,左侧是神经元的输入,“轴突”部分是神经元的输出。人脑就是由860亿个这样的神经元首尾相接组成的网络。
神经网络可以让计算机具备感性思维。我们首先理解一下基于连接主义的神经网络设计过程。这张图给出了人类从出生到24个月神经网络的变化:
随着我们的成长,大量的数据通过视觉、听觉涌入大脑,使我们的神经网络连接,也就是这些神经元连线上的权重发生了变化,有些线上的权重增强了,有些线上的权重减弱了。
我们要用计算机仿出这些神经网络连接关系,让计算机具备感性思维。
首先需要准备数据,数据量越大越好,以构成特征和标签对。如果想识别猫,就要有大量猫的图片和这张图片是猫的标签构成特征标签对,然后搭建神经网络的网络结构,再通过反向传播优化连接的权重,直到模型的识别准确率达到要求,得到最优的连线权重,把这个模型保存起来。最后用保存的模型输入从未见过的新数据,它会通过前向传播输出概率值,概率值最大的一个就是分类和预测的结果。
我们举个例子来感受一下神经网络的设计过程。鸢尾花可以分为三类:狗尾鸢尾、杂色鸢尾和佛吉尼亚鸢尾。我们拿出一张图,需要让计算机判断这是哪类鸢尾花。人们通过经验总结出了规律:通过测量花的花萼长、花萼宽、花瓣长、花瓣宽分辨出鸢尾花的类别,比如花萼长>花萼宽,并且花瓣长/花瓣宽>2,则可以判定为这是第一种,杂色鸢尾。看到这里,也许有些读者已经想到用if、case这样的条件语句来实现鸢尾花的分类。没错,条件语句根据这些信息可以判断鸢尾花分类,这是一个非常典型的专家系统,这个过程是理性计算。只要有了这些数据,就可以通过条件判定公式计算出是哪类鸢尾花。但是我们发现鸢尾花的种植者在识别鸢尾花的时候并不需要这么理性的计算,因为他们见识了太多的鸢尾花,一看就知道是哪种,而且随着经验的增加,识别的准确率会提高。这就是直觉,是感性思维,也是我们这篇文章想要和大家分享的神经网络方法。
这种神经网络设计过程首先需要采集大量的花萼长、花萼宽、花瓣长、花瓣宽,和它们所对应的是哪种鸢尾花。花萼长、花萼宽、花瓣长、花瓣宽叫做输入特征,它们对应的分类叫做标签。大量的输入特征和标签对构建出数据集,再把这个数据集喂入搭建好的神经网络结构,网络通过反向传播优化参数,得到模型。当有新的、从未见过的输入特征,送入神经网络时,神经网络会输出识别的结果。
展望21世纪初,在近十年神经网络理论研究趋向的背景下,神经网络理论的主要前沿领域包括:
一、对智能和机器关系问题的认识进一步增长。
研究人类智力一直是科学发展中最有意义,也是空前困难的挑战性问题。人脑是我们所知道的唯一智能系统,具有感知识别、学习、联想、记忆、推理等智能。我们通过不断 探索 人类智能的本质以及联结机制,并用人工系统复现或部分复现,制造各种智能机器,这样可使人类有更多的时间和机会从事更为复杂、更富创造性的工作。
神经网络是由大量处理单元组成的非线性、自适应、自组织系统,是在现代神经科学研究成果的基础上提出的,试图模拟神经网络加工、记忆信息的方式,设计一种新的机器,使之具有人脑风格的信息处理能力。智能理论所面对的课题来自“环境——问题——目的”,有极大的诱惑力与压力,它的发展方向将是把基于连接主义的神经网络理论、基于符号主义的人工智能专家系统理论和基于进化论的人工生命这三大研究领域,在共同追求的总目标下,自发而有机地结合起来。
二、神经计算和进化计算的重大发展。
计算和算法是人类自古以来十分重视的研究领域,本世纪30年代,符号逻辑方面的研究非常活跃。近年来,神经计算和进化计算领域很活跃,有新的发展动向,在从系统层次向细胞层次转化里,正在建立数学理论基础。随着人们不断 探索 新的计算和算法,将推动计算理论向计算智能化方向发展,在21世纪人类将全面进入信息 社会 ,对信息的获取、处理和传输问题,对网络路由优化问题,对数据安全和保密问题等等将有新的要求,这些将成为 社会 运行的首要任务。因此,神经计算和进化计算与高速信息网络理论联系将更加密切,并在计算机网络领域中发挥巨大的作用,例如大范围计算机网络的自组织功能实现就要进行进化计算。
人类的思维方式正在转变,从线性思维转到非线性思维神经元,神经网络都有非线性、非局域性、非定常性、非凸性和混沌等特性。我们在计算智能的层次上研究非线性动力系统、混沌神经网络以及对神经网络的数理研究,进一步研究自适应性子波、非线性神经场的兴奋模式、神经集团的宏观力学等。因为,非线性问题的研究是神经网络理论发展的一个最大动力,也是它面临的最大挑战。
以上就是有关神经网络的相关内容,希望能为读者带来帮助。
以上内容由苏州空天信息研究院谢雨宏提供。
㈥ 神经网络——BP算法
对于初学者来说,了解了一个算法的重要意义,往往会引起他对算法本身的重视。BP(Back Propagation,后向传播)算陆袭法,具有非凡的历史意义和重大的现实意义。
1969年,作为人工神经网络创始人的明斯基(Marrin M insky)和佩珀特(Seymour Papert)合作出版了《感知器》一书,论证了简单的线性感知器功能有限,不能解决如“异或”(XOR )这样的基本问题,而且对多层网络也持悲观态度。这些论点给神经网络研究以沉重的打击,很多科学家纷纷离开这一领域,神经网络的研究走向长达10年的低潮时期。[1]
1974年哈佛大学的Paul Werbos发明BP算法时,正值神经外网络低潮期,并未受到应有的重视。[2]
1983年,加州理工学院的物理学家John Hopfield利用神经网络,在旅行商这个NP完全问题的求解上获得当时最好成绩,引起了轰动[2]。然而,Hopfield的研究成果仍未能指出明斯基等人论点的错误所在,要推动神培判经网络研究的全面开展必须直接解除对感知器——多层网络算法的疑虑。[1]
真正打破明斯基冰封魔咒的是,David Rumelhart等学者出版的《平行分布处理:认知的微观结构探索》一书。书中完整地提出了BP算法,系统地解决了多层网络中隐单元连接权的学习问题,并在数学上给出了完整的推导。这是神经网络发展史上的里程碑,BP算法迅速走红,掀起了神经网络的第二次高潮。[1,2]
因此,BP算法的历史意义:明确地否定了明斯基等人的错误观点,对神经网络第二次高潮具有决定性意义。
这一点是说BP算法在神经网络领域中的地位和意义。
BP算法是迄今最成功的神经网络学习算法,现实任务中使用神经网络时,大多是在使用BP算法进行训练[2],包括最近炙手可热的深度学习概念下的卷积神经网络(CNNs)。
BP神经网络是这样一种神经网络模型,它是由一个输入层、一个输出层和一个或多个隐层构成,它的激活函数采用sigmoid函数,采用BP算法训练的多层前馈神经网络。
BP算法全称叫作误差反向传播(error Back Propagation,或早中兄者也叫作误差逆传播)算法。其算法基本思想为:在2.1所述的前馈网络中,输入信号经输入层输入,通过隐层计算由输出层输出,输出值与标记值比较,若有误差,将误差反向由输出层向输入层传播,在这个过程中,利用梯度下降算法对神经元权值进行调整。
BP算法中核心的数学工具就是微积分的 链式求导法则 。
BP算法的缺点,首当其冲就是局部极小值问题。
BP算法本质上是梯度下降,而它所要优化的目标函数又非常复杂,这使得BP算法效率低下。
[1]、《BP算法的哲学思考》,成素梅、郝中华着
[2]、《机器学习》,周志华着
[3]、 Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现
2016-05-13 第一次发布
2016-06-04 较大幅度修改,完善推导过程,修改文章名
2016-07-23 修改了公式推导中的一个错误,修改了一个表述错误
㈦ 机器学习之人工神经网络算法
机器学习中有一个重要的算法,那就是人工神经网络算法,听到这个名称相信大家能够想到人体中的神经。其实这种算法和人工神经有一点点相似。当然,这种算法能够解决很多的问题,因此在机器学习中有着很高的地位。下面我们就给大家介绍一下关于人工神经网络算法的知识。
1.神经网络的来源
我们听到神经网络的时候也时候近一段时间,其实神经网络出现有了一段时间了。神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进行机器学习的实验,发现在视觉与语音的识别上效果都相当好。在BP算法诞生以后,神经网络的发展进入了一个热潮。
2.神经网络的原理
那么神经网络的学习机理是什么?简单来说,就是分解与整合。一个复杂的图像变成了大量的细节进入神经元,神经元处理以后再进行整合,最后得出了看到的是正确的结论。这就是大脑视觉识别的机理,也是神经网络工作的机理。所以可以看出神经网络有很明显的优点。
3.神经网络的逻辑架构
让我们看一个简单的神经网络的逻辑架构。在这个网络中,分成输入层,隐藏层,和输出层。输入层负责接收信号,隐藏层负责对数据的分解与处理,最后的结果被整合到输出层。每层中的一个圆代表一个处理单元,可以认为是模拟了一个神经元,若干个处理单元组成了一个层,若干个层再组成了一个网络,也就是”神经网络”。在神经网络中,每个处理单元事实上就是一个逻辑回归模型,逻辑回归模型接收上层的输入,把模型的预测结果作为输出传输到下一个层次。通过这样的过程,神经网络可以完成非常复杂的非线性分类。
4.神经网络的应用。
图像识别领域是神经网络中的一个着名应用,这个程序是一个基于多个隐层构建的神经网络。通过这个程序可以识别多种手写数字,并且达到很高的识别精度与拥有较好的鲁棒性。可以看出,随着层次的不断深入,越深的层次处理的细节越低。但是进入90年代,神经网络的发展进入了一个瓶颈期。其主要原因是尽管有BP算法的加速,神经网络的训练过程仍然很困难。因此90年代后期支持向量机算法取代了神经网络的地位。
在这篇文章中我们大家介绍了关于神经网络的相关知识,具体的内容就是神经网络的起源、神经网络的原理、神经网络的逻辑架构和神经网络的应用,相信大家看到这里对神经网络知识有了一定的了解,希望这篇文章能够帮助到大家。