Ⅰ 程序员需要怎样的数学基础
离散数学对程序员来说非常重要,还有组合数学、线性代数、概率论、数论等等,即使你将来不做研究,这些基础知识也能极大地提高你的水平。计算机科学对离散数学的要求很高,建议你先学习前面提到的这些课程,然后学习计算机算法和数据结构,再配合到网上的在线题库做题,过程很艰辛,但是对你的帮助会很大。
推荐书目:
《具体数学》(先学完前面的数学课程,在水平有一定进步以后再看)
《算法导论》(应该人手一本的好书)
简单来说,学数学的目的,一方面是活跃你的思维;另一方面是为了深入学习算法打基础,设想一下,同样的问题,普通人的程序要几十分钟甚至几小时几天才能解决出来,甚至根本无法解决,而你精心设计的程序却能在1秒内解决出来,这就是数学的魅力、算法的魅力。
其实,一切取决于你是否想做一个高级程序员。如果你做体力活(其实一般编程别人都认为是体力活),那你可以不学,因为你用不到,但是,你要是做技术上的创新,做个很强的程序员,没有数学的支持,很难。
你既然学习了C,c++,你也知道算法的重要性,同样一个问题,我用13行程序解决了,我的同学居然用了33行,因为他不懂的用数学。你要达到什么高等,取决于你的数学修养。当然,要做一个普通的程序员就不用学习了。要挑战自己,做个好的,优秀的,学习数学吧!
Ⅱ 做程序员编程需要什么数学知识,初中文化可以学吗
1.学习方法:本人认为这比什么都重要如果这个没掌握的话,可能直接影响你的成败。众所周知。。计算机知识 尤其是编程涉及到的知识可以说浩如烟海---那么面对这么多的知识该怎么去学呢?
---重点:1重实践,不要去想,把一个知识点完全彻底的掌握,那将是非常恐怖的,有编程经验的朋友都知道,编程里每个知识点深纠起来的话是非常困难的,更不要说是新手了。。那么知识点该掌握到什么程度呢? 个人认为:1-知道它是做什么 2-知道怎么使用。 这就足够了。。。。不要去管他的原理是什么,能把东西做出来才是王道。。。
---重点:2多写, 这个在编程界可以说是真理了,真正写程序的人都知道,一段程序你理解了并不代表你就会写了,那么怎么样才能提高“写”的能力呢? 本人认为要注意一下几点 1- 练习多做是必然的。 2- 做练习时不要因为觉得代码简单就只看不敲,哪怕多敲一遍HelloWorld 都是有好处的。 3- 相似的代码不要复制,我见过很多朋友,遇到两段程序类似,就懒的敲直接粘贴过去修改。。。请记住这是软件开发人员的做法,而你不是,目前你还只是一个学习者而已。所以 原则就是 能敲的就不要复制。
---重点:3把精力用在理解上而不要用在背上 写程序的朋友都知道,函数---关键字---常用类什么的,都非常的熟悉,为什么我们背过吗?没有 写的多了自然就记的牢了, 所以建议新手不要去死背什么概念,或语法 一定要理解它的作用。。。
---重点:4 笔记,我认为这点很重要,我自学时全是看书,和视频教程,然后总结对自己有用的东西。记在本上,而将来如果印象不深刻了由于是自己用自己理解的方式写的,简单翻一翻就能回忆起来,而如果,你忘了再去翻视频 或 翻书的话。。那么即使你曾经学过,也可能一时想不起来。。。
1.关于数学。。。这个问题,我觉得是目前争论最多的话题,我见过N多人说 学编程要学XX数学---什么微积分---什么离散---吓的新手连想都不敢想,我只想对这些人说一句,如果你懂,请你们帮助新手,如果你们不懂 请你们闭嘴 谢谢不要 误人子弟。。。那么下面我来 具体回答一下数学方面的问题。。。
1- 编程用数学吗? 用! 回答是肯定的,但要看你是做哪方面的程序。 懂编程的都知道,现在编程基本分B/C构架,即:客户端/浏览器端 与 C/S构架 即:客户端/服务器端 前者基本上就是JAVA PHP ASP.NET 等等。。。其中有多少地方用到了数学,如果还坚持没数学学不了编程的朋友请站出来回答下我的问题。。。
至于C/S 如果不是做系统级的程序员 或 大型3D图象处理 或者是音频处理的软件我请问又有多少地方用到了数学?如果你觉得x/y=z 这也算高等数学的话,我无话可说。。。。总结--除了3D等图象处理编程 或 音频处理编程 或系统级编程以外 其他编程对数学要求并不很高。。。。
2.关于英语, 我认为这个是个不可回避的话题,学编程一点英语不懂我觉得不太现实,毕竟有很多文档也是用英文写的,而且程序员都知道,编程时经常要用简单的英文,哪怕是定义个变量名,也要用英文起名, 没见过哪个程序员定义的变量叫什么aaa或bbb的。 那么新手该怎么面对英语呢, 我觉得很容易,按照书上或教程上去做就足够了,1 编写程序时 按规范要求去做,首先变量名,用见名知意思的英文单词, 写注释时 也用英文短句。。。 抛异常时 也用英文来标注等等。。。。慢慢积累,时间久了你就会发现其实计算机里的英语 就只有那么几句而已。。。
3.关于学校 这个我也想提一下,有很多想以程序员为工作的朋友可能都考虑过找个培训班---但我的建议是。不要去---起码一般的不要去,为什么?效果不好,就这么简单,我亲自到XXX着名编程培训学校试听过。。。结果很遗憾 一周才那么几天课,我3天阅读的知识点比他们1个兴趣 教的还多。。。而且上机和理论还是分开,新学的知识不能立刻上机实践等等。。我觉得都是很严重的弊病。。。跟严重的那些所谓的学校给学生们造成了一种假象。。。只要在学校里考试合格了,出去就能做程序员,甚至软件工程师了。。。最后他们将发现,原来他们在学校里学的 只是基础中的基础而已 - -
4. 自学的资料,我个人认为,自学第一重要的是 视频教程,懂的人都知道,编程学习时重点并不完全是知识点,而是如何运用那些知识点,这也是项目经验今天被人们这么看中的主要原因。。。所以视频教程绝对是不二的选择,现在网上的视频教程非常之多 各种各样的都有 具体怎么找相信不用我教了 google 电驴 迅雷--我就是靠他们活过来的 。。。而且视频教程还有一点是学校比不了的,那就是 你可以随时看 重复看,一个知识点没明白 你可以反复的听10遍 20遍都没问题, 学校恐怕就不行了吧。 另一个优点是可以在你状态好时看, 大家都有状态不好的时候,累了-困了 很正常,可在学校,谁管你? 老师讲完了 听不懂你自己的问题,而视频呢,好办 累了 先休息一会 有精神了 想怎么看就怎么看。。。我觉得 找到好的视频教程。。比任何老师都重要。。至于出现问题不懂怎么办? 相信能来到着找到我这篇文章的朋友 都有办法解决的。。
5.书 --- 我非常喜欢看视频教程,但我坚决反对只看视频不看书,为什么?很简单视频传授的是 写程序的经验 而书则是细腻的为你讲解其中的原理。。所以我的建议是 先把一个知识的视频看一遍,然后再把书翻一遍 然后自己再写2遍 量变必然引起质变 我相信这是放之四海 而皆准的道理(指编程行业)
6.时间+态度 我认为这也很重要,很多人经常这样问我,我1个月能学会编程么? 我半年能成为编程高手么? 我觉得有这样心理的人比适合学编程。。。 学编程最忌心浮,一个知识点还没弄明白 就想写个项目出来 这是不可能的,这样最后只能导致你自己丧失信心,编程要一步一步的来,相信我哪怕用一天时间才掌握了一个知识点,起码比你用一天的时间 看完整本书强。。因为前者起码你还是有点收获的(指新手,老手两天一本书很正常有经验了吗 - -) 这里我可以给大家一我的学习时间大家可做为参考。。。我是从0基础开始一直到现在掌握j2ee基本所有的基础开发技能 用时一年半,本人觉得不算慢 每天最少看书+练习5小时 每天不停这个是我的进度。
Ⅲ 程序员的数学的内容简介
编程的基础是计算机科学,而计算机科学的基础是数学。因此,学习数学有助于巩固编程的基础,写出更健壮的程序。
本书面向程序员介绍了编程中常用的数学知识,借以培养初级程序员的数学思维。读者无需精通编程,也无需精通数学,只需具备四则运算和乘方等基础知识,就可以阅读本书。
书中讲解了二进制计数法、逻辑、余数、排列组合、递归、指数爆炸、不可解问题等许多与编程密切相关的数学方法,分析了哥尼斯堡七桥问题、少年高斯求和方法、汉诺塔、斐波那契数列等经典问题和算法。引导读者深入理解编程中的数学方法和思路。
本书还对程序员和计算机的分工进行了有益的探讨。读完此书,你会对以程序为媒介的人机合作有更深刻的理解。
Ⅳ 要想成为一名顶尖的程序员,要学习高等数学吗
必然的,必须的。
顶尖的程序员除了懂写代码外还要懂各种算法的应用。而应用的背景知识就是高等数学。如果只知道写代码,那么还算不上顶尖的程序员,顶多算个中等的程序员。
举个最简单的例子,做图像识别或人脸识别,就是对图像进行处理。而图像的本质就是矩阵,因此离不开线性代数的各种运算,特征求解,规划求解。
人脸识别中可能还涉及到神经网络的学习和试算梯度预算,就离不开微积分。
再举个例子,密码的编译也离不开矩阵代数应用,无论是密文还是密文转明文。
还有,文字索引,文本处理……是在太多太多了。以上的知识,还要变成代码写入你的程序中的。
所以,光从应用的角度来看,就离不开高等数学。要想成为顶尖的程序员,那就更要学好高等数学。
Ⅳ 做一个程序员数学不好怎么办
一般做算法方面的事情,对程序员数学方面的要求就会高一些;但如果是做一名的普通程序员其实对数学的要求没那么高,很多初、高中生的学历,0基础也可以学开发,将来一样能做程序员。而且,像变量这种知识点比较简单也比较基础,都涉及不到太深的数学方面的东西。所以,我觉得也许是你对变量这个知识点可能掌握得不是那么好。学习开发,学习方法也很重要,这块儿咱们可以私信交流。另外,学习上总会遇到各种各样的问题,不管你学开发还是学其它的什么,要放平心态,心态不能崩;放弃是件很容易的事情,但只有坚持下来,你才有可能成为一名优秀的程序员。加油!
Ⅵ 当一个程序员需要多好的数学
任何面向工作的功利的学习行为都可以视为一种投资,必须考虑成本和收益的tradeoff;总体来看,个人认为计算机系本科不教的数学对于绝大多数程序员来说都是没有必要熟练掌握的数学。
数学不包括算法。算法一直是属于计算机科学领域的。数据结构算法能力是程序员的核心能力之一,而且永不过时。
当程序员做开发工作,有些方向不太需要数学,有些方向需要特定类型的数学(比如游戏开发、图形学会用到大量数值工具等);解决特定问题需要学习特定类型的数学;专门做特定领域的计算机科学研究需要用到大量特定领域的数学;既然如此,那就在碰到相应问题的需求去学习对应的知识就好了,没有必要非要计较到底哪个重要(前提是你应当知道你这个方向需要什么样的知识),也没有必要仅仅是为了提高“数学基础”而盲目不加选择的去学习所有种类的数学。
Ⅶ 作为一名合格的程序员,请问需要掌握哪些数学知识,学到什么样的水平
程序员的知识是多方面的, 数学方面至少高等数学大专以上文化程度,概率统计,数字逻辑运算方面的知识,主要就是做哪一方面的程序设计,有些学过的可能长期也不用,搞科学研究的、游戏、智能软件开发、安全方面的要求就高一些,没有一定数学基础有些算法书就读不懂,搞社会一般应用的要求相对较低一些,这些只是常识,程序员关键一点把一门课及相关知识精通,可以把用户提出的问题很快的自己能够理解,转换成计算机处理方式,成为软件或网站,而且和用户的需求基本一致。当然有些人的数学水平并不高,设计出的软件人人爱用,水平很高,程序员的知识包括数学方面的知识也在不断充实更新中。
Ⅷ 程序员必备的一些数学基础知识
作为一个标准的程序员,应该有一些基本的数学素养,尤其现在很多人在学习人工智能相关知识,想抓住一波人工智能的机会。很多程序员可能连这样一些基础的数学问题都回答不上来。
作为一个傲娇的程序员,应该要掌握这些数学基础知识,才更有可能码出一个伟大的产品。
向量 向量(vector)是由一组实数组成的有序数组,同时具有大小和方向。一个n维向量a是由n个有序实数组成,表示为 a = [a1, a2, · · · , an]
矩阵
线性映射 矩阵通常表示一个n维线性空间v到m维线性空间w的一个映射f: v -> w
注:为了书写方便, X.T ,表示向量X的转置。 这里: X(x1,x2,...,xn).T,y(y1,y2,...ym).T ,都是列向量。分别表示v,w两个线性空间中的两个向量。A(m,n)是一个 m*n 的矩阵,描述了从v到w的一个线性映射。
转置 将矩阵行列互换。
加法 如果A和B 都为m × n的矩阵,则A和B 的加也是m × n的矩阵,其每个元素是A和B相应元素相加。 [A + B]ij = aij + bij .
乘法 如A是k × m矩阵和B 是m × n矩阵,则乘积AB 是一个k × n的矩阵。
对角矩阵 对角矩阵是一个主对角线之外的元素皆为0的矩阵。对角线上的元素可以为0或其他值。一个n × n的对角矩阵A满足: [A]ij = 0 if i ̸= j ∀i, j ∈ {1, · · · , n}
特征值与特征矢量 如果一个标量λ和一个非零向量v满足 Av = λv, 则λ和v分别称为矩阵A的特征值和特征向量。
矩阵分解 一个矩阵通常可以用一些比较“简单”的矩阵来表示,称为矩阵分解。
奇异值分解 一个m×n的矩阵A的奇异值分解
其中U 和V 分别为m × m和n×n 的正交矩阵,Σ为m × n的对角矩阵,其对角 线上的元素称为奇异值(singular value)。
特征分解 一个n × n的方块矩阵A的特征分解(Eigendecomposition)定义为
其中Q为n × n的方块矩阵,其每一列都为A的特征向量,^为对角阵,其每一 个对角元素为A的特征值。 如果A为对称矩阵,则A可以被分解为
其中Q为正交阵。
导数 对于定义域和值域都是实数域的函数 f : R → R ,若f(x)在点x0 的某个邻域∆x内,极限
存在,则称函数f(x)在点x0 处可导, f'(x0) 称为其导数,或导函数。 若函数f(x)在其定义域包含的某区间内每一个点都可导,那么也可以说函数f(x)在这个区间内可导。连续函数不一定可导,可导函数一定连续。例如函数|x|为连续函数,但在点x = 0处不可导。
加法法则
y = f(x),z = g(x) 则
乘法法则
链式法则 求复合函数导数的一个法则,是在微积分中计算导数的一种常用方法。若 x ∈ R,y = g(x) ∈ R,z = f(y) ∈ R ,则
Logistic函数是一种常用的S形函数,是比利时数学家 Pierre François Verhulst在 1844-1845 年研究种群数量的增长模型时提出命名的,最初作为一种生 态学模型。 Logistic函数定义为:
当参数为 (k = 1, x0 = 0, L = 1) 时,logistic函数称为标准logistic函数,记 为 σ(x) 。
标准logistic函数在机器学习中使用得非常广泛,经常用来将一个实数空间的数映射到(0, 1)区间。标准 logistic 函数的导数为:
softmax函数是将多个标量映射为一个概率分布。对于 K 个标量 x1, · · · , xK , softmax 函数定义为
这样,我们可以将 K 个变量 x1, · · · , xK 转换为一个分布: z1, · · · , zK ,满足
当softmax 函数的输入为K 维向量x时,
其中,1K = [1, · · · , 1]K×1 是K 维的全1向量。其导数为
离散优化和连续优化 :根据输入变量x的值域是否为实数域,数学优化问题可以分为离散优化问题和连续优化问题。
无约束优化和约束优化 :在连续优化问题中,根据是否有变量的约束条件,可以将优化问题分为无约束优化问题和约束优化问题。 ### 优化算法
全局最优和局部最优
海赛矩阵
《运筹学里面有讲》,前面一篇文章计算梯度步长的时候也用到了: 梯度下降算法
梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
梯度下降法
梯度下降法(Gradient Descent Method),也叫最速下降法(Steepest Descend Method),经常用来求解无约束优化的极小值问题。
梯度下降法的过程如图所示。曲线是等高线(水平集),即函数f为不同常数的集合构成的曲线。红色的箭头指向该点梯度的反方向(梯度方向与通过该点的等高线垂直)。沿着梯度下降方向,将最终到达函数f 值的局部最优解。
梯度上升法
如果我们要求解一个最大值问题,就需要向梯度正方向迭代进行搜索,逐渐接近函数的局部极大值点,这个过程则被称为梯度上升法。
概率论主要研究大量随机现象中的数量规律,其应用十分广泛,几乎遍及各个领域。
离散随机变量
如果随机变量X 所可能取的值为有限可列举的,有n个有限取值 {x1, · · · , xn}, 则称X 为离散随机变量。要了解X 的统计规律,就必须知道它取每种可能值xi 的概率,即
称为离散型随机变量X 的概率分布或分布,并且满足
常见的离散随机概率分布有:
伯努利分布
二项分布
连续随机变量
与离散随机变量不同,一些随机变量X 的取值是不可列举的,由全部实数 或者由一部分区间组成,比如
则称X 为连续随机变量。
概率密度函数
连续随机变量X 的概率分布一般用概率密度函数 p(x) 来描述。 p(x) 为可积函数,并满足:
均匀分布 若a, b为有限数,[a, b]上的均匀分布的概率密度函数定义为
正态分布 又名高斯分布,是自然界最常见的一种分布,并且具有很多良好的性质,在很多领域都有非常重要的影响力,其概率密度函数为
其中, σ > 0,µ 和 σ 均为常数。若随机变量X 服从一个参数为 µ 和 σ 的概率分布,简记为
累积分布函数
对于一个随机变量X,其累积分布函数是随机变量X 的取值小于等于x的概率。
以连续随机变量X 为例,累积分布函数定义为:
其中p(x)为概率密度函数,标准正态分布的累计分布函数:
随机向量
随机向量是指一组随机变量构成的向量。如果 X1, X2, · · · , Xn 为n个随机变量, 那么称 [X1, X2, · · · , Xn] 为一个 n 维随机向量。一维随机向量称为随机变量。随机向量也分为离散随机向量和连续随机向量。 条件概率分布 对于离散随机向量 (X, Y) ,已知X = x的条件下,随机变量 Y = y 的条件概率为:
对于二维连续随机向量(X, Y ),已知X = x的条件下,随机变量Y = y 的条件概率密度函数为
期望 对于离散变量X,其概率分布为 p(x1), · · · , p(xn) ,X 的期望(expectation)或均值定义为
对于连续随机变量X,概率密度函数为p(x),其期望定义为
方差 随机变量X 的方差(variance)用来定义它的概率分布的离散程度,定义为
标准差 随机变量 X 的方差也称为它的二阶矩。X 的根方差或标准差。
协方差 两个连续随机变量X 和Y 的协方差(covariance)用来衡量两个随机变量的分布之间的总体变化性,定义为
协方差经常也用来衡量两个随机变量之间的线性相关性。如果两个随机变量的协方差为0,那么称这两个随机变量是线性不相关。两个随机变量之间没有线性相关性,并非表示它们之间独立的,可能存在某种非线性的函数关系。反之,如果X 与Y 是统计独立的,那么它们之间的协方差一定为0。
随机过程(stochastic process)是一组随机变量Xt 的集合,其中t属于一个索引(index)集合T 。索引集合T 可以定义在时间域或者空间域,但一般为时间域,以实数或正数表示。当t为实数时,随机过程为连续随机过程;当t为整数时,为离散随机过程。日常生活中的很多例子包括股票的波动、语音信号、身高的变化等都可以看作是随机过程。常见的和时间相关的随机过程模型包括贝努力过程、随机游走、马尔可夫过程等。
马尔可夫过程 指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。
其中X0:t 表示变量集合X0, X1, · · · , Xt,x0:t 为在状态空间中的状态序列。
马尔可夫链 离散时间的马尔可夫过程也称为马尔可夫链(Markov chain)。如果一个马尔可夫链的条件概率
马尔可夫的使用可以看前面一篇写的有意思的文章: 女朋友的心思你能猜得到吗?——马尔可夫链告诉你 随机过程还有高斯过程,比较复杂,这里就不详细说明了。
信息论(information theory)是数学、物理、统计、计算机科学等多个学科的交叉领域。信息论是由 Claude Shannon最早提出的,主要研究信息的量化、存储和通信等方法。在机器学习相关领域,信息论也有着大量的应用。比如特征抽取、统计推断、自然语言处理等。
在信息论中,熵用来衡量一个随机事件的不确定性。假设对一个随机变量X(取值集合为C概率分布为 p(x), x ∈ C )进行编码,自信息I(x)是变量X = x时的信息量或编码长度,定义为 I(x) = − log(p(x)), 那么随机变量X 的平均编码长度,即熵定义为
其中当p(x) = 0时,我们定义0log0 = 0 熵是一个随机变量的平均编码长度,即自信息的数学期望。熵越高,则随机变量的信息越多;熵越低,则信息越少。如果变量X 当且仅当在x时 p(x) = 1 ,则熵为0。也就是说,对于一个确定的信息,其熵为0,信息量也为0。如果其概率分布为一个均匀分布,则熵最大。假设一个随机变量X 有三种可能值x1, x2, x3,不同概率分布对应的熵如下:
联合熵和条件熵 对于两个离散随机变量X 和Y ,假设X 取值集合为X;Y 取值集合为Y,其联合概率分布满足为 p(x, y) ,则X 和Y 的联合熵(Joint Entropy)为
X 和Y 的条件熵为
互信息 互信息(mutual information)是衡量已知一个变量时,另一个变量不确定性的减少程度。两个离散随机变量X 和Y 的互信息定义为
交叉熵和散度 交叉熵 对应分布为p(x)的随机变量,熵H(p)表示其最优编码长度。交叉熵是按照概率分布q 的最优编码对真实分布为p的信息进行编码的长度,定义为
在给定p的情况下,如果q 和p越接近,交叉熵越小;如果q 和p越远,交叉熵就越大。