① 程序员被纳入“新生代农民工”,码农为何会被官方定义为“新生代农民工”
01 什么是新生代农民工“码农”就是我们常说的程序员,因为靠写代码卫生,而且收入低,要长时间面对电脑,所以就自嘲为“码农”。
我们先来看看“新生代农民工”的定义:
出生于20世纪80年代以后,年龄在16岁以上,在异地以非农就业为主的农业户籍人口。
具体点来说,他们是“集中于劳动密集型行业,从事信息传输、软件和信息技术服务业的打工人”。
所以如果单从这个描述来说的话,从事软件和信息服务的程序员们很显然就是“新生代农民工”中的一员。
但如果你看仔细点的话,你就会发现要满足“新生代农民工”,条件有两个:
1.在外地从事非农业行业;
2.农村户口。
因此严格来说,标准的“码农”前提要有“农村户籍”,“城镇户口的码农”是不属于“新生代农民工”范畴的。
就光看这几点,哪个跟农民工兄弟不是一样的?
② 如何搭建亿级并发的系统架构
想设计亿万级高并发架构,你要先知道高并发是什么?
面对流量高峰,不同的企业是如何通过技术手段解决高并发难题的呢?
0、引言
软件系统有三个追求:高性能、高并发、高可用,俗称三高。三者既有区别也有联系,门门道道很多,全面讨论需要三天三夜,本篇讨论高并发。
高并发(High Concurrency)。并发是操作系统领域的一个概念,指的是一段时间内多任务流交替执行的现象,后来这个概念被泛化,高并发用来指大流量、高请求的业务情景,比如春运抢票,电商双十一,秒杀大促等场景。
很多程序员每天忙着搬砖,平时接触不到高并发,哪天受不了跑去面试,还常常会被面试官犀利的高并发问题直接KO,其实吧,高并发系统也不高深,我保证任何一个智商在线的看过这篇文章后,都能战胜恐惧,重拾生活的信心。
本文先介绍高并发系统的度量指标,然后讲述高并发系统的设计思路,再梳理高并发的关键技术,最后结合作者的经验做一些延伸探讨。
1、高并发的度量指标
既然是高并发系统,那并发一定要高,不然就名不副实。并发的指标一般有QPS、TPS、IOPS,这几个指标都是可归为系统吞吐率,QPS越高系统能hold住的请求数越多,但光关注这几个指标不够,我们还需要关注RT,即响应时间,也就是从发出request到收到response的时延,这个指标跟吞吐往往是此消彼长的,我们追求的是一定时延下的高吞吐。
比如有100万次请求,99万次请求都在10毫秒内响应,其他次数10秒才响应,平均时延不高,但时延高的用户受不了,所以,就有了TP90/TP99指标,这个指标不是求平均,而是把时延从小到大排序,取排名90%/99%的时延,这个指标越大,对慢请求越敏感。
除此之外,有时候,我们也会关注可用性指标,这可归到稳定性。
一般而言,用户感知友好的高并发系统,时延应该控制在250毫秒以内。
什么样的系统才能称为高并发?这个不好回答,因为它取决于系统或者业务的类型。不过我可以告诉你一些众所周知的指标,这样能帮助你下次在跟人扯淡的时候稍微靠点儿谱,不至于贻笑大方。
通常,数据库单机每秒也就能抗住几千这个量级,而做逻辑处理的服务单台每秒抗几万、甚至几十万都有可能,而消息队列等中间件单机每秒处理个几万没问题,所以我们经常听到每秒处理数百万、数千万的消息中间件集群,而像阿某的API网关,每日百亿请求也有可能。
2、高并发的设计思路
高并发的设计思路有两个方向:
垂直方向扩展,也叫竖向扩展
水平方向扩展,也叫横向扩展
垂直方向:提升单机能力
提升单机处理能力又可分为硬件和软件两个方面:
硬件方向,很好理解,花钱升级机器,更多核更高主频更大存储空间更多带宽
软件方向,包括用各快的数据结构,改进架构,应用多线程、协程,以及上性能优化各种手段,但这玩意儿天花板低,就像提升个人产出一样,996、007、最多24 X 7。
水平方向:分布式集群
为了解决分布式系统的复杂性问题,一般会用到架构分层和服务拆分,通过分层做隔离,通过微服务解耦。
这个理论上没有上限,只要做好层次和服务划分,加机器扩容就能满足需求,但实际上并非如此,一方面分布式会增加系统复杂性,另一方面集群规模上去之后,也会引入一堆AIOps、服务发现、服务治理的新问题。
因为垂直向的限制,所以,我们通常更关注水平扩展,高并发系统的实施也主要围绕水平方向展开。
3、高并发的关键技术
玩具式的网络服务程序,用户可以直连服务器,甚至不需要数据库,直接写磁盘文件。但春运购票系统显然不能这么做,它肯定扛不住这个压力,那一般的高并发系统是怎么做呢?比如某宝这样的正经系统是怎么处理高并发的呢?
其实大的思路都差不多,层次划分 + 功能划分。可以把层次划分理解为水平方向的划分,而功能划分理解为垂直方向的划分。
首先,用户不能直连服务器,要做分布式就要解决“分”的问题,有多个服务实例就需要做负载均衡,有不同服务类型就需要服务发现。
集群化:负载均衡
负载均衡就是把负载(request)均衡分配到不同的服务实例,利用集群的能力去对抗高并发,负载均衡是服务集群化的实施要素,它分3种:
DNS负载均衡,客户端通过URL发起网络服务请求的时候,会去DNS服务器做域名解释,DNS会按一定的策略(比如就近策略)把URL转换成IP地址,同一个URL会被解释成不同的IP地址,这便是DNS负载均衡,它是一种粗粒度的负载均衡,它只用URL前半部分,因为DNS负载均衡一般采用就近原则,所以通常能降低时延,但DNS有cache,所以也会更新不及时的问题。
硬件负载均衡,通过布置特殊的负载均衡设备到机房做负载均衡,比如F5,这种设备贵,性能高,可以支撑每秒百万并发,还能做一些安全防护,比如防火墙。
软件负载均衡,根据工作在ISO 7层网络模型的层次,可分为四层负载均衡(比如章文嵩博士的LVS)和七层负载均衡(NGINX),软件负载均衡配置灵活,扩展性强,阿某云的SLB作为服务对外售卖,Nginx可以对URL的后半部做解释承担API网关的职责。
所以,完整的负载均衡链路是 client <-> DNS负载均衡 -> F5 -> LVS/SLB -> NGINX
不管选择哪种LB策略,或者组合LB策略,逻辑上,我们都可以视为负载均衡层,通过添加负载均衡层,我们将负载均匀分散到了后面的服务集群,具备基础的高并发能力,但这只是万里长征第一步。
数据库层面:分库分表+读写分离
前面通过负载均衡解决了无状态服务的水平扩展问题,但我们的系统不全是无状态的,后面通常还有有状态的数据库,所以解决了前面的问题,存储有可能成为系统的瓶颈,我们需要对有状态存储做分片路由。
数据库的单机QPS一般不高,也就几千,显然满足不了高并发的要求。
所以,我们需要做分库分表 + 读写分离。
就是把一个库分成多个库,部署在多个数据库服务上,主库承载写请求,从库承载读请求。从库可以挂载多个,因为很多场景写的请求远少于读的请求,这样就把对单个库的压力降下来了。
如果写的请求上升就继续分库分表,如果读的请求上升就挂更多的从库,但数据库天生不是很适合高并发,而且数据库对机器配置的要求一般很高,导致单位服务成本高,所以,这样加机器抗压力成本太高,还得另外想招。
读多写少:缓存
缓存的理论依据是局部性原理。
一般系统的写入请求远少于读请求,针对写少读多的场景,很适合引入缓存集群。
在写数据库的时候同时写一份数据到缓存集群里,然后用缓存集群来承载大部分的读请求,因为缓存集群很容易做到高性能,所以,这样的话,通过缓存集群,就可以用更少的机器资源承载更高的并发。
缓存的命中率一般能做到很高,而且速度很快,处理能力也强(单机很容易做到几万并发),是理想的解决方案。
CDN本质上就是缓存,被用户大量访问的静态资源缓存在CDN中是目前的通用做法。
缓存也有很多需要谨慎处理的问题:
一致性问题:(a)更新db成功+更新cache失败 -> 不一致 (b)更新db失败+更新cache成功 -> 不一致 ©更新db成功+淘汰缓存失败 -> 不一致
缓存穿透:查询一定不存在的数据,会穿透缓存直接压到数据库,从而导致缓存失去作用,如果有人利用这个漏洞,大量查询一定不存在的数据,会对数据库造成压力,甚至打挂数据库。解决方案:布隆过滤器 或者 简单的方案,查询不存在的key,也把空结果写入缓存(设置较短的过期淘汰时间),从而降低命失
缓存雪崩:如果大量缓存在一个时刻同时失效,则请求会转到DB,则对DB形成压迫,导致雪崩。简单的解决方案是为缓存失效时间添加随机值,降低同一时间点失效淘汰缓存数,避免集体失效事件发生
但缓存是针对读,如果写的压力很大,怎么办?
高写入:消息中间件
同理,通过跟主库加机器,耗费的机器资源是很大的,这个就是数据库系统的特点所决定的。
相同的资源下,数据库系统太重太复杂,所以并发承载能力就在几千/s的量级,所以此时你需要引入别的一些技术。
比如说消息中间件技术,也就是MQ集群,它是非常好的做写请求异步化处理,实现削峰填谷的效果。
消息队列能做解耦,在只需要最终一致性的场景下,很适合用来配合做流控。
假如说,每秒是1万次写请求,其中比如5千次请求是必须请求过来立马写入数据库中的,但是另外5千次写请求是可以允许异步化等待个几十秒,甚至几分钟后才落入数据库内的。
那么此时完全可以引入消息中间件集群,把允许异步化的每秒5千次请求写入MQ,然后基于MQ做一个削峰填谷。比如就以平稳的1000/s的速度消费出来然后落入数据库中即可,此时就会大幅度降低数据库的写入压力。
业界有很多着名的消息中间件,比如ZeroMQ,rabbitMQ,kafka等。
消息队列本身也跟缓存系统一样,可以用很少的资源支撑很高的并发请求,用它来支撑部分允许异步化的高并发写入是很合适的,比使用数据库直接支撑那部分高并发请求要减少很多的机器使用量。
避免挤兑:流控
再强大的系统,也怕流量短事件内集中爆发,就像银行怕挤兑一样,所以,高并发另一个必不可少的模块就是流控。
流控的关键是流控算法,有4种常见的流控算法。
计数器算法(固定窗口):计数器算法是使用计数器在周期内累加访问次数,当达到设定的限流值时,触发限流策略,下一个周期开始时,进行清零,重新计数,实现简单。计数器算法方式限流对于周期比较长的限流,存在很大的弊端,有严重的临界问题。
滑动窗口算法:将时间周期分为N个小周期,分别记录每个小周期内访问次数,并且根据时间滑动删除过期的小周期,当滑动窗口的格子划分的越多,那么滑动窗口的滚动就越平滑,限流的统计就会越精确。此算法可以很好的解决固定窗口算法的临界问题。
漏桶算法:访问请求到达时直接放入漏桶,如当前容量已达到上限(限流值),则进行丢弃(触发限流策略)。漏桶以固定的速率进行释放访问请求(即请求通过),直到漏桶为空。分布式环境下实施难度高。
令牌桶算法:程序以r(r=时间周期/限流值)的速度向令牌桶中增加令牌,直到令牌桶满,请求到达时向令牌桶请求令牌,如获取到令牌则通过请求,否则触发限流策略。分布式环境下实施难度高。
4、高并发的实践经验
接入-逻辑-存储是经典的互联网后端分层,但随着业务规模的提高,逻辑层的复杂度也上升了,所以,针对逻辑层的架构设计也出现很多新的技术和思路,常见的做法包括系统拆分,微服务。
除此之外,也有很多业界的优秀实践,包括某信服务器通过协程(无侵入,已开源libco)改造,极大的提高了系统的并发度和稳定性,另外,缓存预热,预计算,批量读写(减少IO),池技术等也广泛应用在实践中,有效的提升了系统并发能力。
为了提升并发能力,逻辑后端对请求的处理,一般会用到生产者-消费者多线程模型,即I/O线程负责网络IO,协议编解码,网络字节流被解码后产生的协议对象,会被包装成task投入到task queue,然后worker线程会从该队列取出task执行,有些系统会用多进程而非多线程,通过共享存储,维护2个方向的shm queue,一个input q,一个output q,为了提高并发度,有时候会引入协程,协程是用户线程态的多执行流,它的切换成本更低,通常有更好的调度效率。
另外,构建漏斗型业务或者系统,从客户端请求到接入层,到逻辑层,到DB层,层层递减,过滤掉请求,Fail Fast(尽早发现尽早过滤),嘴大屁眼小,哈哈。
漏斗型系统不仅仅是一个技术模型,它也可以是一个产品思维,配合产品的用户分流,逻辑分离,可以构建全方位的立体模型。
5、小结
莫让浮云遮望眼,除去繁华识真颜。我们不能掌握了大方案,吹完了牛皮,而忽视了编程最本质的东西,掌握最基本最核心的编程能力,比如数据架构和算法,设计,惯用法,培养技术的审美,也是很重要的,既要致高远,又要尽精微。
③ 31岁程序员熬夜时忽然眼一黑,医生是怎么说的
熬夜已经成为了是一种常见现像,对于年轻人来说,总是认为还年轻身体好,所以觉得熬夜并没有什么影响,其实,熬夜的危害是非常的大,不仅会伤肝伤肾,长期以往,身体就会慢慢的出现疾病。经常熬夜的人,时间久了通常都会有些不舒服,可能有些症状,我们并没有重视,但是当我们的身体发出一些严重的求救信号时,说明已经很严重了。
医生提醒,季节变换,天气逐渐变冷,也是视网膜动脉阻塞高发期,对于三高人群,一定要有规律的作息,要合理的饮食,同时戒烟戒酒,最好是定期的体检。
④ 程序员怎样锻炼好身体
作为一名程序员,很久以前就关注了这个问题,但最近身边一些人和事有了些切身体验,然后对它进行一些思考。首先,对于程序员或者办公室人员来说,由于长时间的伏案写字再加上不正常的体态,会产生以下四个最常见的健康问题:
1.肩颈疼痛
2.腰背疼痛
3.肥胖
4.精力差,三高
出现问题的原因有很多,简单来说身体一直处于亚健康状态。其中主要原因是
熬夜
相信很多程序员都有熬夜的习惯,我之前天天到深夜1点才睡。很多程序员将熬夜变成了生活习惯,大部分的原因一方面是被义务教育坑害了,不得不熬夜和人拼时间,另一方面因为网络的发达使得更多的年轻人忘记了时间的概念。作为程序员,内心就形成了“程序员只有在晚上效率才高”的理念。甚至很多公司都提倡这样的工作方式,晚上天天加班,早上晚点上班。但这种方式对你的健康伤害是最大的。因为人体最大的补品不是什么高昂的食材,而是睡眠,睡眠能治愈的病比吃药有效,并且人体造血的时间一般在凌晨一点。因此,我建议熬夜的朋友把睡觉时间提前到起码11点之前,把起床时间也提前,这样睡眠时间长一样,这一天会过得更精神爽利更事半功倍。
久坐
很多人身体跟着酸疼,骨头各种问题,最大原因有些程序员在电脑面前一坐就是一天,中间除了吃饭上厕所外,基本不起来动动。这是非常不好的习惯,时间久了,很容易得肩周炎、颈椎病,到时候后悔就晚了。我们可以在中午吃饭时间抽空来散步,有助于消化,也缓解工作压力。利用手机App提醒功能,提醒自己休息,定时站起来拉伸运动一下。如果需要的话,做一些眼保健操。我自己经历来说,我会经常早上做瑜伽,会对身体有很大的改善。
缺乏锻炼
很多程序员会反驳我说,哪有这种美国时间做锻炼。其实我们应该问一下我们自己,我们不干活的时间都做了什么,那百分之九十的人都说是在低头玩手机,手机上有什么国家大事需要你一有时间就处理么?其实没有!我们只想简单的获取一些精神娱乐,来抚平我们生活和工作的压力。那么我们抽出一些时间来锻炼锻炼又有何妨呢。
平衡生活和工作的关系:刚工作那会,就一个人其实这个问题并不突出,随着年龄增长,如何平衡好我有一些自己的想法。有的人是工作狂,有的人对工作不上心,我觉得都不合适。工作狂我已经见过不止一例身体最后出现严重问题的很多。最后还是花钱养身体。
谈到运动,我觉得世界上最好的运动就是自己能坚持下来的运动,譬如我爱跑步,我每天早上会花时间跑步。我办公室在10楼,我坚持不做电梯,每天上下爬个4,5次。爬第一次会觉得很累,上气不接下气,但每天去爬,最后你会发现自己气都不喘一下。运动只要去坚持,肯定会有收获。
最后希望大家多多保重。
⑤ 住养老院39岁程序员已出院,程序员发生职业病的概率更高吗
住养老院39岁程序员已经出院,程序员发生职业病的概率非常高,理由如下:
第一:程序员的工作时间不固定,工作时间很长程序员的工作时间是非常不固定的,因为没有人能够预料系统或者程序到底什么时候出bug,到底什么时候会崩溃。所以说就算是半夜的时候,程序员也必须要马上工作解决问题。特别是在互联网时代,一旦系统崩溃,那么可能就会影响到数亿人的生活。所以说程序员的工作时间往往是比较久的。
第四:程序员容易有三高程序员中大部分的人都是宅男,宅男不愿意社交,大部分时间都是在工作或者待在家里,就连吃饭基本上也都是外卖。基本上不会主动去运动,所以说这样的人时间久了就会出现肥胖,而肥胖就是造成三高的罪魁祸首之一。对于身体的伤害是非常大的,再加上程序员吃外卖都是高油、高盐的食物,时间久了也会损伤肠道,引起一系列的健康问题。所以说程序员确实很容易患上职业病。
⑥ 程序员应该注意哪些身体健康他们容易患什么职业病
没吃过泡面不算程序员,没加过班的不是程序员,久而久之各种健康问题就来了,当然小编也知道要要因人而异,不同的职业会引发不同的毛病。据国外的一项调查表明,头发的变化与相应人群在年龄,性别甚至职业上都有明显的特征,程序员的脱发现象,很有可能是因为长时间工作压力大,长期加班和睡眠障碍,作息混乱等等原因造成的亚健康。
如何很快的淘汰一个人,是让他太忙,忙到没有时间休息,没有时间创造思维,没有时间学习,才为可怕。所以,请拥有好心态,技术学不完,时间是自己的。有些关于身体上的一些疾病自己要注重,毕竟身体是自己的,别人无法与你一起承受疼痛。