python加速慢怎么解决_python运行速度慢怎么办

Ⅰ 如何优化 python 爬虫的速度

从以下的五个方面去进行优化测试：

1、cpu瓶颈的话可以通过分布式的方式来解决更多的结点去处理分发的任务就好了

2、本地带宽的瓶颈通过云服务器解决(一般都有100MB的方案提供) 定时定量的去购买使用可以节约成本(毕竟不是搜索引擎不会一直开着的)

3、目标服务器的带宽限制(基于IP的)通过跨区的服务器解决云服务器提供商有多个机房的分散节点所在的机房可以缓解问题有提供动态ip的就更好了

4、目标服务器的访问限制，老渔哥提示搜一下<反爬虫>策略就差不多了解了根据自己的编程能力来应对给两个库投石问路 SeleniumPhantomJS 对于验证码相关的可以考虑购买服务(有外包的, 最高级别是人肉的一定可以搞定, 量要考虑一下价格不菲)真的不建议自己搞。

目标网站系统比较知名的话(discuz)可以网上搜搜足够简单的话可以用opencv(有python绑定的版本而且跨平台) thredshold(二值化)处理颜色, eroded/dilate(腐蚀膨胀)处理噪点, findContours(查找轮廓)处理字符分割,穷举旋转和简单扭曲再匹配字库差不多就可以处理2010以前的简单二维码了(当然cpu开销还是很大的)

5、目标服务器的带宽上限限制这么做的话你的爬虫就成了攻击了不讨论----以下内容常规的爬虫可能不会涉

Ⅱ 用python编程读取TXT时，数据大概有1千万条，速度很慢如何解决

两种可选的方式
1：使用yield的懒惰加载，示例代码如下：

123456789101112

def read_in_chunks(file_object, chunk_size=1024): """Lazy function (generator) to read a file piece by piece. Default chunk size: 1k.""" while True: data = file_object.read(chunk_size) if not data: break yield data f = open('really_big_file.dat')for piece in read_in_chunks(f): process_data(piece)

2：使用iter和一个帮助方法：

123456

f = open('really_big_file.dat')def read1k(): return f.read(1024) for piece in iter(read1k, ''): process_data(piece)

推荐使用第一个。

Ⅲ 用python处理一个1G左右的数据集，运行速度非常慢，怎样优化

给你几点个人的建议哈：

考虑拿C或C++重写.

考虑并行搞，找个hadoop集群，写成maprece程序跑放在hadoop上跑，更多数据都不怕.

考虑升级机器，多搞点内存，然后东西尽量放在内存里搞.

考虑程序优化.

希望可以帮助到你哦，这只是我的一个建议哈！

Ⅳ python运行速度慢怎么办

yxhtest7772017-07-18

关注

分享

697 2

python运行速度慢怎么办？6个Python性能优化技巧

Python是一门非常酷的语言，因为很少的Python代码可以在短时间内做很多事情，并且，Python很容易就能支持多任务和多重处理。

Python的批评者声称Python性能低效、执行缓慢，但实际上并非如此：尝试以下6个小技巧，可以加快Python应用程序。

关键代码可以依赖于扩展包

Python使许多编程任务变得简单，但是对于很关键的任务并不总是提供最好的性能。使用C、C++或者机器语言扩展包来执行关键任务能极大改善性能。这些包是依赖于平台的，也就是说，你必须使用特定的、与你使用的平台相关的包。简而言之,该解决方案提供了一些应用程序的可移植性,以换取性能,您可以获得只有通过直接向底层主机编程。

下面这些扩展包你可以考虑添加到你的个人扩展库中：

Cython

PyInlne

PyPy

Pyrex

这些包有不同的作用和执行方式。例如，Pyrex 让Python处理一些内存任务变得简单高效；PyInline可以直接让你在Python应用程序中使用C代码，虽然内联代码被单独编译，但是如果你能高效的利用C代码，它可以在同一个地方处理每一件事情。

使用关键字排序

有很多古老的Python代码在执行时将花费额外的时间去创建一个自定义的排序函数。最好的排序方式是使用关键字和默认的sort()方法。

优化循环

每一种编程语言都强调循环语句的优化，Python也是一样的。尽管你可以依赖于丰富的技术让循环运行的更快，然而，开发者经常忽略的一个方法是避免在循环内部使用点拼接字符串。

使用新版本

任何一个在线上搜索Python资料的人都会发现无数关于Python版本迁移的信息。通常，Python每一个版本都针对之前的一个版本做了优化和改进，以让Python运行的更快。限制因素是你喜欢的函数库是否也针对Python的新版本做了改进。

当你使用了新的函数库，获得了Python的新版本，你需要保证代码依然能够运行，检查应用，修正差异。然后，如果你仅仅是

Ⅳ 优化Python编程的4个妙招

1. Pandas.apply() – 特征工程瑰宝

Pandas 库已经非常优化了，但是大部分人都没有发挥它的最大作用。想想它一般会用于数据科学项目中的哪些地方。一般首先能想到的就是特征工程，即用已有特征创造新特征。其中最高效的方法之一就是Pandas.apply()，即Pandas中的apply函数。

在Pandas.apply()中，可以传递用户定义功能并将其应用到Pandas Series的所有数据点中。这个函数是Pandas库最好的扩展功能之一，它能根据所需条件分隔数据。之后便能将其有效应用到数据处理任务中。

2. Pandas.DataFrame.loc – Python数据操作绝妙技巧

所有和数据处理打交道的数据科学家(差不多所有人了!)都应该学会这个方法。

很多时候，数据科学家需要根据一些条件更新数据集中某列的某些值。Pandas.DataFrame.loc就是此类问题最优的解决方法。

3. Python函数向量化

另一种解决缓慢循环的方法就是将函数向量化。这意味着新建函数会应用于输入列表，并返回结果数组。在Python中使用向量化能至少迭代两次，从而加速计算。

事实上，这样不仅能加速代码运算，还能让代码更加简洁清晰。

4. Python多重处理

多重处理能使系统同时支持一个以上的处理器。

此处将数据处理分成多个任务，让它们各自独立运行。处理庞大的数据集时，即使是apply函数也显得有些迟缓。

关于优化Python编程的4个妙招，青藤小编就和您分享到这里了。如果您对python编程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于python编程的技巧及素材等内容，可以点击本站的其他文章进行学习。

Ⅵ 对于Python 的科学计算有哪些提高运算速度的技

一：学会正确使用numpy scipy。 numpy scipy写好的绝不自己写，比如矩阵运算等操作，pylab的实现还算不错。各种函数都有，尽量使用他们可以避免初学者大部分的速度不足问题。因为这些函数大部分都是预编译好的。
根据我几年前的测试，python的矩阵运算速度并不慢，(因为你运行的是动态链接库里面的函数而不是脚本）比mathematica快，和matlab持平。
大部分新手不擅长看文档啥都自己造轮子是不好的。当然老手把效率写的比开源库高也不算啥新闻，毕竟有对特定程序的优化
二：减少for的使用，多使用向量化函数，np.vectorlize可以把函数变成对数组逐元素的操作，比for效率高几个华莱士。
三：对内存友好，操作大矩阵的时候减少会引起整矩阵对此的操作
四：系统最慢的大部分时候是io，包括上面说的内存操作和频繁的读入读出以及debug输出。避免他们，在需要实时处理的时候引入类似于gpu的pipeline管线机制或者使用灵活的多线程编程可以起到奇效。
五：matplotlib的绘图效率并不高明，在使用交互绘图（plt.ion）的时候减少不必要的刷新率。

Ⅶ 优化Python爬虫速度的方法有哪些

很多爬虫工作者都遇到过抓取非常慢的问题，尤其是需要采集大量数据的情况下。那么如何提高爬虫采集效率就十分关键，那一块了解如何提高爬虫采集效率问题。
1.尽可能减少网站访问次数
单次爬虫的主要把时间消耗在网络请求等待响应上面，所以能减少网站访问就减少网站访问，既减少自身的工作量，也减轻网站的压力，还降低被封的风险。
第一步要做的就是流程优化，尽量精简流程，避免在多个页面重复获取。
随后去重，同样是十分重要的手段，一般根据url或者id进行唯一性判别，爬过的就不再继续爬了。
2.分布式爬虫
即便把各种法子都用尽了，单机单位时间内能爬的网页数仍是有限的，面对大量的网页页面队列，可计算的时间仍是很长，这种情况下就必须要用机器换时间了，这就是分布式爬虫。
第一步，分布式并不是爬虫的本质，也并不是必须的，对于互相独立、不存在通信的任务就可手动对任务分割，随后在多个机器上各自执行，减少每台机器的工作量，费时就会成倍减少。
例如有200W个网页页面待爬，可以用5台机器各自爬互不重复的40W个网页页面，相对来说单机费时就缩短了5倍。
可是如果存在着需要通信的状况，例如一个变动的待爬队列，每爬一次这个队列就会发生变化，即便分割任务也就有交叉重复，因为各个机器在程序运行时的待爬队列都不一样了——这种情况下只能用分布式，一个Master存储队列，其他多个Slave各自来取，这样共享一个队列，取的情况下互斥也不会重复爬取。IPIDEA提供高匿稳定的IP同时更注重用户隐私的保护，保障用户的信息安全。含有240＋国家地区的ip，支持API批量使用，支持多线程高并发使用。

导航:首页 > 编程语言 > python加速慢怎么解决

python加速慢怎么解决

与python加速慢怎么解决相关的资料