python搜索框架_Python有哪些常见的好用的爬虫框架

❶ python中的爬虫框架有哪些呢

实现爬虫技术的编程环境有很多种，Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫，为什么呢？因为Python确实很适合做爬虫，丰富的第三方库十分强大，简单几行代码便可实现你想要的功能。更重要的，Python也是数据挖掘和分析的好能手。那么，Python爬虫一般用什么框架比较好？
一般来讲，只有在遇到比较大型的需求时，才会使用Python爬虫框架。这样的做的主要目的，是为了方便管理以及扩展。本文我将向大家推荐十个Python爬虫框架。
1、Scrapy：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。它的特性有：HTML, XML源数据选择及提取的内置支持；提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。
2、Crawley：高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
3、Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

4、newspaper：可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。作者从requests库的简洁与强大得到灵感，使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。
5、Python-goose：Java写的文章提取工具。Python-goose框架可提取的信息包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。
6、Beautiful Soup：名气大，整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载JS。
7、mechanize：它的优点是可以加载JS。当然它也有缺点，比如文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
8、selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。Selenium是自动化测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与Python的对接，Python进行后期的处理。
9、cola：是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。项目整体设计有点糟，模块间耦合度较高。
10、PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。Python脚本控制，可以用任何你喜欢的html解析包。

❷ Python有哪些常见的，好用的爬虫框架

目前实现爬虫技术的编程环境有很多种，Java、Python、C++等都可以用来写爬虫。但很多人选择Python来写爬虫，原因是Python确实很适合做爬虫，丰富的第三方库十分强大，简单几行代码便可实现你想要的功能。更重要的，Python也是数据挖掘和分析的好能手。那么，今天IPIDEA就带大家来了解Python爬虫一般用什么框架比较好。

Beautiful Soup：整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载JS。

selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。Selenium是自动化测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与Python的对接，Python进行后期的处理。

Scrapy：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。它的特性有：HTML, XML源数据选择及提取的内置支持；提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。

Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

cola：是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。项目整体设计有点糟，模块间耦合度较高。

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。Python脚本控制，可以用任何你喜欢的html解析包。

❸ Python 有哪些好的 Web 框架

1、Django框架
优点：是一个高层次Python Web开发框架，特点是开发快速、代码较少、可扩展性强。Django采用MTV(Model、Template、View)模型组织资源，框架功能丰富，模板扩展选择最多。对于专业人员来说，Django是当之无愧的Python排名第一的Web开发框架。
缺点：包括一些轻量级应用不需要的功能模块，不如Flask轻便。过度封装很多类和方法，直接使用比较简单，但改动起来比较困难。相比于 C,C++性能，Django性能偏低。模板实现了代码和样式完全分离，不允许模板里出现Python代码，灵活度不够。另外学习曲线也相对陡峭。
2、Flask框架
优点：Flask是一个Python Web开发的微框架，严格来说，它仅提供Web服务器支持，不提供全栈开发支持。然而，Flask非常轻量、非常简单，基于它搭建Web系统都以分钟来计时，特别适合小微原型系统的开发。花少时间、产生可用系统，是非常划算的选择。
缺点：对于大型网站开发，需要设计路由映射的规则，否则导致代码混乱。对新手来说，容易使用低质量的代码创建 “不良的web应用程序”。
3、Pyramid框架
优点：是一个扩展性很强且灵活的Python Web开发框架。上手十分容易，比较适合中等规模且边开发边设计的场景。Pyramid不提供绝对严格的框架定义，根据需求可以扩展开发，对高阶程序员十分友好。
缺点：国内知名度不高，高级用法需要通过阅读源代码获取灵感。默认使用Chameleon模板，灵活度没有成为一个要素。
4、web.py框架
优点：正如其名，web.py是一个采用Python作为开发语言的Web框架，简单且强大。俄罗斯排名第一的Yandex搜索引擎基于这个框架开发，Guido van Rossum认为这是最好的Python Web框架，还需要说别的吗?有事实作证、有大牛认可，用起来吧!
缺点：Web.py并未像其他框架一样保持与Python 3兼容性的最新状态。这不仅意味着缺乏对异步语法的支持，还意味着缺少对已弃用的函数的错误。此外，目前尚不清楚维护者是否有计划在Python 2到达其支持生命周期结束后保持Web.py的最新状态。
5、Tornado框架
优点：Tornado是一个基于异步网络功能库的Web开发框架，因此，它能支持几万个开放连接，Web服务高效稳定。可见，Tornado适合高并发场景下的Web系统，开发过程需要采用Tornado提供的框架，灵活性较差，确定场景后再考虑使用不迟。
缺点：Tornado 5.0改进了与Python的本机异步功能的集成。因此不再支持Python 3.3.并且Python 3.5用户必须使用Python 3.5.2或更高版本。Tornado 6.0将需要Python 3.5及更高版本，并将完全放弃Python 2支持。

❹ python学习的框架是哪些

从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O，OLAP，Web开发，高性能网络通信，测试，爬虫等。
Django: Python Web应用开发框架
Django 应该是最出名的Python框架，GAE甚至Erlang都有框架受它影响。Django是走大而全的方向，它最出名的是其全自动化的管理后台：只需要使用起ORM，做简单的对象定义，它就能自动生成数据库结构、以及全功能的管理后台。
Diesel：基于Greenlet的事件I/O框架
Diesel提供一个整洁的API来编写网络客户端和服务器。支持TCP和UDP。
Flask：一个用Python编写的轻量级Web应用框架
Flask是一个使用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2
模板引擎。Flask也被称为“microframework”，因为它使用简单的核心，用extension增加其他功能。Flask没有默认使用的数
据库、窗体验证工具。
Cubes：轻量级Python OLAP框架
Cubes是一个轻量级Python框架，包含OLAP、多维数据分析和浏览聚合数据（aggregated data）等工具。
Kartograph.py：创造矢量地图的轻量级Python框架
Kartograph是一个Python库，用来为ESRI生成SVG地图。Kartograph.py目前仍处于beta阶段，你可以在virtualenv环境下来测试。
Pulsar：Python的事件驱动并发框架
Pulsar是一个事件驱动的并发框架，有了pulsar，你可以写出在不同进程或线程中运行一个或多个活动的异步服务器。
Web2py：全栈式Web框架
Web2py是一个为Python语言提供的全功能Web应用框架，旨在敏捷快速的开发Web应用，具有快速、安全以及可移植的数据库驱动的应用，兼容Google App Engine。
Falcon：构建云API和网络应用后端的高性能Python框架
Falcon是一个构建云API的高性能Python框架，它鼓励使用REST架构风格，尽可能以最少的力气做最多的事情。
Dpark：Python版的Spark
DPark是Spark的Python克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark完成，正日趋完善。
Buildbot：基于Python的持续集成测试框架
Buildbot是一个开源框架，可以自动化软件构建、测试和发布等过程。每当代码有改变，服务器要求不同平台上的客户端立即进行代码构建和测试，收集并报告不同平台的构建和测试结果。
Zerorpc：基于ZeroMQ的高性能分布式RPC框架
Zerorpc是一个基于ZeroMQ和MessagePack开发的远程过程调用协议（RPC）实现。和 Zerorpc 一起使用的 Service API 被称为 zeroservice。Zerorpc 可以通过编程或命令行方式调用。
Bottle: 微型Python Web框架
Bottle是一个简单高效的遵循WSGI的微型python Web框架。说微型，是因为它只有一个文件，除Python标准库外，它不依赖于任何第三方模块。
Tornado：异步非阻塞IO的Python Web框架
Tornado的全称是Torado Web Server，从名字上看就可知道它可以用作Web服务器，但同时它也是一个Python Web的开发框架。最初是在FriendFeed公司的网站上使用，FaceBook收购了之后便开源了出来。
webpy: 轻量级的Python Web框架
webpy的设计理念力求精简（Keep it simple and powerful），源码很简短，只提供一个框架所必须的东西，不依赖大量的第三方模块，它没有URL路由、没有模板也没有数据库的访问。
Scrapy：Python的爬虫框架
Scrapy是一个使用Python编写的，轻量级的，简单轻巧，并且使用起来非常的方便

❺ python的爬虫框架有哪些

实现爬虫技术的编程环境有很多种，Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫，为什么呢？因为Python确实很适合做爬虫，丰富的第三方库十分强大，简单几行代码便可实现你想要的功能。更重要的，Python也是数据挖掘和分析的好能手。
高效的Python爬虫框架。分享给大家。
1.Scrapy
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。
2.PySpider
pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。
3.Crawley
Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
4、Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。
5.Newspaper
Newspaper可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。
6、Python-goose：Java写的文章提取工具。Python-goose框架可提取的信息包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。
7.Grab

Grab是一个用于构建Web刮板的Python框架。借助Grab，您可以构建各种复杂的网页抓取工具，从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具
8、selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

❻ python都有哪些框架

这要看你说的是那些方面的框架

像web框架 flask、django、Tornado
爬虫 Scrapy、Crawley、Portia
框架多得是，要你需要什么框架

❼ Python的爬虫框架有哪些

向大家推荐十个Python爬虫框架。

1、Scrapy：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。它的特性有：HTML, XML源数据选择及提取的内置支持；提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。

2、Crawley：高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。

3、Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

4、newspaper：可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。作者从requests库的简洁与强大得到灵感，使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。

5、Python-goose：Java写的文章提取工具。Python-goose框架可提取的信息包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

6、Beautiful Soup：名气大，整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载JS。

7、mechanize：它的优点是可以加载JS。当然它也有缺点，比如文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。

8、selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。Selenium是自动化测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与Python的对接，Python进行后期的处理。

9、cola：是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。项目整体设计有点糟，模块间耦合度较高。

10、PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。Python脚本控制，可以用任何你喜欢的html解析包。

以上就是分享的Python爬虫一般用的十大主流框架。这些框架的优缺点都不同，大家在使用的时候，可以根据具体场景选择合适的框架。

❽ 如何在python的flask框架中实现全文搜索

以前有过类似的问题可以参考下：

http://blog.csdn.net/tonysz126/article/details/8280696/

❾ Python几种主流框架比较

从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O，OLAP，Web开发，高性能网络通信，测试，爬虫等。x0dx0ax0dx0aDjango: Python Web应用开发框架x0dx0a Django 应该是最出名的Python框架，GAE甚至Erlang都有框架受它影响。Django是走大而全的方向，它最出名的是其全自动化的管理后台：只需要使用起ORM，做简单的对象定义，它就能自动生成数据库结构、以及全功能的管理后台。x0dx0ax0dx0aDiesel：基于Greenlet的事件I/O框架x0dx0a Diesel提供一个整洁的API来编写网络客户端和服务器。支持TCP和UDP。x0dx0ax0dx0aFlask：一个用Python编写的轻量级Web应用框架x0dx0a Flask是一个使用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2 x0dx0a模板引擎。Flask也被称为“microframework”，因为它使用简单的核心，用extension增加其他功能。Flask没有默认使用的数x0dx0a据库、窗体验证工具。x0dx0ax0dx0aCubes：轻量级Python OLAP框架x0dx0a Cubes是一个轻量级Python框架，包含OLAP、多维数据分析和浏览聚合数据（aggregated data）等工具。x0dx0ax0dx0aKartograph.py：创造矢量地图的轻量级Python框架x0dx0a Kartograph是一个Python库，用来为ESRI生成SVG地图。Kartograph.py目前仍处于beta阶段，你可以在virtualenv环境下来测试。x0dx0ax0dx0aPulsar：Python的事件驱动并发框架x0dx0a Pulsar是一个事件驱动的并发框架，有了pulsar，你可以写出在不同进程或线程中运行一个或多个活动的异步服务器。x0dx0ax0dx0aWeb2py：全栈式Web框架x0dx0a Web2py是一个为Python语言提供的全功能Web应用框架，旨在敏捷快速的开发Web应用，具有快速、安全以及可移植的数据库驱动的应用，兼容Google App Engine。x0dx0ax0dx0aFalcon：构建云API和网络应用后端的高性能Python框架x0dx0a Falcon是一个构建云API的高性能Python框架，它鼓励使用REST架构风格，尽可能以最少的力气做最多的事情。x0dx0ax0dx0aDpark：Python版的Sparkx0dx0a DPark是Spark的Python克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark完成，正日趋完善。x0dx0ax0dx0aBuildbot：基于Python的持续集成测试框架x0dx0a Buildbot是一个开源框架，可以自动化软件构建、测试和发布等过程。每当代码有改变，服务器要求不同平台上的客户端立即进行代码构建和测试，收集并报告不同平台的构建和测试结果。x0dx0ax0dx0aZerorpc：基于ZeroMQ的高性能分布式RPC框架x0dx0a Zerorpc是一个基于ZeroMQ和MessagePack开发的远程过程调用协议（RPC）实现。和 Zerorpc 一起使用的 Service API 被称为 zeroservice。Zerorpc 可以通过编程或命令行方式调用。x0dx0ax0dx0aBottle: 微型Python Web框架x0dx0a Bottle是一个简单高效的遵循WSGI的微型python Web框架。说微型，是因为它只有一个文件，除Python标准库外，它不依赖于任何第三方模块。x0dx0ax0dx0aTornado：异步非阻塞IO的Python Web框架x0dx0a Tornado的全称是Torado Web Server，从名字上看就可知道它可以用作Web服务器，但同时它也是一个Python Web的开发框架。最初是在FriendFeed公司的网站上使用，FaceBook收购了之后便开源了出来。x0dx0ax0dx0awebpy: 轻量级的Python Web框架x0dx0a webpy的设计理念力求精简（Keep it simple and powerful），源码很简短，只提供一个框架所必须的东西，不依赖大量的第三方模块，它没有URL路由、没有模板也没有数据库的访问。x0dx0ax0dx0aScrapy：Python的爬虫框架x0dx0a Scrapy是一个使用Python编写的，轻量级的，简单轻巧，并且使用起来非常的方便。

导航:首页 > 编程语言 > python搜索框架

python搜索框架

与python搜索框架相关的资料