海量数据搜索算法_海量数据排序内存足够大用哪种排序算法好为什么

‘壹’ 百度搜索引擎的算法是怎样的

衡量网页质量的维度
网络搜索引擎在衡量网页质量时，会从以下三个维度综合考虑给出一个质量打分。下面会一一介绍这些影响网页质量判断的维度特征：
• 内容质量
• 浏览体验
• 可访问性
一个访问流畅，内容质量高且浏览体验好的网页具有较高的质量；反之，任何一个维度出现问题，都会影响网页的整体质量。下面我们具体介绍下这三个维度。

衡量网页质量的维度——内容质量

网页主体内容是网页的价值所在，是满足用户需求的前提基础。网络搜索引擎评价网页内容质量主要看其主体内容的好坏，以及主体内容是否可以让用户满意。不同类型网页的主体内容不同，网络搜索引擎判断不同网页的内容价值时，需要关注的点也有区别，如：
• 首页：导航链接和推荐内容是否清晰、有效。
• 文章页：能否提供清晰完整的内容，图文并茂更佳。
• 商品页：是否提供了完整真实的商品信息和有效的购买入口。
• 问答页：是否提供了有参考价值的答案。
• 下载页：是否提供下载入口，是否有权限限制，资源是否有效。
• 文档页：是否可供用户阅读，是否有权限限制。
• 搜索结果页：搜索出来的结果是否与标题相关。

网络搜索引擎考量网页内容质量的维度非常多，最为重要的是：成本；内容完整；信息真实有效以及安全。下面我们通过举例来感受一下网络搜索引擎是如何对网页的内容质量进行分类的，请站长对比自己站点的页面，站在搜索引擎和用户的角度为自己打分：
1、内容质量好：
网络搜索引擎认为内容质量好的网页，花费了较多时间和精力编辑，倾注了编者的经验和专业知识；内容清晰、完整且丰富；资源有效且优质；信息真实有效；安全无毒；不含任何作弊行为和意图，对用户有较强的正收益。对这部分网页，网络搜索引擎会提高其展现在用户面前的机率。例如：
• 专业医疗机构发布的内容丰富的医疗专题页面；
• 资深工程师发布的完整解决某个技术问题的专业文章；
• 专业视频网站上，播放清晰流畅的正版电影或影视全集页面；
• 知名B2C网站上，一个完整有效的商品购买页；
• 权威新闻站原创或经过编辑整理的热点新闻报道；
• 经过网友认真编辑，内容丰富的词条；
• 问答网站内，回答的内容可以完美解决提问者的问题。

实例参考：

示例

内容质量

说明

case 3.1.1-1

好

专业医疗网站发布的丰富医疗专题页面

case 3.1.1-2

好

资深工程师发布的完整解决某个技术问题的专业文章

case 3.1.1-3

好

专业视频网站上，播放清晰流畅的正版影视全集页面

case 3.1.1-4

好

京东的一个完整有效的商品购买页

case 3.1.1-5

好

权威新闻站原创的热点新闻的报道

case 3.1.1-6

好

经过网友认真编辑，内容丰富的网络词条

case3.1.1-7

好

网络知道上，完美解决用户问题的问答页

2、内容质量中：
内容质量中等的网页往往能满足用户需求，但未花费较多时间和精力进行制作编辑，不能体现出编者的经验和专业知识；内容完整但并不丰富；资源有效但质量欠佳；信息虽真实有效但属采集得来；安全无毒；不含作弊行为和意图。在互联网中，中等质量网页其实是一个比较大的数量集合，种类面貌也繁杂多样，网络搜索引擎在评价这类网页时往往还要考虑其它非常多因素。在这里，我们仅部分举例来让各位感受一下：
• 论坛类网站里一个普通的帖子；
• 一个普通的问答网页；
• 没有进行任何编辑，直接转载其它网站的新闻；
• 无版权信息的普通电影播放页
• 采集知名小说网站的盗版小说页。

实例参考：

示例

内容质量

说明

case 3.1.2-1

中

网易直接转载了中国新闻网的一篇新闻。

case 3.1.2-2

中

文库上网友上传的“国庆放假安排”新闻

case 3.1.2-3

中

采集起点小说网的盗版小说站

case 3.1.2-4

中

网络贴吧里一个普通的帖子

3、内容质量差：
网络搜索引擎认为主体内容信息量较少，或无有效信息、信息失效过期的都属于内容质量差网页，对用户没有什么实质性的帮助，应该减少其展现的机会。同时，如果一个网站内该类网页的占比过大，也会影响网络搜索引擎对站点的评级，尤其是UGC网站、电商网站、黄页网站要尤其重视对过期、失效网页的管理。例如：
• 已下架的商品页，或已过期的团购页；
• 已过有效期的招聘、交易页面；
• 资源已失效，如视频已删除、软件下载后无法使用等。

4、没有内容质量可言：
没有内容质量可言的网页指那些制作成本很低，粗制滥造；从别处采集来的内容未经最起码的编辑整理即放置线上；挂木马等病毒；含有作弊行为或意图；完全不能满足用户需求，甚至含有欺骗内容的网页。例如：
• 内容空短，有很少量的内容，却不能支撑页面的主要意图；
• 问答页有问无答，或回答完全不能解决问题；
• 站内搜索结果页，但没有给出相关信息

除上述网页外，欺骗用户和搜索引擎的网页在无内容质量可言集合里占很高比例。网络搜索引擎对作弊网页的定义是：不以满足用户需求为目的，通过不正当手段欺骗用户和搜索引擎从而获利的网页。目前互联网上这部分网页还属少数，但作弊网页的价值是负向的，对用户的伤害非常大，对这类网页，搜索引擎持坚决打击态度。

衡量网页质量的维度——浏览体验
不同质量的网页带给用户的浏览体验会有很大差距，一个优质的网页给用户的浏览体验应该是正向的。用户希望看到干净、易阅读的网页，排版混乱、广告过多会影响用户对网页主体内容的获取。在网络搜索引擎网页质量体系中，用户对网页主体内容的获取成本与浏览体验呈反比，即获取成本越高，浏览体验越低。面对内容质量相近的网页，浏览体验佳者更容易获得更高的排位，而对于浏览体验差的网页，网络搜索引擎会视情况降低其展现的机率甚至拒绝收录。
影响用户浏览体验好坏的因素很多，目前网络搜索引擎主要从内容排版、广告影响两方面对网页进行考量：
内容排版：用户进入网页第一眼看到的就是内容排版，排版决定了用户对网页的第一印象，也决定了用户对内容获取的成本。
广告影响：网络搜索引擎理解网站的生存发展需要资金支持，对网页上放置正当广告持支持态度。网页应该以满足用户需求为主旨，最佳状态即“主体内容与广告一起满足用户需求，内容为主，广告为辅”，而不应让广告成为网页主体。

下面我们通过举例来感受一下网络搜索引擎是如何对网页的浏览体验进行分类的，站长可以据此对比检验自己站点的浏览体验如何：
1、浏览体验好：
页面布局合理，用户获取主体内容成本低，一般具有以下特征：
• 排版合理，版式美观，易于阅读和浏览；
• 用户需要的内容占据网页最重要位置；
• 能够通过页面标签或页面布局十分清楚地区分出哪些是广告；
• 广告不抢占主体内容位置，不阻碍用户对主要内容的获取；

实例参考：

示例

浏览体验

说明

case 3.2.1-1

好

招聘、房产等网站首页也有很多广告，但都是招聘相关的，浏览体验是ok的。

case 3.2.1-2

好

文章页，页面布局合理，无广告，排版好，结构合理

case 3.2.1-3

好

游戏首页，排版美观，布局合理，无广告，浏览体验优

2、浏览体验差：
页面布局和广告放置影响了用户对主体内容的获取，提高了用户获取信息的成本，令用户反感。包括但不仅限于以下情况：
• 正文内容不换行或不分段，用户阅读困难；
• 字体和背景颜色相近，内容辨别困难；
• 页面布局不合理，网页首屏看不到任何有价值的主体内容；
• 广告遮挡主体内容；或者在通用分辨率下，首屏都是广告，看不到主体内容；
• 弹窗广告过多；
• 影响阅读的浮动广告过多
• 点击链接时，出现预期之外的弹窗；
• 广告与内容混淆，不易区分；

衡量网页质量的维度——可访问性
用户希望快速地从搜索引擎获取到需要的信息，网络搜索引擎尽可能为用户提供能一次性直接获取所有信息的网页结果。网络搜索引擎认为不能直接获取到主体内容的网页对用户是不友好的，会视情况调整其展现机率。

网络搜索引擎会从正常打开、权限限制、有效性三方面判断网页的可访问性，对于可以正常访问的网页，可以参与正常排序；对于有权限限制的网页，再通过其它维度对其进行观察；对于失效网页，会降权其展现机制甚至从数据库中删除。

1、可正常访问的网页
无权限限制，能直接访问所有主体内容的网页。

2、有权限限制的网页
此类网页分为两种：打开权限和资源获取权限
1）打开权限：指打开网页都需要登录权限，没有权限完全无法看到具体内容，普通用户无法获取或获取成本很高，网络搜索引擎会降低其展现机率。不包括以登录为主要功能的网页。
2）资源获取权限：指获取网页主要内容，如文档、软件、视频等，需要权限或者需要安装插件才能获得完整内容。此时会分三种情况：
• 提供优质、正版内容的网站，由于内容建设成本很高，尽管查看全文或下载时需要权限或安装插件，但属于用户预期之内，网络搜索引擎也不认为权限行为对用户造成伤害，给予与正常可访问页面相同的对待。
• 对于一些非优质、非正版的资源，来自于用户转载甚至机器采集，本身成本较低，内容也不独特，用户获取资源还有权限限制——需要用户注册登录或者付费查看，网络搜索引擎会根据具体情况决定是否调整其展现。
• 还有一些视频、下载资源页，也许自身资源质量并不差，但需要安装非常冷门的插件才能正常访问，比如要求安装“xx大片播放器”，网络搜索引擎会怀疑其有恶意倾向。

实例参考：

示例

可访问性

说明

case 3.2-1

好

CNKI上的一篇论文，收费才能下载，但有版权，浏览体验好

case 3.2-2

好

优酷上一部新电影，需要付费才能观看，浏览体验好。

case 3.2-3

中

内容是来，但是需要登录才能看更多

case 3.2-4

差

入党申请书，本身就是转载的，网上到处都是，但这个页面仍然要求收费才能下载。

3、失效网页
往往指死链和主体资源失效的网页。网络搜索引擎认为这部分网页无法提供有价值信息，如果站点中此类网页过多，也会影响网络搜索引擎对其的收录和评级。建议站长对此类网页进行相应设置，并及时登录网络站长平台，使用死链提交工具告知网络搜索引擎。
失效网页包括但不仅限于：
• 404、403、503等网页；
• 程序代码报错网页；
• 打开后提示内容被删除，或因内容已不存在跳转到首页的网页；
• 被删除内容的论坛帖子，被删除的视频页面（多出现在UGC站点）

具体请参阅《网络搜索引擎网页质量白皮书》，望采纳！

‘贰’ 海量数据排序，内存足够大，用哪种排序算法好为什么

海量数据排序，内存足够大，那么，一般来说用归并排序比较好，因为他的读取次数会比较少，但是如果，内存空间不足，就自然要减少次数了，所以也可以用快速排序。

‘叁’ 云计算的海量数据挖掘工作是怎样实现的

云计算属于新兴技术领域，群英云计算转一篇关于问题的学术报告吧。对您应该有所帮助。

1引言

目前，人们正处于一个“无处不网、无时不网，人人上网、时时在线”的时代，图灵奖获得者吉姆·格雷（Jim Gray）认为，网络环境下每18个月产生的数据量等于过去几千年的数据量之和。目前互联网的数据具有海量增长、用户广泛、动态变化等特征。2010年，QQ同时在线的用户超过1亿人，淘宝一年交易次数比上年增长150%，视频服务Animoto在3天内通过Amazon将其服务能力迅速扩展至75万用户。

数据挖掘能够发现隐含在大规模数据中的知识，提高信息服务的质量。如伊朗事件中twitter快速传播假消息的识别、Amazon和淘宝网中商品关联关系分析，以及优酷网中视频个性化推荐等。海量数据挖掘在国家安全、国民经济和现代服务业中具有广泛应用，有助于提升网络环境下信息服务的质量，实现以人为本的信息服务。

从数据挖掘技术的发展历史看，随着互联网的蓬勃发展，数据的规模越来越大，从KB级发展到TB甚至PB级海量数据；数据挖掘的对象也变得越来越复杂，从数据库、到多媒体数据和复杂社会网络；数据挖掘的需求也从分类、聚类和关联到复杂的演化和预测分析；挖掘过程中的交互方式从单机的人机交互发展到现在社会网络群体的交互。这种发展给数据挖掘带来了巨大的挑战：对于网络环境下产生的TB级和PB级的复杂数据，需要有高效的海量数据挖掘算法；网络环境下大众的广泛参与，需要在数据挖掘算法中能够融入群体智慧；同时社会网络的迅速发展使得信息服务的个性化成为必然，要求能够满足即时组合的个性化挖掘服务。

云计算是一种基于互联网的、大众参与的计算模式，其计算资源（包括计算能力、存储能力、交互能力等）是动态、可伸缩、被虚拟化的，并以服务的方式提供 [1] 。具体表现在：云计算的动态和可伸缩的计算能力为高效海量数据挖掘带来可能性；云计算环境下大众参与的群体智能为研究集群体智慧的新的数据挖掘方法研究提供了环境；云计算的服务化特征使面向大众的数据挖掘成为可能。同时，云计算发展也离不开数据挖掘的支持，以搜索为例，基于云计算的搜索包括网页存储、搜索处理和前端交互三大部分。数据挖掘在这几部分中都有广泛应用，例如网页存储中网页去重、搜索处理中网页排序和前端交互中的查询建议，其中每部分都需要数据挖掘技术的支持。

因此，云计算为海量和复杂数据对象的数据挖掘提供了基础设施，为网络环境下面向大众的数据挖掘服务带来了机遇，同时也为数据挖掘研究提出了新的挑战性课题。

下面将对并行编程模型、基于并行编程模型高效海量数据挖掘算法，以及基于云计算的海量数据挖掘服务相关研究进行综述。

2并行编程模型相关方法

为了使用户能够通过简单的开发来方便地达到并行计算的效果，研究人员提出了一系列的并行计算模型。并行计算模型在用户需求和底层的硬件系统之间搭建桥梁使得并行算法的表示变得更加直观，对大规模数据的处理更加便捷。根据用户使用硬件环境的不同，并行编程模型又可以分为在多核机器、GPU计算、大型计算机以及计算机集群上的多种类型。目前比较常用的并行编程接口和模型包括：

pThread接口[2]。pThread是在类Unix系统上进行多线程编程的通用API，为用户提供了一系列对线程进行创建、管理和各类操作的函数，使用户能够方便地编写多线程程序。

MPI模型[3]。MPI的全称为消息传递接口（Message Passing Interface），它为用户提供了一系列的接口，使用户利用消息传递的方式来建立进程间的通信机制，从而方便地对各种算法进行并行实现。

MapRece模型[4]。MapRece模型是由谷歌公司提出的并行编程框架，它首先为用户提供分布式的文件系统，使用户能方便地处理大规模数据；然后将所有的程序运算抽象为Map和Rece两个基本操作，在Map阶段模型将问题分解为更小规模的问题，并在集群的不同节点上执行，在Rece阶段将结果归并汇总。MapRece是一个简单，但是非常有效的并行编程模型。

Pregel模型[5]。Pregel同样是由谷歌公司提出的专门针对图算法的编程模型，能够为大规模数据的图算法提供并行支持。一个典型的Pregel计算过程将在图上进行一系列的超级步骤（SuperSteps），在每个超级步骤中，所有顶点的计算都并行地执行用户定义的同一个函数，并通过一个“投票”机制来决定程序是否停止。

CUDA模型①。CUDA是由NVIDIA公司提出的一个基于GPU的并行计算模型。由于GPU在设计需求上与普通CPU不同，GPU通常被设计为能较慢地执行许多并发的线程，而不是较快的连续执行多个线程，这使得GPU在并行计算上有先天的优势。CUDA为用户提供了利用GPU计算的各种接口，使程序员能够像在普通电脑上进行CPU编程那样进行GPU程序的编写。

此外还有OpenMP、PVM、OpenCL等各种并行编程模型和方法。这些并行编程和方法一般都提供了主流编程语言的实现，从而使得用户能根据自身编程习惯来选用。

另一方面，随着云计算的不断推广，还出现了各种商用的并行计算/云计算平台，为用户提供并行计算服务。这其中比较着名的包括微软的Azure平台、Amazon公司的EC2平台、IBM公司的蓝云平台、谷歌公司的Google App Engine等。各大IT公司也纷纷开发自己的并行计算模型/框架作为自身技术服务的基本平台，这使得并行计算技术得到了更加快速的发展。

3基于并行编程模型高效海量数据挖掘算法研究

为了实现海量数据上的数据挖掘，大量分布式并行数据挖掘算法被提出。Bhari et al[6]整理了一个十分详尽的并行数据挖掘算法文献目录，包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法，同时还包括分布式系统、隐私保护等相关的研究工作。

MapRece并行编程模型具有强大的处理大规模数据的能力，因而是海量数据挖掘的理想编程平台。数据挖掘算法通常需要遍历训练数据获得相关的统计信息，用于求解或优化模型参数。在大规模数据上进行频繁的数据访问需要耗费大量运算时间。为了提高算法效率，斯坦福大学Chu et al[7]提出了一种适用于大量机器学习算法的通用并行编程方法。通过对经典的机器学习算法进行分析可以发现，算法学习过程中的运算都能转化为若干在训练数据集上的求和操作；求和操作可以独立地在不同数据子集上进行，因此很容易在MapRece编程平台上实现并行化执行。将大规模的数据集分割为若干子集分配给多个Mapper节点，在Mapper节点上分别执行各种求和操作得到中间结果，最后通过Rece节点将求和结果合并，实现学习算法的并行执行。在该框架下，Chu et al实现了十种经典的数据挖掘算法，包括线性回归、朴素贝叶斯、神经网络、主成分分析和支持向量机等，相关成果在NIPS 2006会议上发表。

Ranger et al[8]提出了一个基于MapRece的应用程序编程接口Phoenix，支持多核和多处理器系统环境下的并行程序设计。Phoenix能够进行缓存管理、错误恢复和并发管理。他们使用Phoenix实现了K-Means、主成分分析和线性回归三种数据挖掘算法。

Gillick et al[9]对单程学习（Single-pass）、迭代学习（Iterative Learning）和基于查询的学习（Query-based Learning）三类机器学习算法在MapRece框架下的性能分别做了评测。他们对并行学习算法涉及到的如何在计算节点之间的共享数据、如何处理分布式存储数据等问题进行了研究。

Mahout①是APS（Apache Software Foundation）旗下的一个开源数据挖掘项目，通过使用Apache Hadoop库，可以实现大规模数据上的并行数据挖掘，包括分类、聚类、频繁模式挖掘、回归、降维等算法，目前已经发布了四个版本。

4基于云计算的海量数据挖掘服务研究

云计算除了给用户提供通用的并行编程模型和大规模数据处理能力之外，另一个重要的特点是为用户提供开放的计算服务平台。在数据挖掘方向，现在也有一系列的系统被开发出来，面向公众提供数据挖掘服务云计算平台。

Talia et al[10]提出可以从四个层次提供云计算数据挖掘服务：底层为组成数据挖掘算法的基本步骤；第二层为单独的数据挖掘服务，例如分类、聚类等；第三层为分布式的数据挖掘模式，例如并行分类、聚合式机器学习等；第四层为之前三层元素构成的完整的数据挖掘应用。在此设计基础上，他们设计了基于云计算的数据挖掘开放服务框架，并开发了一系列的数据挖掘服务系统，例如Weka4WS、Knowledge Grid、Mobile Data Mining Services、Mining@home等，用户可以利用图形界面定义自己的数据挖掘工作流，然后在平台上执行。

PDMiner[11]是由中国科学院计算技术研究所开发的基于Hadoop的并行分布式数据挖掘平台，该系统现在已经用于中国移动通信企业TB级实际数据的挖掘。PDMiner提供了一系列并行挖掘算法和ETL操作组件，开发的ETL算法绝大多数达到了线性加速比，同时具有很好的容错性。PDMiner的开放式架构可以使用户将算法组件经过简单配置方便地封装加载到系统中。

此外，商业智能领域的各大公司也提供面向企业的大规模数据挖掘服务，例如微策略、IBM、Oracle等公司都拥有自己的基于云计算的数据挖掘服务平台。

5总结和展望

通过云计算的海量数据存储和分布计算，为云计算环境下的海量数据挖掘提供了新方法和手段，有效解决了海量数据挖掘的分布存储和高效计算问题。开展基于云计算特点的数据挖掘方法的研究，可以为更多、更复杂的海量数据挖掘问题提供新的理论与支撑工具。而作为传统数据挖掘向云计算的延伸和丰富，基于云计算的海量数据挖掘将推动互联网先进技术成果服务于大众，是促进信息资源的深度分享和可持续利用的新方法、新途径。

导航:首页 > 源码编译 > 海量数据搜索算法

海量数据搜索算法

与海量数据搜索算法相关的资料