导航:首页 > 源码编译 > 安卓掌上新闻源码

安卓掌上新闻源码

发布时间:2024-03-31 21:10:50

A. [内附完整源码和文档] 基于python的新闻检索系统

1 系统介绍
1.1 系统需求
新闻检索系统:定向采集不少于 4 个中文社会新闻网站或频道,实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。本项目未使用 lucene,Goose 等成熟开源框架。

1.2 系统思路与框架
本系统总体的实现思路如图 1 所示:

一个完整的搜索系统主要的步骤是:

对新闻网页进行爬虫得到语料库

抽取新闻的主体内容,得到结构化的 xml 数据

内存式单遍扫描索引构建方法构建倒排索引,供检索模块使用

用户输入查询,得到相关文档返回给用户

2 设计方案
2.1 新闻爬取
2.1.1 算法简述
该模块针对搜狐,网易,腾讯三大主流新闻网站及官方的参考消息网站进行了新闻获取。并基于其网站结构,设计了不同的爬取模式。由于网站架构两两相似,以下选取两种类型的典型代表进行介绍:

(1)搜狐新闻
搜狐新闻除正常主页外,存在隐藏的列表式新闻页 , 如 http://news.sohu.com/1/0903/62/subject212846206.shtml 。

(2)网易新闻
可以将网易新闻及腾讯新闻归结为一般类型的新闻主页,我们采用了自新闻主页开始的广度优先的递归爬取策略。注意到新闻的正文页往往是静态网页.html,因此,我们将网页中出现的所有以.html 结尾的网页的 URL 均记录下来,在爬取到一定量时,进行一次去重。

对于一些不是新闻的错分网页,容错处理即通过检查新闻正文标签

时会被剔除。

新闻正文页中我们重点关注内容,时间,评论获取。

2.1.2 创新点
实现了对新闻网页动态加载的评论进行爬取,如搜狐新闻评论爬取

未借助开源新闻爬取工具,自己实现了对新闻标题,正文,时间,评论内容,评论数目的高效爬取

2.2 索引构建
分词,我们借助开源的 jieba 中文分词组件来完成,jieba 分词能够将一个中文句子切成一个个词项,这样就可以统计 tf, df 了

去停用词,去停词的步骤在 jieba 分词之后完成

倒排记录表存储,词典用 B-树或 hash 存储,倒排记录表用邻接链表存储方式,这样能大大减少存储空间

倒排索引构建算法使用内存式单遍扫描索引构建方法(SPIMI),就是依次对每篇新闻进行分词,如果出现新的词项则插入到词典中,否则将该文档的信息追加到词项对应的倒排记录表中。

2.3 检索模块
2.3.1 检索模式
(1)关键词检索
查询即根据用户输入的关键字,返回其相应的新闻。首先根据用户的查询进行 jieba 分词,记录分词后词项的数量以字典形式进行存储。

完整的源码和详细的文档,上传到了 WRITE-BUG技术共享平台 上,需要的请自取:

https://www.write-bug.com/article/3122.html

B. 谁有新浪图片新闻的源码

这个我有研究,我搞的网站上也搞这个东西。很好用的,是FLASH+自定义的图片和对应的文字的链接。最多可定义6组,用|隔开,将下面的代码插入网页中即可。

你只需改PICs links texts三个变量

也可以改
focus_width=flash宽度
focus_height=FLASH高度
text_height=文字高度,不想文字出现就设为0

<!-- flash滚动焦点图 begin -->

<!--焦点图开始-->
<script type="text/javascript">
<!--

var focus_width=260
var focus_height=164
var text_height=25
var swf_height = focus_height+text_height

var pics='http://image2.sina.com.cn/ty/.jpg|http://image2.sina.com.cn/ty/.jpg|http://image2.sina.com.cn/ty/.jpg|http://image2.sina.com.cn/ty/.jpg|http://image2.sina.com.cn/ty/.jpg|http://ad4.sina.com.cn/200510/31/35395_260x164.jpg'
var links='http://sports.sina.com.cn/z/06wceuroqua/|http://sports.sina.com.cn/z/06wceuroqua/|http://sports.sina.com.cn/z/06wceuroqua/|http://sports.sina.com.cn/z/saihei/|/z/05vbchampions/|http://casting11.allyes.com/main/adfclick?db=casting11^bid=103,1892,1898^cid=0,0,0^sid=2080^advid=51^camid=117^show=ignore^url=http://ad.sina.com.cn/minisite/nian_ci_an/index.html'
var texts='悲情土耳其惨遭淘汰|澳大利亚32年后重进世界杯|捷克顺利冲进世界杯|友谊赛国足0-0战平保加利亚|中国女排0-3完败于美国|念慈庵枇杷糖与孙楠提醒您注意!'

document.write('<object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,0,0" width="'+ focus_width +'" height="'+ swf_height +'">');
document.write('<param name="allowScriptAccess" value="sameDomain"><param name="movie" value="http://image2.sina.com.cn/bj/zonghe/pixviewer.swf"><param name="quality" value="high"><param name="bgcolor" value="#DADADA">');
document.write('<param name="menu" value="false"><param name=wmode value="opaque">');
document.write('<param name="FlashVars" value="pics='+pics+'&links='+links+'&texts='+texts+'&borderwidth='+focus_width+'&borderheight='+focus_height+'&textheight='+text_height+'">');
document.write('<embed src="http://image2.sina.com.cn/bj/zonghe/pixviewer.swf" wmode="opaque" FlashVars="pics='+pics+'&links='+links+'&texts='+texts+'&borderwidth='+focus_width+'&borderheight='+focus_height+'&textheight='+text_height+'" menu="false" bgcolor="#DADADA" quality="high" width="'+ focus_width +'" height="'+ swf_height +'" allowScriptAccess="sameDomain" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" />'); document.write('</object>');

//-->
</script>
<!--焦点图结束-->

<!-- flash滚动焦点图 end -->

阅读全文

与安卓掌上新闻源码相关的资料

热点内容
加密狗插上去了怎么办 浏览:620
锤子m1怎么把文件夹重置 浏览:213
APP的数据会存在哪里 浏览:64
一支轻快又解压的舞 浏览:586
80x86编程手册 浏览:765
android机制使用 浏览:361
国外太空探索网站源码 浏览:643
dotaimba命令大全 浏览:13
手解剖pdf 浏览:733
单片机无法烧写程序 浏览:413
pline命令 浏览:109
760贴片机编程视频 浏览:333
欧姆龙plc编程第36讲 浏览:915
我的世界如何将一个服务器弄崩 浏览:8
php网站访问量代码 浏览:431
怠速压缩机咔咔响 浏览:176
怎么才能修改APP中的数据 浏览:688
哪里有抢单的app 浏览:462
算法概率题 浏览:465
长方形拉伸的命令 浏览:279