导航:首页 > 操作系统 > android抓取网页数据

android抓取网页数据

发布时间:2024-03-03 20:17:33

Ⅰ 安卓开发怎么在APP内部调用手机系统浏览器打开指定html并获取HTML的数据

android开发_如何调用 浏览器访问网页和Html文件
一、启动android默认浏览器

Intent intent= new Intent();
intent.setAction('android.intent.action.VIEW');
Uri content_url = Uri.parse('http://www.cnblogs.com');
intent.setData(content_url);
startActivity(intent);
这样子,android就可以调用起手机默认的浏览器访问。

二、指定相应的浏览器访问
1、指定android自带的浏览器访问
( “com.android.browser”:packagename ;“com.android.browser.BrowserActivity”:启动主activity)
Intent intent= new Intent();
intent.setAction('android.intent.action.VIEW');
Uri content_url = Uri.parse('http://www.cnblogs.com');
intent.setData(content_url);
intent.setClassName('com.android.browser','com.android.browser.BrowserActivity');
startActivity(intent);
2、启动其他浏览器(当然该浏览器必须安装在机器上)
只要修改以下相应的packagename 和 主启动activity即可调用其他浏览器

intent.setClassName('com.android.browser','com.android.browser.BrowserActivity');
uc浏览器':'com.uc.browser', 'com.uc.browser.ActivityUpdate“
opera :'com.opera.mini.android', 'com.opera.mini.android.Browser'
qq浏览器:'com.tencent.mtt', 'com.tencent.mtt.MainActivity'

三、打开本地html文件
打开本地的html文件的时候,一定要指定某个浏览器,而不能采用方式一来浏览,具体示例代码如下

Intent intent= new Intent();
intent.setAction('android.intent.action.VIEW');
Uri content_url = Uri.parse('content://com.android.htmlfileprovider/sdcard/help.html');
intent.setData(content_url);
intent.setClassName('com.android.browser','com.android.browser.BrowserActivity');
startActivity(intent);

关键点是调用了”content“这个filter。
以前有在win32编程的朋友,可能会觉得用这种形式”file://sccard/help.html“是否可以,可以很肯定的跟你说,默认的浏览器设置是没有对”file“这个进行解析的,如果要让你的默认android浏览器有这个功能需要自己到android源码修改manifest.xml文件,然后自己编译浏览器代码生成相应的apk包来重新在机器上安装。

大体的步骤如下:

1、打开 packages/apps/Browser/AndroidManifest.xml文件把加到相应的后面就可以了

2、重新编译打包,安装,这样子,新的浏览器就支持”file“这个形式了
有兴趣的可以去试试。

Ⅱ android studio 怎么抓去网页媒体资源

首先,也是很重要的一步,就是下载jar包,丢到libs里面
Android studio玩家可以不下载jar包,在Gradle里面加入
dependencies {undefined
compile 'org.jsoup:jsoup:1.9.2'
}复制代码
然后,找到你心仪的网页去抓取数据
这里我们我继续使用美食的网页,然后右键查看网页源码,或者按F12,接下来可以看到一大堆标签:
Paste_Image.png
找到需要的,例如上图这个 “美食天下” ,可以看到 “美食天下” 是放在以
为节点的 中,要获取这个“美食天下”,代码可以这样写:
try {undefined
//从一个URL加载一个Document对象。
Document doc = Jsoup.connect("http://home.meishichina.com/show-top-type-recipe.html").get();
//选择“美食天下”所在节点
Elements elements = doc.select("div.top-bar");
//打印 a标签里面的title
Log.i("mytag",elements.select("a").attr("title"));
}catch(Exception e) {undefined
Log.i("mytag", e.toString());
}复制代码
接下来看一下打印出来的结果:
Paste_Image.png
Jsoup.connect(String url)方法从一个URL加载一个Document对象。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。
一旦拥有了一个Document,你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。
public class Element extends Node
public class Document extends Element复制代码
很多文章都是说一大堆原理然后放出一个简单的例子,就跟我上面简单的打了一个log一样,然后发现用起来的时候是没那么简单的。为了大家能不看文档也可以直接使用(并且看不懂那一大堆标签也可以用),我决定再举一个例子(其实也就是比上面多打几个log):
下图红色框框是我们要获取的数据,可以看到他们对应的节点就是蓝色圆圈里面的
Paste_Image.png
废话不多说上代码
try {undefined
//还是一样先从一个URL加载一个Document对象。
Document doc = Jsoup.connect("http://home.meishichina.com/show-top-type-recipe.html").get();
//“椒麻鸡”和它对应的图片都在复制代码

Elements titleAndPic = doc.select("div.pic");
//使用Element.select(String selector)查找元素,使用Node.attr(String key)方法取得一个属性的值
Log.i("mytag", "title:" + titleAndPic.get(1).select("a").attr("title") + "pic:" + titleAndPic.get(1).select("a").select("img").attr("data-src"));
//所需链接在
中的a标签里面
Elements url = doc.select("div.detail").select("a");
Log.i("mytag", "url:" + url.get(i).attr("href"));
//原料在

Elements burden = doc.select("p.subcontent");
//对于一个元素中的文本,可以使用Element.text()方法
Log.i("mytag", "burden:" + burden.get(1).text());
}catch(Exception e) {undefined
Log.i("mytag", e.toString());
}
大功告成,接下来看看log
Paste_Image.png
没有问题!那么教学可以结束了!
注意:
Jsoup.connect(String url)方法不能运行在主线程,否则会报NetworkOnMainThreadException

Ⅲ 如何让Android获得网页上的数据

例子来自于android学习手册,android学习手册包含9个章节,108个例子,源码文档随便看,例子都是可交互,可运行,源码采用android studio目录结构,高亮显示代码,文档都采用文档结构图显示,可以快速定位。360手机助手中下载,图标上有贝壳
//第一种
/**获取参数(ArrayList<NameValuePair> nameValuePairs,String url)后post给远程服务器
* 将获得的返回结果(String)返回给调用者
* 本函数适用于查询数量较少的时候
*/
public String posturl(ArrayList<NameValuePair> nameValuePairs,String url){
String result = "";
String tmp= "";
InputStream is = null;
try{
HttpClient httpclient = new DefaultHttpClient();
HttpPost httppost = new HttpPost(url);
httppost.setEntity(new UrlEncodedFormEntity(nameValuePairs));
HttpResponse response = httpclient.execute(httppost);
HttpEntity entity = response.getEntity();
is = entity.getContent();
}catch(Exception e){
return "Fail to establish http connection!";
}

try{
BufferedReader reader = new BufferedReader(new InputStreamReader(is,"utf-8"));
StringBuilder sb = new StringBuilder();
String line = null;
while ((line = reader.readLine()) != null) {
sb.append(line + "\n");
}
is.close();

tmp=sb.toString();
}catch(Exception e){
return "Fail to convert net stream!";
}

try{
JSONArray jArray = new JSONArray(tmp);
for(int i=0;i<jArray.length();i++){
JSONObject json_data = jArray.getJSONObject(i);
Iterator<?> keys=json_data.keys();
while(keys.hasNext()){
result += json_data.getString(keys.next().toString());
}
}
}catch(JSONException e){
return "The URL you post is wrong!";
}

return result;
}

Ⅳ 如何抓取Android内嵌网页地址

使用fiddler

关于android 获取请求地址的详细例子请参考android学习手册,android学习手册包含9个章节,108个例子,源码文档随便看,例子都是可交互,可运行, 源码采用android studio目录结构,高亮显示代码,文档都采用文档结构图显示,可以快速定位。360手机助手中下载,图标上有贝壳

Fiddler是类似代理服务器的形式工作,它能够记录所有你的电脑和互联网之间的http(S)通讯,可以查看、修改所有的“进出”的数据。使用代理地址:127.0.0.1, 默认端口:8888。打开Fiddler会自动设置代理,正常退出会自动注销代理,非正常退出上不了网,重起一次Fiddler,或直接在IE里取消代理即可。

2、方法优劣

[优点]:

1).Fiddler操作简单、方便、功能强大

2).能实时抓包,可模拟修改请求

2).只需要手机支持代理即可

3).适用广,安卓、Iphone、Ipad、WinPhone等支持代理手机均适用

[缺点]:

1).电脑需要安装Fiddler

2).测试手机需要支持Wifi

3).测试手机与电脑需要同一网络

4).所测APP需支持代理

3、准备工作

1).检查电脑网络连接

a.使用同网络内的另一台电脑)ing本机,检查是否连通正常。

原因:我之前测HTML5项目就发现Fiddler代理抓不到包,手机设置均正确,后发现是网络内找不到本机,本机防火墙设置问题。

另外需要关注是否同一网络,如果手机GPRS等上网,你在局域网内抓包...哥觉得你可以改行了...

(约定:后文所述Fiddler所在电脑均称为本机)

2).Fiddler安装

a.下载地址:http://fiddler2.com/get-fiddler

b.安装:省略(下一步...下一步即可)


3).Fiddler配置

a.允许远程计算机连接Fiddler

菜单:Tools-> Fiddler Options->Connections,勾选"Allow remote computers to connect"

注:8888为默认端口号,可修改,但需注意两点,一是本机空闲端口,二是手机代理设置时端口要一致。

b.配置可捕获HTTPS请求(*不需要捕获HTTPS,则忽略此步*)

菜单:Tools-> Fiddler Options->Connections,勾选"Capture HTTPS CONNECTs"后

再勾选"Decrypt HTTPS traffic"、"Ignore server certificate errors"

注1:勾选项英文不认识,请Google,不另做解释

4).手机安装HTTPS证书(*不需要捕获HTTPS,则忽略此步*)

a.首先确定Fiddler所在电脑的IP地址:例:192.168.8.8

b.打开被测手机浏览器,访问http://192.168.8.8:8888,点"FiddlerRoot certificate" 然后安装证书

注:Iphone、Ipad安装则很简单,点击安装即可。Android安装稍微麻烦点,则需要先设置手机锁屏密码、PIN码,安装证书时会提示,按步骤走即可。


4、实例

ThinkDrive抓包实例

一期测试时,涉汲到APP安全测试,因此需要查看传输数据是否存在明文密码等。

1).开启Fiddler,确定本机IP、Fiddler端口号

本机IP:192.168.8.8

Fiddler端口号:8888

2).手机连接本机所在同网络Wifi,设置代理

a.代理主机名:Fiddler所在电脑IP

b.代理服务器端口: Fiddler使用的端口

3).APP操作,生成请求数据

a.例:登录


b.例:退出登录

4).分析Fiddler抓包数据

a.例:登录请求分析

1).双击查看登录请求,选择WebForms或JSON等其他类标签,查看请求参数值,对照接口文档及你想要测试的点分析,请求是否正确,查看返回数据是否正确。

2).同帐号,不同密码;不同帐号,同密码等测试用例,测试多次登录后发现,密码仅为MD5加密,没有对密码进行很好的加密传输

3).分析存在以下问题:

问题1:帐号密码采用http传输,帐号与密码(MD5值)局域网可以捕获;

问题2:密码虽采用MD5加密,但传输未加密,简单密码可以在线解密(图中密码在线解密不到1秒:123qwe);

问题3:密码不解密也一样可以登录,通过A帐号在app登录,再用sniffer得到的B 帐号与密码(MD5值),使用Fiddler修改A帐号的请求完成B帐号在APP登录。

注1:Fiddler功能使用,请Google或网络,此处不详说

注2:以上实例仅为参考,具体测试,以所相关业务及测试目标为导向进行测试分析。

5、其他

本文虽主要对Android手机抓包举例,但其目的是说明,不管是电脑,还是手机,还是其他上网终端,都可以通过代理的方式来抓包(HTTS、HTTPS)

Ⅳ android 正则表达式抓取网页数据

java正则表达式:<h3>(.*?)</h3>

完整的Java程序如下:(android也是java程序,把主函数下的代码拷贝到你的android程序中就可以了)

importjava.util.regex.Matcher;

importjava.util.regex.Pattern;

publicclassKKK{

publicstaticvoidmain(String[]args){

Strings="<h3>你是我的小金块</h3>";

Stringregex="<h3>(.*?)</h3>";

Patternp=Pattern.compile(regex);

Matcherm=p.matcher(s);

while(m.find()){

System.out.println(m.group(1));

}

}

}

运行结果:

你是我的小金块

阅读全文

与android抓取网页数据相关的资料

热点内容
妈妈吃了命令药丸 浏览:710
男的进国企做程序员 浏览:990
程序员的数学线性代数 浏览:371
冰箱压缩机启动器盒怎么拆 浏览:441
雪崩pdf 浏览:950
桂林银行app如何查询积分和等级 浏览:283
app第三方接入都有什么 浏览:585
win7命令快捷键 浏览:541
安卓手机上的主键按不了了怎么办 浏览:938
前端小程序加密 浏览:889
python写xls 浏览:310
压缩干粮图片 浏览:838
怎么看网站被加密的视频 浏览:848
哪个app可以弄会动的照片模板 浏览:272
如何关闭电脑的时钟源服务器 浏览:902
adb命令设置主屏幕应用 浏览:990
编译后的bak文件 浏览:260
php生成文件名 浏览:880
日照智能车辆移动机器人导航算法 浏览:115
解压力的食疗 浏览:127