java微博爬虫_java 网络爬虫怎么实现

‘壹’ java相关，爬虫问题，关于类似“动态”生成的东西怎么爬下来谢谢！

据说javascript V8引擎可以实现类似的功能，不过具体怎么样也没有试过，我只是给你一个参考。

‘贰’ 用java语言编写一个网络爬行器，获取微博或者人人的数据实验有人做过吗

这些网站还有像淘宝这样的网站都是反爬的
你搞人人和微博的数据只能用他们提供的api，具体的用户数据还得通过oauth 所以我想是不可能的
不要追问我具体我也没做过爬虫器

‘叁’ 用java爬虫登陆新浪微博，求代码，不要给连接，我都试过了，都没成功。

用java的话，用apache的httpcomponents吧。。先用firefox或者chrome研究微博的登录方式，然后模拟提交，登录后把登录信息放到cookie里，接着你想干啥就干啥了。

‘肆’ 初学者学习JAVA网络爬虫

不知道怎么去教你，只能说说我自己的学习经历。初学Java，包括学习一两年的，很难精通Java。特别是对于在校的学生，学生只是带着学习Java这种情况，对于多态、重载、接口的运用等等的理解并不够。说理论太难说，你现在的情况就直接上手项目，自己做东西。1、先跟着做一个整体的项目，比如坦克大战之类的，这样能带着你整体理解Java，借此自己反思Java基础哪里学的不好，补。2、然后做JavaWeb项目，理解框架、一些简单的设计模式，尝试做一个微博的项目（不好意思，我当年做的第一个web项目就是微博系统，嘿嘿）或者其他的。我自己觉得做web项目最好，很多Java只是都能在项目中加深理解。其实想说的就是，java入门不难，但是想精通很难。学习.....反思....项目......学习.....反思.... 我就简单说这么一点点。有什么你跟我私聊。只要坚持下来，相信你会成功。

‘伍’ java相关。爬虫问题，关于新浪微博。谢谢！

开门见山，说两个工具可以实现你的要求，分笔试selenium和htmlunit。当然还有其他工具，就不一一列举了。
首先你用jsoup或者apache的httpclient爬到你能够爬到的那一层，即可以通过response传回的html静态页面可以知道下一步爬哪个连接的那一层。
然后到爬不动的那一层，比如你说图片动态加载，抓回的html上找不到图片的链接了，那么你在使用上述两个工具其中一个。
大致思路我絮叨的如上。然后说一下二者的异同。
————————————————————————————————
这两个你选用一个就好，不过爬虫用htmlunit就可以了。这俩都是做页面测试方面很好用的工具，不同于其它的工具是他们可以模拟一个浏览器引擎，通过这句话我想你就应该知道你给他一个地址他就可以像浏览器那样解析，既然如此浏览器本身应该知道解析后的html啊，所以就可以拿到了。不同点是selenuim会弹出一个框，后者后台静默的为你奉献。当然，出发点不同，前者更善于肉眼可见的模拟，都很好用，简单爬虫推荐用后者。又絮叨了一堆，好了，你对这两个工具有个了解了。下面附上一个htmlunit的demo，你就可以用了。
————————————————————————————————
新浪微博需要登录，所以你需要模拟登录过程，并保持一个登录后的WebClient对象，然后用它来访问那些动态生成的网页。
WebClient webClient = new WebClient();
HtmlPage page1 = webClient.getPage(登录的url);
HtmlForm form = page1.getFormByName("myform");
HtmlSubmitInput button = form.getInputByName("submitbutton");
HtmlTextInput textField = form.getInputByName("userid");
textField.setValueAttribute("root");
HtmlPage page2 = button.click();
好了，你已经可以做了。这个工具一定可以帮你完成你的功能需求。htmlunit的例子也很多，网络一下试试。

‘陆’ java 网络爬虫怎么实现

以爬取豆瓣《红海行动》的所有评论为例，目标是爬取所有评论以及发表评论的用户名。

getHtml()类，首先是URL url1=new URL(url);模拟在网页输入网址，接着 URLConnection uc=url1.openConnection();模拟敲回车键打开该网址页面，后面的看注释应该能看懂了。bf.readLine()是依次每行读取页面的源码，

/**
* 下载HTML页面源码
* @author yangjianxin
* @return string @author yangjianxin
* @time 2018-03-09
*/

public static String getHtml(String url,String encoding) {
StringBuffer sb=new StringBuffer();
BufferedReader bf = null;
InputStreamReader isr = null;
try {
//创建网络连接
URL url1=new URL(url);
//打开网络
URLConnection uc=url1.openConnection();
uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//建立文件输入流
isr=new InputStreamReader(uc.getInputStream(),encoding);
//高效率读取
bf=new BufferedReader(isr);
//下载页面源码

String temp=null;
while((temp=bf.readLine())!=null) {
sb.append(temp+"\n");
}
//System.out.println(sb.toString());

} catch (MalformedURLException e) {
System.out.println("网页打开失败，请重新输入网址。");
e.printStackTrace();
}catch (IOException e) {
System.out.println("网页打开失败,请检查网络。");
e.printStackTrace();
}finally {
if(bf!=null) {try {
bf.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
if(isr!=null) {
try {
isr.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
return sb.toString();

}

getGoalDate()类，Document document=Jsoup.parse(html)，运用Jsoup.parse()解析网页源码，接着就是开始确定自己需要爬取的东西在网页里的位置，这需要我们对html有点了解，能看、读懂网页标签，可以看出当前页面的所有评论都在id为"content"的大盒子里，每条评论都在class名为"main review-item"的小盒子里， for(Element el:elments)是指对象el在当前页面循环去小盒子"main review-item"查找我们要爬取的东西，也就是用户名和评论， String name=el.getElementsByClass("name").text()中的“name”可以在当前盒子里查找到用户名，用.text()将它赋予给变量name，同理评论也是这样抓取，如果不用将它存入磁盘，则可以后面那段文件操作删除，只打印就行

‘柒’ 那个java爬虫登陆sina微博可以发我一份吗

我也想要一个看看，谢谢
[email protected]发给我谢谢！

‘捌’ java相关/爬虫/nutch。需求是使用爬虫去爬去新浪微博。谢谢！

新浪微博比如有一个用户，把这个用户的目录给爬虫程序入口，指定好深度，开始爬，然后依次爬行这个人的好友

导航:首页 > 编程语言 > java微博爬虫

java微博爬虫

与java微博爬虫相关的资料