① 程序员题目:任务一:万年历计算查询程序。 突然发现我的财富给的真少 。
这个好写啊,你只要先计算出要查询的这一年这一月第一天是星期几,然后依次打印就行了。主程序是个循环,可以根据输入的字符判断是否结束,你可以先试着写,多尝试就肯定会写出了的。
② 使用java开源工具httpclient怎么使用
使用java开源工具httpClient及jsoup抓取解析网页数据
来源:iteye,原文
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下
公历时间:2016年04月11日星期一
农历时间:猴年三月初五
天干地支:丙申年壬辰月癸亥日
宜:求子祈福开光祭祀安床
忌:玉堂(黄道)危日,忌出行
主要包括公历/农历日期,以及忌宜信息的等。但是手里并没有现成的数据可供使用,怎么办呢?革命前辈曾经说过,没有枪,没有炮,敌(wang)人(luo)给我们造!网络上有很多现成的在线万年历应用可供使用,虽然没有现成接口,但是我们可以伸出手来,自己去拿。也就是所谓的数据抓取。
这里介绍两个使用的工具,httpClient以及jsoup,简介如下:
HttpClient是ApacheJakartaCommon下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中,比如ApacheJakarta上很着名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。
httpClient使用方法如下:
1.创建HttpClient对象。
2.创建请求方法的实例,并指定请求URL。
3.调用HttpClient对象的execute(HttpUriRequestrequest)发送请求,该方法返回一个HttpResponse。
4.调用HttpResponse相关方法获取相应内容。
5.释放连接。
jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
需要更多信息可以参见官网下载地址
httpClient:http://hc.apache.org/httpcomponents-client-5.0.x/index.html
jsoup:http://jsoup.org/
接下来我们直接上代码,这里我们抓取2345在线万年历的数据http://tools.2345.com/rili.htm
首先我们定义一个实体类Almanac来存储黄历数据
Almanac.java1packagecom.likx.picker.util.bean;2
3/**4
*万年历工具实体类5
*
6
*@author溯源blog7
*2016年4月11日8
*/9publicclassAlmanac{10
privateStringsolar;
/*阳历e.g.2016年4月11日星期一*/11
privateStringlunar;
/*阴历e.g.猴年三月初五*/12
privateStringchineseAra;
/*天干地支纪年法e.g.丙申年壬辰月癸亥日*/13
privateStringshould;
/*宜e.g.求子祈福开光祭祀安床*/14
privateStringavoid;
/*忌e.g.玉堂(黄道)危日,忌出行*/1516
publicStringgetSolar(){17
returnsolar;18
}1920
publicvoidsetSolar(Stringdate){21
this.solar=date;22
}2324
publicStringgetLunar(){25
returnlunar;26
}2728
publicvoidsetLunar(Stringlunar){29
this.lunar=lunar;30
}3132
publicStringgetChineseAra(){33
returnchineseAra;34
}3536
publicvoidsetChineseAra(StringchineseAra){37
this.chineseAra=chineseAra;38
}3940
publicStringgetAvoid(){41
returnavoid;42
}4344
publicvoidsetAvoid(Stringavoid){45
this.avoid=avoid;46
}4748
publicStringgetShould(){49
returnshould;50
}5152
publicvoidsetShould(Stringshould){53
this.should=should;54
}5556
publicAlmanac(Stringsolar,Stringlunar,StringchineseAra,Stringshould,57
Stringavoid){58
this.solar=solar;59
this.lunar=lunar;60
this.chineseAra=chineseAra;61
this.should=should;62
this.avoid=avoid;63
}64}
然后是抓取解析的主程序,写程序之前需要在官网下载需要的jar包
AlmanacUtil.javapackagecom.likx.picker.util;importjava.io.IOException;importjava.text.SimpleDateFormat;importjava.util.Calendar;importjava.util.Date;importorg.apache.http.HttpEntity;importorg.apache.http.ParseException;importorg.apache.http.client.ClientProtocolException;importorg.apache.http.client.methods.CloseableHttpResponse;importorg.apache.http.client.methods.HttpGet;importorg.apache.http.impl.client.CloseableHttpClient;importorg.apache.http.impl.client.HttpClients;importorg.apache.http.util.EntityUtils;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.select.Elements;/***<STRONG>类描述</STRONG>:
2345万年历信息爬取工具<p>*
*@version1.0<p>*@author溯源blog*
*<STRONG>创建时间</STRONG>:2016年4月11日下午14:15:44<p>*<STRONG>修改历史</STRONG>:<p>*<pre>*修改人
修改时间
修改内容*---------------
-------------------
-----------------------------------*</pre>*/publicclassAlmanacUtil{
/**
*单例工具类
*/
privateAlmanacUtil(){
}
/**
*获取万年历信息
*@return
*/
publicstaticAlmanacgetAlmanac(){
Stringurl="http://tools.2345.com/rili.htm";
Stringhtml=pickData(url);
Almanacalmanac=analyzeHTMLByString(html);
returnalmanac;
}
/*
*爬取网页信息
*/
privatestaticStringpickData(Stringurl){
CloseableHttpClienthttpclient=HttpClients.createDefault();
try{
HttpGethttpget=newHttpGet(url);
CloseableHttpResponseresponse=httpclient.execute(httpget);
try{
//获取响应实体
HttpEntityentity=response.getEntity();
//打印响应状态
if(entity!=null){
returnEntityUtils.toString(entity);
}
}finally{
response.close();
}
}catch(ClientProtocolExceptione){
e.printStackTrace();
}catch(ParseExceptione){
e.printStackTrace();
}catch(IOExceptione){
e.printStackTrace();
}finally{
//关闭连接,释放资源
try{
httpclient.close();
}catch(IOExceptione){
e.printStackTrace();
}
}
returnnull;
}
/*
*使用jsoup解析网页信息
*/
(Stringhtml){
StringsolarDate,lunarDate,chineseAra,should,avoid="";
Documentdocument=Jsoup.parse(html);
//公历时间
solarDate=getSolarDate();
//农历时间
ElementeLunarDate=document.getElementById("info_nong");
lunarDate=eLunarDate.child(0).html().substring(1,3)+eLunarDate.html().substring(11);
//天干地支纪年法
ElementeChineseAra=document.getElementById("info_chang");
chineseAra=eChineseAra.text().toString();
//宜
should=getSuggestion(document,"yi");
//忌
avoid=getSuggestion(document,"ji");
Almanacalmanac=newAlmanac(solarDate,lunarDate,chineseAra,should,avoid);
returnalmanac;
}
/*
*获取忌/宜
*/
(Documentdoc,Stringid){
Elementelement=doc.getElementById(id);
Elementselements=element.getElementsByTag("a");
StringBuffersb=newStringBuffer();
for(Elemente:elements){
sb.append(e.text()+"");
}
returnsb.toString();
}
/*
*获取公历时间,用yyyy年MM月dd日EEEE格式表示。
*@returnyyyy年MM月dd日EEEE
*/
(){
Calendarcalendar=Calendar.getInstance();
DatesolarDate=calendar.getTime();
SimpleDateFormatformatter=newSimpleDateFormat("yyyy年MM月dd日EEEE");
returnformatter.format(solarDate);
}}
为了简单明了我把抓取解析抽象成了几个独立的方法,
其中pickData()方法使用httpClient来抓取数据到一个字符串中(就是在网页上点击查看源代码看到的HTML源码),analyzeHTMLByString()方法来解析抓取到的字符串,getSuggestion方法把抓取方法类似的宜忌数据抽象到了一起,另外因为公历时间可以很容易的自己生成就没有在网页上爬取。
然后下面是一个测试类简单测试下效果:AlmanacUtilTest.javapackagecom.likx.picker.util.test;publicclassAlmanacUtilTest{
publicstaticvoidmain(Stringargs[]){
Almanacalmanac=AlmanacUtil.getAlmanac();
System.out.println("公历时间:"+almanac.getSolar());
System.out.println("农历时间:"+almanac.getLunar());
System.out.println("天干地支:"+almanac.getChineseAra());
System.out.println("宜:"+almanac.getShould());
System.out.println("忌:"+almanac.getAvoid());
}}
运行结果如下:
集成到实际项目中效果是这样的:
另外最近博客一直没怎么更新,因为最近考虑到技术氛围的原因,离开了对日外包行业,前往一家互联网公司就职。说一下最近的感受,那就是一个程序员最核心的竞争力不是学会了多少框架,掌握多少种工具(当然这些对于程序员也不可或缺),而是扎实的基础以及快速学习的能力,比如今天这个项目,从对httpClient,jsoup工具一无所知到编写出Demo代码总计大概1个多小时,在之前对于我来说是不可想象的,在技术氛围浓厚的地方快速get技能的感觉,非常好。
当然本例只是一个非常浅显的小例子,网页上内容也很容易抓取,httpClient及jsoup工具更多强大的地方没有体现到,比如httpClient不仅可以发送get请求,而且可以发送post请求,提交表单,传送文件,还比如jsoup最强大的地方在于它支持仿jquery的选择器。本例仅仅使用了最简单的document.getElementById()匹配元素,实际上jsoup的选择器异常强大,可以说它就是java版的jquery,比如这样:Elementslinks=doc.select("a[href]");//awithhrefElementspngs=doc.select("img[src$=.png]");
//imgwithsrcending.pngElementmasthead=doc.select("div.masthead").first();
//divwithclass=mastheadElementsresultLinks=doc.select("h3.r>a");//directaafterh3
③ JAVA高手请进!!真的要是高手,答好了继续给分
看到你的补充问题时,我认为你真的可能很强。不过程序员最禁忌的东西就是技术和脾气一样牛!所以请你在看我的回答时用那种班上第十五名看班上第十六名的那种眼光,而不是第一名看全班大部分人的那种神气!
我为你取的名字毕业设计名字叫做java版网络爬虫。
如果觉得可以一试,或者对自己有那么点信心,那么请继续往下看!
你的道具只可以是一些从sun或apache站下载的开源软件以及你喜欢的某一种数据库及其jdbc。
只有两个提示:[怕你无从下手,所以给了两个提示]
一、web容器一旦启动,你的”爬虫“就开始顺着某一个网站的链接开始爬,从一个网站到另一个网站。。。它的目的是为了尽可能的寻找你所要的资源。
比如:你在管理平台增加一个任务叫做"邮件"
参数是 ^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$
那么这个”爬虫“就没日没夜的把网上找到的Email地址一个个放到你的数据库中。
再增加一任务叫做"电话号码",它就。。。
二、去了解一下tomcat中web.xml的<listener></listener>及java中的线程及有关定时方面的java类
只有两个要求:〔对你来说这两点都不难〕
第一、提供cs及bs两种管理模式。
第二、不能在数据库中放入重复的邮件地址,放入数据库中的邮件地址一定要是有效的。其它同理!
不要说没有可行性,网上扔个石头一砸,只要砸中java程序员,基本都知道怎么去实现,但要实现得很完美,呵呵,有点难。
设计这个毕业设计的好处:
一、对多线程开发会很溜 :)
二、这个代码量很小(核心代码只有一个方法,那就是找找找),只是算法有点复杂,所以不会浪费你很多不必要的时间。(讨厌开发**管理系统的原因就是因为代码量大,且没啥技术含量)
④ 万年历上面的宜和忌有道理吗
万年历上的宜忌是有一定依据的,也是有道理的。可以作为参考,但不需要事事按照万年历的准则行事,就算万年历上说不适宜结婚嫁娶,实际上根据具体情况分析,大多数时候也是可以正常结婚的,没有妨碍。
之所以说万年历上的宜忌有可信之处,是因为正规的黄历是按照实际情况编纂的,主要内容是二十四节气和每日的宜忌、干支等,部分内容是有实际依据的,包含了天文气象、时令季节还有人们日常生活中的禁忌,可以指导劳动人民耕种。
比如在“惊蛰”前后就不适宜“安葬”,因为这个季节昆虫开始繁殖和活动,安葬进去的人很快会被虫子损坏,“谷雨”前后不适合“作灶”,因为过去灶都是用土砌的,多雨时节土灶不容易干,所以很多禁忌都跟是顺应季节规律的,在当时来说是可以相信的,有正确规律的。