java获取网页url_java提取网站内部所有URL

㈠ java提取网站内部所有URL

能获取外部访问url
内部是不能访问的

㈡ java怎样获取url参数

String url = request.getScheme()+"://"; //请求协议 http 或 https
url+=request.getHeader("host"); // 请求服务器
url+=request.getRequestURI(); // 工程名
if(request.getQueryString()!=null) //判断请求参数是否为空
url+="?"+request.getQueryString(); // 参数

㈢本地运行javaweb项目，通过数据库获取url后，页面地址不出现localhost：8080，直接显示数据库获取的url.

请贴出相应页面的代码（就是请求user那部分的代码）
根据你贴出的代码，问题应该就出在你的a标签里的${pageContext.request.contextPath}这里，你这里应该是没有获取到你的项目路径。如果实在定位不到为什么取不到项目路径，你可以使用二楼的方式，自己设定path。

㈣用java做分页时，如何获取url

httpServletRequest.getRequestURI();
或者
string url = HttpContext.Current.Request.Url.ToString();
//获取当前页的URL
或者
设置参数前台传参：....&url=.... 后台接值： request.getParameter("url")
java 后台分页 httpServletRequest.getRequestURI();
建议用AJAX，这样可以不需要获取 url

㈤用java获取URL路径时出现非法字符

经常会在浏览器的地址栏里看到这样的字符串%E6%96%87%E6%A1%A3
这就是被编码后的字符串，下面就讨论一下java 的url编码与解码问题

java.net.URLDecoder.decode(String s,String enc);
将application/x-www-form-urlencoded字符串转换成普通字符串。

java.net.URLEncoder.decode(String s,String enc);
将普通字符串转换成application/x-www-form-urlencoded字符串

代码示例：

import java.net.URLDecoder;

import java.net.URLEncoder;

public class URLDecoderTest {

public static void main(String[] args) throws Exception {
//将application/x-www-form-urlencoded字符串

//转换成普通字符串

//必须强调的是编码方式必须正确，如的是gb2312，而google的是UTF-8

String keyWord = URLDecoder.decode("%E6%96%87%E6%A1%A3", "gb2312");
System.out.println(keyWord);
//将普通字符串转换成

//application/x-www-form-urlencoded字符串

//必须强调的是编码方式必须正确，如的是gb2312，而google的是UTF-8

String urlStr = URLEncoder.encode("文档", "gb2312");

System.out.println(urlStr);
}
}

㈥ Java请求一个URL。获取网站返回的数据。

publicstaticStringSendGET(Stringurl,Stringparam){
Stringresult="";//访问返回结果
BufferedReaderread=null;//读取访问结果

try{
//创建url
URLrealurl=newURL(url+"?"+param);
//打开连接
URLConnectionconnection=realurl.openConnection();
//设置通用的请求属性
connection.setRequestProperty("accept","*/*");
connection.setRequestProperty("connection","Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)");
//建立连接
connection.connect();
//获取所有响应头字段
Map<String,List<String>>map=connection.getHeaderFields();
//遍历所有的响应头字段，获取到cookies等
for(Stringkey:map.keySet()){
System.out.println(key+"--->"+map.get(key));
}
//定义BufferedReader输入流来读取URL的响应
read=newBufferedReader(newInputStreamReader(
connection.getInputStream(),"UTF-8"));
Stringline;//循环读取
while((line=read.readLine())!=null){
result+=line;
}
}catch(IOExceptione){
e.printStackTrace();
}finally{
if(read!=null){//关闭流
try{
read.close();
}catch(IOExceptione){
e.printStackTrace();
}
}
}

returnresult;
}

㈦ java如何提取url里的域名

方法1：正则
(http://)或者（https://）开头
往后面匹配三个点，
不会的话网络一波。
然后把最后的点去掉
就可以得到域名
方法2：
将URL字符串转换为charArray
遍历对.(点)的次数进行记数
第三次当前返回下标
用SubString切割字符串获取域名

㈧ java 获取网页源代码---有效防止乱码

前段时间做过这类功能，如何有效防止乱码，我们必须先知道一个网页的编码方式，是utf-8,还是gbk。

1.HttpURLConnection.getContentType();直接读取，效率高，但有很多时候读不到。只是text/html就完事了，没有charset.

2.使用第三方的HttpClient,执行效率较高。但读取网页头header也只适用部分站，很多网站服务段不设置，结果就读成了null.

3.最没有效率的判断方法就是使用inputStreamReader先把正页的html源码读取出来，之后截取charset后面编码。得到编码之后重新再读取一遍。但是效率很低。

做个总结：

/**
* 取得页面编码
*
* @param url
* @return
*/
public String getCharset(String url) throws Exception {
// log.info("进入读页面的关键词:" + keyword);
String charset = "";
int c;
HttpURLConnection httpurlcon = null;
// log.info("url:"+url);
// log.info("charset:"+charset);

log.info("url:" + url);

URL httpurl = new URL(url);
// System.out.println(url+str);

httpurlcon = (HttpURLConnection) httpurl.openConnection();
// google需要身份
httpurlcon.setRequestProperty("User-agent", "Mozilla/4.0");
charset = httpurlcon.getContentType();
log.info("charset1:" + charset);
// 如果可以找到
if (charset.indexOf("charset=") != -1)
charset = charset.substring(charset.indexOf("charset=")
+ "charset=".length(), charset.length());
// 否则读取response.Header头
else {
charset = this.getContentCharset();
log.info("charset2:" + charset);
}
// 如果charset还是为空,那么直接读网页来截取
if (charset == null) {
charset = this.readPageCharset(url);
log.info("charset31:" + charset);

}

return charset;
}

热点内容

单片机驱动可控硅发布：2025-04-28 18:24:36 浏览：294

辽宁沈阳最新代理服务器ip地址发布：2025-04-28 18:21:31 浏览：563

如何安装用友通服务器发布：2025-04-28 18:16:37 浏览：825

python怎么将输入转为整数类型发布：2025-04-28 18:10:42 浏览：606

最新影视app源码下载带截图发布：2025-04-28 18:09:02 浏览：998

linuxlibssl 发布：2025-04-28 18:06:57 浏览：282

pip和python区别发布：2025-04-28 18:06:19 浏览：549

如何查看服务器的网站发布：2025-04-28 18:04:00 浏览：6

centos复制命令发布：2025-04-28 17:59:29 浏览：288

30岁的运维学python 发布：2025-04-28 17:52:23 浏览：987

ospfpdf 发布：2025-04-28 17:47:51 浏览：715

安卓耳机声音小怎么设置发布：2025-04-28 17:46:29 浏览：198

程序员升级win11后发布：2025-04-28 17:44:47 浏览：596

云服务器怎么调出控制面板发布：2025-04-28 17:43:58 浏览：173

python正则表达式函数发布：2025-04-28 17:41:49 浏览：634

把自己公司的源码给别人发布：2025-04-28 17:41:47 浏览：438

典韦真的要出程序员皮肤吗发布：2025-04-28 17:41:46 浏览：682

程序员如何转行做电脑维修发布：2025-04-28 17:41:03 浏览：397

4mz算法发布：2025-04-28 17:32:07 浏览：833

程序员全部穿格子图片发布：2025-04-28 17:30:21 浏览：923

导航:首页 > 编程语言 > java获取网页url

java获取网页url

与java获取网页url相关的资料