python获取当前url参数_python如何读取网页中的数据

‘壹’ python获取url中域名及从域名中提取ip的方法

这种方法为从urlparse模块中通过urlparse方法提取url通过hostname属性获取当前url的域名。

此方法是通过urllib模块中splittype方法先从url中获取到proto协议及rest结果，然后通过splithost从rest中获取到host及rest结果，此时host为域名。（rest被分割了两次）如下图：

此方法为从sokcet模块中获取到gethostbyname方法将域名传递进去就能解析出域名的ip。

此方法为通过nslookup获取域名的ip。

以上从域名中提取ip会不准确，需要设置DNS服务器，这样解析域名就准确了。

‘贰’ python如何读取网页中的数据

用Beautiful Soup这类解析模块：

Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)；
它提供简单又常用的导航(navigating)，搜索以及修改剖析树的操作；
用urllib或者urllib2(推荐)将页面的html代码下载后，用beautifulsoup解析该html；

然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来，就可以进行相关处理了，例如：


html='<html><head><title>test</title></head><body><p>testbody</p></body></html>'
soup=BeautifulSoup(html)
soup.contents[0].name
#u'html'
soup.comtents[0].contents[0].name
#u'head'
head=soup.comtents[0].contents[0]
head.parent.name
#u'html'
head.next
#u'<title>test</title>

‘叁’ python怎么获取需要登陆的接口的数据

使用Python做爬虫是很广泛的应用场景，那就涉及到了Python是如何获取接口数据的呢？Python拥有很多很强大的类库，使用urllib即可轻松获取接口返回的数据。
...展开
工具原料Python开发工具url接口，用于请求获取数据
方法/步骤分步阅读
1
/4
首先新建一个py文件，导入所需的类库，urllib，json等。
2
/4
声明api的url地址，和构造请求头。
3
/4
使用urlopen方法发起请求并获取返回的数据。
4
/4
最后就是对返回字符串的处理了。比如字符串的截取，字符串的转换成json对象，转换成字段，再获取对应key的值。
使用Python3实现HTTP get方法。使用聚合数据的应用编程接口，你可以调用小发猫AI写作API。这是一个免费的应用程序接口，先上代码，详细说明写在后面：

1
2
3
4
5
6
7
8
9
10
11
12
import requests
import time
import re
se = requests.session()

if __name__ == '__main__':
Post_url = "http://api-ok.xiaofamao.com/api.php?json=0&v=1&key=xxxxxx" #自己想办法弄到key
Post_data = {
'wenzhang': '床前明月光，疑是地上霜。'
}
Text = se.post(Post_url, data=Post_data).text.replace("'", '"').replace('/ ', '/')
print(Text)

首先，什么是原料药？应用编程接口的全称也称为应用编程接口。它简称为应用编程接口。当我第一次接触接口调用时，我不知道写什么，因为我看了整个项目。这个项目是由龙卷风写的。看了半天龙卷风后，我发现我走错了方向。我只是直接看着界面，因为没有人告诉我项目的整个过程。我不得不强迫自己去看它。我所要做的就是找到程序的主入口，然后根据函数一步一步地调用它。
当我编写接口时，因为我必须配合后台编写和浏览器访问，每次访问只需要传入相应的参数来调用相应的接口。界面可以由他人编写，也可以由合作公司提供。当然，合作公司提供的不是免费的。现在基本上，如果我不访问它一次，它只收费几美分。当你听到这些，不要低估这几分。有时候如果你打了几百万次电话，会花很多钱。有些人认为，我们不能按月付款吗？对不起，我不知道。总之，我们一个接一个地计算，因为第一次，我认为我买的那些直接买了我们想要的所有数据，把它们保存在本地数据库中，当我使用它们时，直接从我自己的数据库中转移它们。后来，我发现我想得太多了，伪原创API。
该接口调用由python的请求库访问，它基本上是一个get或post请求。有些接口是加密的，然后我们必须用另一方提供给我们的公钥加密或解密，然后用相应的参数访问。我们想要的数据基本上是在请求后返回的结果中以json格式解析的。因此，在请求之后，我们可以用请求提供的json函数来解析它，然后提取数据以一次访问一个数据。
没错，接口调用就是这么简单，但是有了后台编写，我才发现请求库现在有多强大，只要它是http或https，我很高兴我在一周内读完了请求和bs4，我真的不打电话给爬虫工程师，如果我是爬虫的时候不学习请求，你能用scrapy写4=dead来写它吗？Urllib的单词基本上被删除了。如果你有要求，为什么要用这个？

‘肆’ Python瞎老弟的爬虫心得之requests篇②requests基本使用

上一期已经成功安装了requests模块，并简单的使用了requests，本期，我们将详细介绍requests模块

直接使用requests.get()方法即可
其中内容将通过requests.text查看

将get()方法，改为post()即可
其中需要提交的内容，通过data参数传入

url参数，也即跟在地址后的?后的一串内容

我们可以直察埋接通过url地址将其构造出来

也可以通过params参数，传入一个字典使用

可以看出，地址同样被自动构造为

这是一种更加容易的传入参数的方法，可以不需要使用

我们得到了一个对象r，这是一个requests.models.Response对象

使用档烂r.text可以得到响应内容

其中解码方式是requests自行猜测的，它会把猜测的结果保存在r.encoding中

使用r.encoding可以得到或者改变编码方式

如果使用r.text得到的内容不正确，可以手动修改r.encoding，然后再使用r.text输出内容

如果不知道正确的编码，可能有人会建议你使用chardet模块来进行编码的测试(该模块需要使用pip安装，目前版本也会随安装requests附带)

使用方法：

事实上，现在的requests已经使用了chardet模块，但你仍然可以将行没漏chardet用于其他时候使用

使用r.content可以得到二进制的响应内容

使用r.json()可以得到json的响应内容

给headers参数传入一个字典即可

如同之前你预想的那样，user-agent会被修改为lsp

通过r.status_code可以查看状态码

通过r.headers可以查看响应头

通过r.raise_for_status()可以在状态码为不正常的时候抛出异常

在请求中添加timeout参数，即可让你的程序在指定的时间内没有得到响应就抛出异常

通过r.url可以查看到请求地址

通过r.history可以查看到重定向

通过修改allow_redirects参数为False可以禁止重定向

例如禁止github进行重定向

导航:首页 > 编程语言 > python获取当前url参数

python获取当前url参数

与python获取当前url参数相关的资料