Ⅰ 【Python数据采集系列】一文解读requests.get()和requests.post()的区别
这是我的第228篇原创文章。
一、引言
requests.get():该方法用于发送 HTTP GET 请求,主要用于获取页面资源。requests.post():该方法用于发送 HTTP POST 请求,主要用于向服务器传递数据,如模拟用户登录、提交表单数据、上传文件等。
二、response = requests.get()
2.1 参数:
查询参数:以字典形式封装,requests 会自动将其拼接到接口请求地址中。
headers 请求头部信息:在非API请求中,请求头不可或缺,通常包括 User-Agent、Accept、Cookie 等信息。在 API 请求中,设置 Authorization 信息。如果本地无法访问 URL,需要科学上网,此时需要设置代理(前提是本地已搭建梯子,端口号为 21881,需自行查询)。
三、response = requests.post()
3.1 参数解析:
POST 请求参数使用 data 或 json。具体取决于请求头中的 content-type 类型(参照接口文档或抓包)。如果 content-type 为 application/json,则使用 json 参数。如果为 application/x-www-form-urlencoded,则使用 data 参数。如果请求类型为 application/json,想使用 data 传参,需将字典类型数据转换为 json 字符串。
3.2 案例:利用 gitee 的 API 创建 pull request
url:
设置 headers:
设置 data:
发送请求:
作者简介:在读研期间发表 6 篇 SCI 数据算法相关论文,目前在某研究院从事数据算法相关研究工作。结合自身科研实践经历,不定期分享 Python、数据分析、特征工程、机器学习、深度学习、人工智能等基础知识与案例。致力于原创,以最简单的方式理解和学习,关注公众号:数据杂坛,学习更多内容。
原文链接:【Python数据采集系列】一文解读 requests.get() 和 requests.post() 的区别
Ⅱ 零基础入坑爬虫—Python网络爬虫的应用实战以及数据采集
Python网络爬虫的应用实战以及数据采集的要点如下:
一、Python网络爬虫的应用
二、Python网络爬虫的数据采集实战
三、总结
Python网络爬虫是一种强大的数据采集工具,可以应用于搜索引擎、数据收集、竞品分析、网络监测等领域。在进行数据采集时,需要注意发起请求、解析内容、保存数据、异常处理等方面的问题,并遵守相关的法律法规和网站规定。通过不断地学习和实践,可以掌握Python网络爬虫的技术要点,为实际应用打下坚实的基础。