导航:首页 > 编程语言 > python爬取图片404

python爬取图片404

发布时间:2023-07-01 15:09:37

1. python如何爬取百度图片

几乎所有的网站都会有反爬机制,这就需要在爬取网页时携带一些特殊参数,比如:user-agent、Cookie等等,可以在写代码的时候用工具将所有参数都带上。

2. centos7安装python3.9显示404怎么办

如果在 CentOS 7 上安装清告掘 Python 3.9 时出现 404 错误,可能是由于缺少 yum 存储库导致的。您可以尝试以下方法:

3. Python爬虫爬取图片这个报错怎么处理

你好!你的错误原因在于html页面获取到的img标签src属性中的链接,可能是因为src中的url格式是这样的:

<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>

这样获取到的链接都没有带上协议:http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的:https://www..com/

即 协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为:

forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)

4. 新手,用python写的爬虫,为什么出现404

可能是你的header写的太简单了,我刚刚也是一直404,因为一开始我的header里只有User-Agent,再加上Accept,Accept-Encoding,Content-Type,Host,Origin,Proxy-Connection,Referer,Upgrade-Insecure-Requests就行了,这些都可以从chrome的开发者工具里直接看,或者用fiddler等工具看。

5. 使用python爬取网页,获取不到图片地址

这个大图片是在点击之后用 JS 控制加载的。

你可以看看 js/js.js 这个文件,253 行:

functionchangeImg(){
jQuery("#bitImg").attr('src','p/p'+pictID+'/'+indexNum+'.'+jpgPng);
}

其实大图的规律很好找, 下面缩略图列表的 src 可以用 #variContent > li > img 取到,可以在源码中的 107 行找到:

view-source:http://pictogram2.com/?p=2315

缩略图列表地址长这样:

/p/p0997/tn/1.jpg

/p/p0997/tn/2.jpg

/p/p0997/tn/3.jpg

...

如果要获取大图,只要去掉“tn”这一段就可以:

/p/p0997/1.jpg

/p/p0997/2.jpg

/p/p0997/3.jpg

...

然后拼接域名在前面,GET 下来就是大图,比如第一个大图链接:

第一个大图地址

不过,你如果仅仅只是想要抓那个站的全部素材,穷举“p0997”这一段的序号(比如改成“p0098”,这个应该是图集的 ID),并且遍历最后一段的图片序号,扩展名可能是 jpg 也可能是 png,从 1 开始(“1.jpg”,“2.jpg”...)直到返回 404 停止。

思路大概是这么个思路,不过话说回来,你这么爬人家素材真的道德吗?

阅读全文

与python爬取图片404相关的资料

热点内容
安卓视频加密软件哪个好 浏览:672
嵌入式linuxc编程入门 浏览:79
androiddlan开发 浏览:26
手机版机构操盘高级指标源码 浏览:301
苹果app商城刷新不出来是什么原因 浏览:695
我的世界模组怎么获得命令方块 浏览:754
服务器为什么稳定 浏览:950
资源共享库源码 浏览:817
vr一体机能用什么app 浏览:166
程序员右背很痛 浏览:739
哪个app可以看琉璃原着 浏览:47
捣练图pdf 浏览:284
公司内部如何搭建网络服务器 浏览:654
自助火锅哪个app好 浏览:848
pdf使用说明 浏览:709
蝙蝠app的服务器在哪个国家 浏览:581
我的世界怎么做出超平坦服务器 浏览:329
qq内的照片加密 浏览:120
抵押车app哪个好 浏览:329
如何用单片机控制伺服电机 浏览:271