python爬取网页源码_python3 怎么爬取新闻网站

① python3 怎么爬取新闻网站

需求：

从门户网站爬取新闻，将新闻标题，作者，时间，内容保存到本地txt中。

用到的python模块：

importre#正则表达式
importbs4#BeautifulSoup4解析模块
importurllib2#网络访问模块
importNews#自己定义的新闻结构
importcodecs#解决编码问题的关键，使用codecs.open打开文件
importsys#1解决不同页面编码问题

其中bs4需要自己装一下，安装方法可以参考：Windows命令行下pip安装python whl包

程序：

#coding=utf-8
importre#正则表达式
importbs4#BeautifulSoup4解析模块
importurllib2#网络访问模块
importNews#自己定义的新闻结构
importcodecs#解决编码问题的关键，使用codecs.open打开文件
importsys#1解决不同页面编码问题

reload(sys)#2
sys.setdefaultencoding('utf-8')#3

#从首页获取所有链接
defGetAllUrl(home):
html=urllib2.urlopen(home).read().decode('utf8')
soup=bs4.BeautifulSoup(html,'html.parser')
pattern='http://w+.jia..com/article/w+'
links=soup.find_all('a',href=re.compile(pattern))
forlinkinlinks:
url_set.add(link['href'])

defGetNews(url):
globalNewsCount,MaxNewsCount#全局记录新闻数量
whilelen(url_set)!=0:
try:
#获取链接
url=url_set.pop()
url_old.add(url)

#获取代码
html=urllib2.urlopen(url).read().decode('utf8')

#解析
soup=bs4.BeautifulSoup(html,'html.parser')
pattern='http://w+.jia..com/article/w+'#链接匹配规则
links=soup.find_all('a',href=re.compile(pattern))

#获取URL
forlinkinlinks:
iflink['href']notinurl_old:
url_set.add(link['href'])

#获取信息
article=News.News()
article.url=url#URL信息
page=soup.find('div',{'id':'page'})
article.title=page.find('h1').get_text()#标题信息
info=page.find('div',{'class':'article-info'})
article.author=info.find('a',{'class':'name'}).get_text()#作者信息
article.date=info.find('span',{'class':'time'}).get_text()#日期信息
article.about=page.find('blockquote').get_text()
pnode=page.find('div',{'class':'article-detail'}).find_all('p')
article.content=''
fornodeinpnode:#获取文章段落
article.content+=node.get_text()+'
'#追加段落信息

SaveNews(article)

printNewsCount
break
exceptExceptionase:
print(e)
continue
else:
print(article.title)
NewsCount+=1
finally:
#判断数据是否收集完成
ifNewsCount==MaxNewsCount:
break

defSaveNews(Object):
file.write("【"+Object.title+"】"+"	")
file.write(Object.author+"	"+Object.date+"
")
file.write(Object.content+"
"+"
")

url_set=set()#url集合
url_old=set()#爬过的url集合

NewsCount=0
MaxNewsCount=3

home='http://jia..com/'#起始位置

GetAllUrl(home)

file=codecs.open("D:\test.txt","a+")#文件操作

forurlinurl_set:
GetNews(url)
#判断数据是否收集完成
ifNewsCount==MaxNewsCount:
break

file.close()

新闻文章结构

#coding:utf-8
#文章类定义
classNews(object):
def__init__(self):
self.url=None
self.title=None
self.author=None
self.date=None
self.about=None
self.content=None

对爬取的文章数量就行统计。

② 如何用python爬取网站数据

这里简单介绍一下吧，以抓取网站静态、动态2种数据为慧返拍例，实验环境win10+python3.6+pycharm5.0，主要内容如下：

抓取网站静态数据（数据在网页源码中）：以糗事网络网站数据为例

1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、好笑数和评论数这4个字段，如下：

对应的网页源码如下，包含我们所需要的数据：

2.对应网页结构，主要代码如下，很简单，主要用到requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

程序运行截图如下，已经成功爬取到数据：

抓取网站动态数据（数据不在网页源码中，json等文件中）：以人人贷网站数据为例

1.这里假设我们爬取的是债券数据，主要包括年利率世型、借款标题、期限、金额和进度这5个字段信息，截图如下：

打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：

2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所以还用了json这个包（解析json），主要内容如下：

程序运行截图如下，前羡已经成功抓取到数据：

至此，这里就介绍完了这2种数据的抓取，包括静态数据和动态数据。总的来说，这2个示例不难，都是入门级别的爬虫，网页结构也比较简单，最重要的还是要会进行抓包分析，对页面进行分析提取，后期熟悉后，可以借助scrapy这个框架进行数据的爬取，可以更方便一些，效率更高，当然，如果爬取的页面比较复杂，像验证码、加密等，这时候就需要认真分析了，网上也有一些教程可供参考，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。

③ 如何利用Python抓取静态网站及其内部资源

这个非常闭册塌简单，requests+BeautifulSoup组合就可以轻松实现，下轿圆面我简单介绍一下，感兴趣的朋友可以自己尝试一下，这里以爬取糗事网络网站数据（静态网站）为例：

1.首先，安装requets模块，这个直接在cmd窗口输入命令“pipinstallrequests”就行，如下：

2.接着安装bs4模块，这个模块包含了BeautifulSoup，安装的话，和requests一样，直接输入安装命令“pipinstallbs4”即可，如下：

3.最后就是requests+BeautifulSoup组合爬取糗事网络，requests用于请求页面，BeautifulSoup用于解析页面，提取数据，主要步骤及截图如下：

这里假设爬取的数据包含如下几个字段，包括用户昵称、内容、好笑数和评论数：

接着打开对应网页源码，就可以直接看到字段信息，内容如下，嵌套在各个标签中，后面就是解析这些标签提取数据：

基于上面网页内容，测试代码如下，非常简单，直接find对应标签，提取文本内容即可：

程序运行截图如下，已经成功抓取到网站数据：

至此，我们就完成了使用python来爬去静态网站。总的来说，整个过程非常简单，也是最基本的爬虫内容，只要你有一定的python基础，熟悉一下上面的示例，很快就能掌握的，当然，你也可以使用urllib，正则表达式匹配等，都行，网上也有相关教程和资料，介绍的非常详细，感兴趣的话，可以姿段搜一下，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言进行补充。

④ 如何用python爬取网页中隐藏的div内容

你说的隐藏的div内容，应该是动态加载的数据吧，不在网页源码中显示，只在加载网页时才请求数据进行显示，一般情况下，这种数据都保存在一个json文件中，只要抓包分析出这个json文件的url地址，然后再根据json文件结构进行解析，很快就能获取到动态加载的div数据，下面我以爬取人人贷上面的散标数据为例，简单介绍一下python如何爬芦枝取div动态加载的数据，实验环境win10+python3.6+pycharm5.0，主要步骤如下：

1.首先，打开散标数族咐据，如下，爬取的信息主要包括年利率、借款标题、期限、金额和进度这5个字段信息：

右键对应元素进行检查，可以看出所有的数据嵌套在div标签中，如下：

打开网页源码，我们按Ctrl+F查找对应的数据，会发现所查找的数据都未在网页源码中，如下，即数据都是动态加载，所以直接解析原网页是找不到div嵌套的数据的：

2.接着，我们按F12调出开发者工具，依次点击“Network”->“XHR”，F5刷新页面，就会看到动态加载的json文件，查看这个文件，内容如下，左边为json文件的url地址，右边就是我们需要爬取的div数据：

3.最后对应上面的json文件，我们就可以直接获取并解析json了，这里主要用到requests和json这2个模块，其中requests用于根据url地址获取json文件，json用于解析json文件，提取出我们所需要的信息，即div动态加载的数据，测试代码如下，非常简单：

运行程序，截图如下，已经成功爬取到div加载的数据：

至此，我们就完成了利用python爬取div动态加载的数据。总的来说，整个过程非常简单，最主要的陪穗敏还是抓包分析，只要你有一定的爬虫基础，熟悉一下上面的代码，多调试几遍程序，很快就能掌握的，当然，你也可以使用selenium进行爬取，直接解析就行，网上也有相关教程和资料可供参考，非常丰富，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言。

导航:首页 > 源码编译 > python爬取网页源码

python爬取网页源码

需求：

用到的python模块：

与python爬取网页源码相关的资料