python3爬取网页内容_python3 怎么爬取新闻网站

⑴ 如何用python爬取网站数据

这里简单介绍一下吧，以抓取网站静态、动态2种数据为慧返拍例，实验环境win10+python3.6+pycharm5.0，主要内容如下：

抓取网站静态数据（数据在网页源码中）：以糗事网络网站数据为例

1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、好笑数和评论数这4个字段，如下：

对应的网页源码如下，包含我们所需要的数据：

2.对应网页结构，主要代码如下，很简单，主要用到requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

程序运行截图如下，已经成功爬取到数据：

抓取网站动态数据（数据不在网页源码中，json等文件中）：以人人贷网站数据为例

1.这里假设我们爬取的是债券数据，主要包括年利率世型、借款标题、期限、金额和进度这5个字段信息，截图如下：

打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：

2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所以还用了json这个包（解析json），主要内容如下：

程序运行截图如下，前羡已经成功抓取到数据：

至此，这里就介绍完了这2种数据的抓取，包括静态数据和动态数据。总的来说，这2个示例不难，都是入门级别的爬虫，网页结构也比较简单，最重要的还是要会进行抓包分析，对页面进行分析提取，后期熟悉后，可以借助scrapy这个框架进行数据的爬取，可以更方便一些，效率更高，当然，如果爬取的页面比较复杂，像验证码、加密等，这时候就需要认真分析了，网上也有一些教程可供参考，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。

⑵ python3 怎么爬取新闻网站

需求：

从门户网站爬取新闻，将新闻标题，作者，时间，内容保存到本地txt中。

用到的python模块：

importre#正则表达式
importbs4#BeautifulSoup4解析模块
importurllib2#网络访问模块
importNews#自己定义的新闻结构
importcodecs#解决编码问题的关键，使用codecs.open打开文件
importsys#1解决不同页面编码问题

其中bs4需要自己装一下，安装方法可以参考：Windows命令行下pip安装python whl包

程序：

#coding=utf-8
importre#正则表达式
importbs4#BeautifulSoup4解析模块
importurllib2#网络访问模块
importNews#自己定义的新闻结构
importcodecs#解决编码问题的关键，使用codecs.open打开文件
importsys#1解决不同页面编码问题

reload(sys)#2
sys.setdefaultencoding('utf-8')#3

#从首页获取所有链接
defGetAllUrl(home):
html=urllib2.urlopen(home).read().decode('utf8')
soup=bs4.BeautifulSoup(html,'html.parser')
pattern='http://w+.jia..com/article/w+'
links=soup.find_all('a',href=re.compile(pattern))
forlinkinlinks:
url_set.add(link['href'])

defGetNews(url):
globalNewsCount,MaxNewsCount#全局记录新闻数量
whilelen(url_set)!=0:
try:
#获取链接
url=url_set.pop()
url_old.add(url)

#获取代码
html=urllib2.urlopen(url).read().decode('utf8')

#解析
soup=bs4.BeautifulSoup(html,'html.parser')
pattern='http://w+.jia..com/article/w+'#链接匹配规则
links=soup.find_all('a',href=re.compile(pattern))

#获取URL
forlinkinlinks:
iflink['href']notinurl_old:
url_set.add(link['href'])

#获取信息
article=News.News()
article.url=url#URL信息
page=soup.find('div',{'id':'page'})
article.title=page.find('h1').get_text()#标题信息
info=page.find('div',{'class':'article-info'})
article.author=info.find('a',{'class':'name'}).get_text()#作者信息
article.date=info.find('span',{'class':'time'}).get_text()#日期信息
article.about=page.find('blockquote').get_text()
pnode=page.find('div',{'class':'article-detail'}).find_all('p')
article.content=''
fornodeinpnode:#获取文章段落
article.content+=node.get_text()+'
'#追加段落信息

SaveNews(article)

printNewsCount
break
exceptExceptionase:
print(e)
continue
else:
print(article.title)
NewsCount+=1
finally:
#判断数据是否收集完成
ifNewsCount==MaxNewsCount:
break

defSaveNews(Object):
file.write("【"+Object.title+"】"+"	")
file.write(Object.author+"	"+Object.date+"
")
file.write(Object.content+"
"+"
")

url_set=set()#url集合
url_old=set()#爬过的url集合

NewsCount=0
MaxNewsCount=3

home='http://jia..com/'#起始位置

GetAllUrl(home)

file=codecs.open("D:\test.txt","a+")#文件操作

forurlinurl_set:
GetNews(url)
#判断数据是否收集完成
ifNewsCount==MaxNewsCount:
break

file.close()

新闻文章结构

#coding:utf-8
#文章类定义
classNews(object):
def__init__(self):
self.url=None
self.title=None
self.author=None
self.date=None
self.about=None
self.content=None

对爬取的文章数量就行统计。

⑶ Python爬网页

1、网络爬虫基本原理
传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定
停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根
据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。
2、设计基本思路
正如你所说，先到微博登陆页面模拟登录，抓取页面，从页面中找出所有URL，选择满足要求的URL文本说明，模拟点击这些URL，重复上面的抓取动作，直到满足要求退出。
3、现有的项目
google project网站有一个项目叫做sinawler，就是专门的新浪微博爬虫，用来抓取微博内容。网站上不去，这个你懂的。不过可以网络一下“python编写的新浪微博爬虫（现在的登陆方法见新的一则微博）“，可以找到一个参考的源码，他是用python2写的。如果用python3写，其实可以使用urllib.request模拟构建一个带cookies的浏览器，省去对cookies的处理，代码可以更加简短。
4、此外
看下网络爬虫的网络，里面很多比较深入的内容，比如算法分析、策略体系，会大有帮助，从理论角度提升代码的技术层次。

⑷ Python 爬虫的入门教程有哪些值得推荐的

Python 爬虫的入门教程有很多值得推荐的，以下是一些比较受欢迎和推荐的教程：

1.《精通 Python 网络爬虫》：这本书是一本入门级的 Python 爬虫教程，适合初学者学习。

Python3 网络爬虫实战：这是一个在线教程，详细介绍了 Python 爬虫的基础知识，包括爬虫的原理、如何使用 Python 爬取网页、如何使用正则表达式和 XPath 解析网页等。
Python 爬虫指南：这是一个在线教程，通过几个简单的例子来介绍 Python 爬虫的基础知识。
网络爬虫实战：这是一个在线课程，通过几个实际案例来介绍 Python 爬虫的基础知识和进阶技巧。
Python 爬虫实战：这是一个在线课程，通过几个实际案例来介绍 Python 爬虫的基础知识和进阶技巧。

以上是一些比较受欢迎和推荐的 Python 爬虫入门教程，你可以根据自己的需求和学习进度选择适合自己的教程。

bilibili上也有一些视频教程。

⑸ 如何使用python3爬取1000页百度百科条目

1 问题描述

起始页面 ython包含许多指向其他词条的页面。悄隐通过页面之间的链接访问1000条网络词条。

对启闷厅每个词条，获取其标题和简介。

可以看出，其他词条的格式都遵循hcom/item/xxx的形式

3 实现

# coding=utf-8from urllib import requestfrom bs4 import BeautifulSoupimport reimport tracebackimport time

url_new = set()
url_old = set()
start_url = 'httpm/item/python'max_url = 1000def add_url(url):
if len(url_new) + len(url_old) > 1000: return
if url not in url_old and url not in url_new:
url_new.add(url)def get_url():
url = url_new.pop()
url_old.add(url) return urldef parse_title_summary(page):
soup = BeautifulSoup(page, 'html.parser')
node = soup.find('h1')
title = node.text
node = soup.find('div', class_='lemma-summary')
summary = node.text return title, summarydef parse_url(page):
soup = BeautifulSoup(page, 'html.parser')
links = soup.findAll('a', href=re.compile(r'/item/'))
res = set()
keprefix = 'htt..com'
for i in links:
res.add(keprefix + i['罩昌href']) return resdef write2log(text, name='d:/ke-urllib.log'):
with open(name, 'a+', encoding='utf-8') as fp:
fp.write(' ')
fp.write(text)if __name__ == '__main__':
url_new.add(start_url) print('working')
time_begin=time.time()
count = 1
while url_new:
url = get_url() try:
resp = request.urlopen(url)
text = resp.read().decode()
write2log('.'.join(parse_title_summary(text)))
urls = parse_url(text) for i in urls:
add_url(i) print(str(count), 'ok')
count += 1
except:
traceback.print_exc() print(url)
time_end=time.time() print('time elapsed: ', time_end - time_begin) print('the end.')

输出结果

working1 ok
略983 ok984 ok
time elapsed: 556.4766345024109the end.

将urllib替换为第三方库requests：

pip install requests

略if __name__ == '__main__':
url_new.add(start_url) print('working')
time_begin = time.time()
count = 1
while url_new:
url = get_url() try: with requests.Session() as s:
resp = s.get(url)
text = resp.content.decode() # 默认'utf-8'
write2log('.'.join(parse_title_summary(text)))
urls = parse_url(text) for i in urls:
add_url(i) print(str(count), 'ok')
count += 1
except:
traceback.print_exc() print(url)
time_end = time.time() print('time elapsed: ', time_end - time_begin) print('the end.')

输出

略986 ok987 ok988 ok989 ok
time elapsed: 492.8088216781616the end.

一个通用的爬虫架构包括如下四部分：

调度器
URL管理器
网页下载器
网页解析器

从以上函数式的写法也可以看出了。

下面是面向对象的写法。

$ ls html_downloader.py html_outputer.py html_parser.py spider_main.py url_manager.py

1、spider main

# coding=utf-8from ex.url_manager import UrlManagerfrom ex.html_downloader import HtmlDownloaderfrom ex.html_parser import HtmlParserfrom ex.html_outputer import HtmlOutputerimport traceback, timeclass SpiderMain():

def __init__(self):

self.urls = UrlManager() self.downloader = HtmlDownloader() self.parser = HtmlParser() self.outputer = HtmlOutputer() def crawl(self, url):

self.urls.add_url(url)

count = 1

while self.urls.is_has_url():

url = self.urls.get_url() try:

page = self.downloader.download(url)

data, newurls = self.parser.parse(page) self.urls.add_urls(newurls) self.outputer.write2log(data) print(str(count), 'ok') except:

traceback.print_exc() print(str(count), 'failed')

count += 1if __name__ == '__main__':

spider = SpiderMain()

start_url = 'hti.com/item/python'

print('crawling')

time_begin = time.time()

spider.crawl(start_url)

time_end = time.time() print('time elapsed:', time_end - time_begin)

2、URL manager

# coding=utf-8class UrlManager():

def __init__(self, maxurl=1000):

self.url_new = set() self.url_old = set() self.max_url = maxurl def add_url(self, url):

assert isinstance(url, str) if len(self.url_new) + len(self.url_old) > self.max_url: return

if url not in self.url_new and url not in self.url_old: self.url_new.add(url) def add_urls(self, urls):

if len(self.url_new) + len(self.url_old) > self.max_url: return

for u in urls: self.add_url(u) def get_url(self):

t = self.url_new.pop() self.url_old.add(t) return t def is_has_url(self):

return self.url_new

3、html downloder

# coding=utf-8import requestsclass HtmlDownloader():

def download(self, url):

resp = requests.get(url) return resp.content.decode()

4、html parser

# coding=utf-8from bs4 import BeautifulSoupimport reclass HtmlParser():

def __init__(self, keprefix = 'htti.com'):

self.keprefix = keprefix def parse(self, page):

soup = BeautifulSoup(page, 'html.parser')

node = soup.find('h1')

title = node.text

node = soup.find('div', class_='lemma-summary')

summary = node.text

data = title + summary

nodes = soup.findAll('a', href=re.compile(r'/item/'))

urls = set() for i in nodes:

urls.add(self.keprefix + i['href']) return data, urls

5、 html outputer

# coding=utf-8class HtmlOutputer():

def write2log(self, text, name='d:/ke-oop.log'):

with open(name, 'a+', encoding='utf-8') as fp:

fp.write(' ')

fp.write(text)

⑹ python爬虫如何分析一个将要爬取的网站

爬取网页数据，需要一些工具，比如requests，正则表达式，bs4等，解析网页首推bs4啊，可以通过标签和节点抓取扒拍数据。

正巧简闷，我最近发布了一篇文章就是抓取网页数据分析的，有完整的抓取步骤，你可以看一下?不好意思给自己打了一下广春咐羡告?

导航:首页 > 编程语言 > python3爬取网页内容

python3爬取网页内容

需求：

用到的python模块：

与python3爬取网页内容相关的资料