pythonmysqltext_如何用最简单的Python爬虫采集整个网站

A. 如何将该python爬取的数据存入MySQL中，数据库表带id

python爬取到的json数据怎么存入到MySQL数据库中
json的数据json.loads进来以后会变成一个json的对象，你需要自己把python对象中的字段值取出来，拼成sql语句

B. 如何将从接口取到的json数据存入mysql数据库

mysql数据库建立表，存储亮雹json字段用text类型庆键让
然后从接口中获取JSON数据，转成STRING格式，直接插入到这个誉局字段就可以了。

C. python爬虫爬下来的数据怎么导入到MySQL

下载mysql.connector库

然后把爬虫爬到的数据通过mysql里面的insert语句查到数据库，当然也可以建表，一般我没用python建表是先建好再写数据的

importmysql.connector
conn=mysql.connector.connect(
user='root',
password='root',
host='127.0.0.1',
port='3306',
database='test_demo'
)

cursor=conn.cursor()

cursor.execute("INSERTINTOtest_user(`uuid`,`user_name`,`user_level`)VALUES(%s,%s,%s)",[id,user_name,user_level])
cursor.execute("INSERTINTOtieba_user_detail(`user_name`,`user_exp`,`user_sex`,`tieba_age`,`tieba_note`,`user_favorites`,`user_fans`)VALUES(%s,%s,%s,%s,%s,%s,%s)",[user_name,user_exp,user_sex,tieba_age,tieba_note,user_favorites,user_fans])

print('**************%s%s数据保存成功**************'%(user_rank,user_name))
conn.commit()
cursor.close()

插进入就这样的

D. Python读URL数据写入MySQL数据库

importmysql.connection
importrequests
importtime
conn=mysql.connector.connect(user='root',password='password',database='test')
cursor=conn.cursor()
cursor.execute('createtablejson(idvarchar(20)primarykey,textvarchar(20))')
conn.commit()
url='http://f.apiplus.net/cqssc.json'
n=0
whileTure:
n=n+1
req=requests.get(url).json()
cursor.execute('insertintouser(id,text)values(%s,%s)',[n,req])
conn.commit()
time.sleep(60)

E. python往mysql的blob字段写入二进制数据，怎么做

这有什猜顷么穗拍陆难的吗？
你把你的二进制数据可以转成文本串插入，就跟普通的插贺弯入一样啊。
import MySQLdb, cPickle
# Connect to a DB, e.g., the test DB on your localhost, and get a cursor
connection = MySQLdb.connect(db="test")
cursor = connection.cursor( )
# Make a new table for experimentation
cursor.execute("CREATE TABLE justatest (name TEXT, ablob BLOB)")
try:
# Prepare some BLOBs to insert in the table
names = 'aramis', 'athos', 'porthos'
data = { }
for name in names:
datum = list(name)
datum.sort( )
data[name] = cPickle.mps(datum, 2)
# Perform the insertions
sql = "INSERT INTO justatest VALUES(%s, %s)"
for name in names:
cursor.execute(sql, (name, MySQLdb.escape_string(data[name])) )
# Recover the data so you can check back
sql = "SELECT name, ablob FROM justatest ORDER BY name"
cursor.execute(sql)
for name, blob in cursor.fetchall( ):
print name, cPickle.loads(blob), cPickle.loads(data[name])
finally:
# Done. Remove the table and close the connection.
cursor.execute("DROP TABLE justatest")
connection.close( )

F. python2.7中如果脚本文件放在中文目录下,pymysql连接数据库会报错,怎么解决(不要修改中文目录名为英文)

没办法的。它只能支持英文路径。改个路径很难吗

G. python在mysql数据库中执行插入操作，插入json.mps后的包含中文的json对象，数据库中文显示为Unicode

直接显示就是中文

s段返此={"data":{"text":"u53d6u6d88u9759u97f3","result"握迅:{"name":"volnotmute"},"service":"control"},"presenterid"世渗:"No.0:8815bc80-8301-11e5-ae25-00237d6d53e9","event":"Voiceres","id":250000001}
print(s['data']['text'])

H. Python 操作 MySQL 的5种方式

1、MySQLdb

# 前置条件

sudo apt-get install python-dev libmysqlclient-dev # Ubuntu

sudo yum install python-devel mysql-devel # Red Hat / CentOS

# 安装

pip install MySQL-python

Windows 直接通过下载 exe 文件安装

#!/usr/bin/python

import MySQLdb

db = MySQLdb.connect(

host = "localhost", # 主机名

user = "root", # 用户名

passwd = "pythontab.com", # 密码

db = "testdb") # 数据库名称

# 查询芹举前，必须先获取游标

cur = db.cursor()

# 执行的都是原生差首亮SQL语句

cur.execute("SELECT * FROM mytable")

for row in cur.fetchall():

print(row[0])

db.close()

2、mysqlclient

# Windows安虚宽装

pip install some-package.whl

# linux 前置条件

sudo apt-get install python3-dev # debian / Ubuntu

sudo yum install python3-devel # Red Hat / CentOS

brew install mysql-connector-c # macOS (Homebrew)

pip install mysqlclient

3、PyMySQL

pip install PyMySQL

# 为了兼容mysqldb，只需要加入

pymysql.install_as_MySQLdb()

import pymysql

conn = pymysql.connect(host = 飗.0.0.1', user = 'root', passwd = "pythontab.com", db = 'testdb')

cur = conn.cursor()

cur.execute("SELECT Host,User FROM user")

for r in cur:

print(r)

cur.close()

conn.close()

4、peewee

pip install peewee

import peewee

from peewee import *

db = MySQLDatabase('testdb', user = 'root', passwd = 'pythontab.com')

class Book(peewee.Model):

author = peewee.CharField()

title = peewee.TextField()

class Meta:

database = db

Book.create_table()

book = Book(author = "pythontab", title = 'pythontab is good website')

book.save()

for book in Book.filter(author = "pythontab"):

print(book.title)

5、SQLAlchemy

from sqlalchemy import create_engine

from sqlalchemy.orm import sessionmaker

from sqlalchemy_declarative import Address, Base, Person

class Address(Base):

__tablename__ = 'address'

id = Column(Integer, primary_key = True)

street_name = Column(String(250))

engine = create_engine('sqlite:///sqlalchemy_example.db')

Base.metadata.bind = engine

DBSession = sessionmaker(bind = engine)

session = DBSession()

# Insert a Person in the person table

new_person = Person(name = 'new person')

session.add(new_person)

session.commit()

I. 如何用最简单的Python爬虫采集整个网站

在之前的文章中Python实现“维基网络六度分隔理论“之基础爬虫，我们实现了在一个网站上随机地从一个链接到另一个链接，但是，如果我们需要系统地把整个网站按目录分类，或者要搜索网站上的每一个页面，我们该怎么办？我们需要采集整个网站，但是那是一种非常耗费内存资源的过程，尤其是处理大型网站时，比较合适的工具就是用一个数据库来存储采集的资源，之前也说过。下面来说一下怎么做。

网站地图sitemap
网站地图，又称站点地图，它就是一个页面，上面放置了网站上需要搜索引擎抓取的所有页面的链接（注：不是所有页面，一般来说是所有文章链接。大多数人在网站上找不到自己所需要的信息时，可能会将网站地图作为一种补救措施。搜索引擎蜘蛛非常喜欢网站地图。
对于SEO，网站地图的好处：
1．为搜索引擎蜘蛛提供可以浏览整个网站的链接简单的体现出网站的整体框架出来给搜索引擎看；
2．为搜索引擎蜘蛛提供一些链接，指向动态页面或者采用其他方法比较难以到达的页面；
3．作为一种潜在的着陆页面，可以为搜索流量进行优化；
4．如果访问者试图访问网站所在域内并不存在的URL，那么这个访问者就会被转到“无法找到文件”的错误页面，而网站地图可以作为该页面的“准”内容。
数据采集
采集网站数据并不难，但是需要爬虫有足够的深度。我们创建一个爬虫，递归地遍历每个网站，只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始（一般是网站主页），然后搜索页面上的所有链接，形成列表，再去采集到的这些链接页面，继续采集每个页面的链接形成新的列表，重复执行。
很明显，这是一个复杂度增长很快的过程。加入每个页面有10个链接，网站上有5个页面深度，如果采集整个网站，一共得采集的网页数量是105，即100000个页面。
因为网站的内链有很多都是重复的，所以为了避免重复采集，必须链接去重，在Python中，去重最常用的方法就是使用自带的set集合方法。只有“新”链接才会被采集。看一下代码实例：
from urllib.request import urlopenfrom bs4 import BeautifulSoupimport repages = set()def getLinks(pageurl):globalpageshtml= urlopen("" + pageurl)soup= BeautifulSoup(html)forlink in soup.findAll("a", href=re.compile("^(/wiki/)")):if'href' in link.attrs:iflink.attrs['href'] not in pages:#这是新页面newPage= link.attrs['href']print(newPage)pages.add(newPage)getLinks(newPage)getLinks("")
原理说明：程序执行时，用函数处理一个空URL，其实就是维基网络的主页，然后遍历首页上每个链接，并检查是否已经在全局变量集合pages里面，如果不在，就打印并添加到pages集合，然后递归处理这个链接。
递归警告：Python默认的递归限制是1000次，因为维基网络的链接浩如烟海，所以这个程序达到递归限制后就会停止。如果你不想让它停止，你可以设置一个递归计数器或者其他方法。
采集整个网站数据
为了有效使用爬虫，在用爬虫的时候我们需要在页面上做一些事情。我们来创建一个爬虫来收集页面标题、正文的第一个段落，以及编辑页面的链接（如果有的话）这些信息。
第一步，我们需要先观察网站上的页面，然后制定采集模式，通过F12（一般情况下）审查元素，即可看到页面组成。
观察维基网络页面，包括词条和非词条页面，比如隐私策略之类的页面，可以得出下面的规则：
所有的标题都是在h1→span标签里，而且页面上只有一个h1标签。
所有的正文文字都在div#bodyContent标签里，如果我们想获取第一段文字，可以用div#mw-content-text→p，除了文件页面，这个规则对所有页面都适用。
编辑链接只出现在词条页面上，如果有编辑链接，都位于li#ca-edit标签的li#ca-edit→span→a里面。
调整一下之前的代码，我们可以建立一个爬虫和数据采集的组合程序，代码如下：
import redef getLinks(pageUrl):global pageshtml = urlopen("" + pageUrl)soup = BeautifulSoup(html)try:print(soup.h1.get_text())print(soup.find(id="mw-content-text").findAll("p")[0])print(soup.find(id="ca-edit").find("span").find("a").attrs['href'])except AttributeError:print("页面缺少属性")for link in soup.findAll("a", href =re.compile("^(/wiki/)")):if 'href' in link.attrs:#这是新页面newPage = link.attrs['href']print("------------------\n"+newPage)
这个for循环和原来的采集程序基本上是一样的，因为不能确定每一页上都有所有类型的数据，所以每个打印语句都是按照数据在页面上出现的可能性从高到低排列的。
数据存储到MySQL
前面已经获取了数据，直接打印出来，查看比较麻烦，所以我们就直接存到MySQL里面吧，这里只存链接没有意义，所以我们就存储页面的标题和内容。前面我有两篇文章已经介绍过如何存储数据到MySQL，数据表是pages，这里直接给出代码：
import reimport datetimeimport randomimport pymysqlconn = pymysql.connect(host = '127.0.0.1',port = 3306, user = 'root', passwd = '19930319', db = 'wiki', charset ='utf8mb4')cur = conn.cursor()cur.execute("USE wiki")#随机数种子random.seed(datetime.datetime.now())#数据存储def store(title, content):cur.execute("INSERT INTO pages(title, content)VALUES(\"%s\", \"%s\")", (title, content))cur.connection.commit()def getLinks(articleUrl):html = urlopen("" + articleUrl)title = soup.find("h1").get_text()content =soup.find("div",{"id":"mw-content-text"}).find("p").get_text()store(title, content)returnsoup.find("div",{"id":"bodyContent"}).findAll("a",href=re.compile("^(/wiki/)((?!:).)*$"))#设置第一页links =getLinks("/wiki/Kevin_Bacon")try:while len(links)>0:newArticle = links[random.randint(0, len(links)-1)].attrs['href']print (newArticle)links = getLinks(newArticle)finally:cur.close()conn.close()
小结
今天主要讲一下Python中遍历采集一个网站的链接，方便下面的学习。
希望通过上面的操作能帮助大家。如果你有什么好的意见，建议，或者有不同的看法，我都希望你留言和我们进行交流、讨论。

J. python怎么判断mysql库中某个表是否已创建

create table if not exists people(name text,age int(2),gender char(1));
如上代码表示创建一个名为people的数据表。有时在程序中，如果people这个表已经存在，如果执行下面的语句就会报错
>>> create table people(name text,age int(2),gender char(1));
if not exists 的作用就蚂卖是判断闷陆逗要创建的悉搏数据表是否已经存在，若不存在则创建，否则跳过该语句。
pymysql语法几乎一毛一样：

cursor.execute("create table if not exists movie(name text, star text, quote text, info text)")

导航:首页 > 编程语言 > pythonmysqltext

pythonmysqltext

与pythonmysqltext相关的资料