如何利用python收集關鍵詞_如何用最簡單的Python爬蟲採集整個網站

『壹』如何用python爬蟲抓取亞馬遜美國站關鍵詞排名

首先我們從網站發展的三個階段來分析關鍵詞：
一，首先我們的網站在建設之初需要選取一個關鍵詞來建設。
二，當我們的網站關鍵詞出現排名之後，為什麼別人的站點比我們的排名要高。高質量站點的競爭對手還有一些什麼關鍵詞。
三，當我們多個關鍵詞有了排名之後，做站的目的就出現了，哪個關鍵詞可以給我們帶來更多的流量，更多的轉化率，這些好的，轉化率高關鍵詞自然需要我們的更多關注。畢竟站長做站是以賺錢為目的的。
如果還需要細分的話，大致可以分為十一點：
1、網站還開始建設前，需要先選取關鍵詞，並以此擴展。常用的方法就是在搜索框中輸入擴展關鍵詞，查看相關頁面，以判斷關鍵詞競爭度。
2、做了關鍵詞以後，分析對手關鍵詞。
3、目標關鍵詞應該建設在首頁。
4、2級目標關鍵詞，在2級域名或2級欄目做2級目標關鍵詞。
5、內容頁裡面做長尾關鍵詞，長尾關鍵詞勝在一個做量，以量來帶動目標關鍵詞。就像金字塔一樣，慢慢的從下而上的堆積，把目標關鍵詞堆到頂端。
6、目標關鍵詞圍繞主關鍵詞來做。
7、自己網站關鍵詞，選擇上需要花非常大的心思。
8、如果要做關鍵詞，先看關鍵詞有多少篇頁面。
9、分析權重容量可以做多少關鍵詞。
10、分析競爭對手：前面3名的需要去分析它的規模、收錄量、內容頁。一般長尾關鍵詞都是存在於內容頁中，而且我們需要看這些文章為原創還是為原創，甚至是轉載。如果是後兩者那麼這些個長尾關鍵詞的權重不會太高。

『貳』如何用python實現在某網頁搜索框中輸入欄位後自動搜索信息並抓取

用爬蟲跟蹤下一頁的方法是自己模擬點擊下一頁連接，然後發出新的請求；
參考例子如下：
item1 = Item()
yield item1
item2 = Item()
yield item2
req = Request(url='下一頁的鏈接', callback=self.parse)
yield req
注意：使用yield時不要用return語句。

『叄』怎樣用python進行關鍵詞提取

關鍵字具體是什麼？
字元串比對就行了
html是beautifulsoup或者正則
json就更簡單了

『肆』 python查找txt文件中關鍵字

偽代碼：

1、遍歷文件夾下所有txt文件

rootdir='/path/to/xx/dir'#文件夾路徑
forparent,dirnames,filenamesinos.walk(rootdir):
forfilenameinfilenames:

2、讀取txt文件里的內容，通過正則表達式把txt里多篇文章拆分開來。得到一個列表：['{xx1}##NO','{xx2}','{xx3}##NO']

3、把上面得到的list寫到一個新的臨時文件里，比如：xx_tmp.txt，然後：shutil.move('xx_tmp.txt','xx.txt')覆蓋掉原來的文件

『伍』如何用python寫爬蟲來獲取網頁中所有的文章以及關鍵詞

所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，保存到本地。
類似於使用程序模擬IE瀏覽器的功能，把URL作為HTTP請求的內容發送到伺服器端，然後讀取伺服器端的響應資源。

在Python中，我們使用urllib2這個組件來抓取網頁。
urllib2是Python的一個獲取URLs(Uniform Resource Locators)的組件。

它以urlopen函數的形式提供了一個非常簡單的介面。

最簡單的urllib2的應用代碼只需要四行。

我們新建一個文件urllib2_test01.py來感受一下urllib2的作用：

import urllib2
response = urllib2.urlopen('http://www..com/')
html = response.read()
print html

按下F5可以看到運行的結果：

我們可以打開網路主頁，右擊，選擇查看源代碼（火狐OR谷歌瀏覽器均可），會發現也是完全一樣的內容。

也就是說，上面這四行代碼將我們訪問網路時瀏覽器收到的代碼們全部列印了出來。

這就是一個最簡單的urllib2的例子。

除了"http:"，URL同樣可以使用"ftp:"，"file:"等等來替代。

HTTP是基於請求和應答機制的：

客戶端提出請求，服務端提供應答。

urllib2用一個Request對象來映射你提出的HTTP請求。

在它最簡單的使用形式中你將用你要請求的地址創建一個Request對象，

通過調用urlopen並傳入Request對象，將返回一個相關請求response對象，

這個應答對象如同一個文件對象，所以你可以在Response中調用.read()。

我們新建一個文件urllib2_test02.py來感受一下：

import urllib2
req = urllib2.Request('http://www..com')
response = urllib2.urlopen(req)
the_page = response.read()
print the_page

可以看到輸出的內容和test01是一樣的。

urllib2使用相同的介面處理所有的URL頭。例如你可以像下面那樣創建一個ftp請求。

req = urllib2.Request('ftp://example.com/')

在HTTP請求時，允許你做額外的兩件事。

1.發送data表單數據

這個內容相信做過Web端的都不會陌生，

有時候你希望發送一些數據到URL(通常URL與CGI[通用網關介面]腳本，或其他WEB應用程序掛接)。

在HTTP中,這個經常使用熟知的POST請求發送。

這個通常在你提交一個HTML表單時由你的瀏覽器來做。

並不是所有的POSTs都來源於表單，你能夠使用POST提交任意的數據到你自己的程序。

一般的HTML表單，data需要編碼成標准形式。然後做為data參數傳到Request對象。

編碼工作使用urllib的函數而非urllib2。

我們新建一個文件urllib2_test03.py來感受一下：

import urllib
import urllib2
url = 'http://www.someserver.com/register.cgi'
values = {'name' : 'WHY',
'location' : 'SDU',
'language' : 'Python' }
data = urllib.urlencode(values) # 編碼工作
req = urllib2.Request(url, data) # 發送請求同時傳data表單
response = urllib2.urlopen(req) #接受反饋的信息
the_page = response.read() #讀取反饋的內容

如果沒有傳送data參數，urllib2使用GET方式的請求。

GET和POST請求的不同之處是POST請求通常有"副作用"，

它們會由於某種途徑改變系統狀態(例如提交成堆垃圾到你的門口)。

Data同樣可以通過在Get請求的URL本身上面編碼來傳送。

import urllib2
import urllib
data = {}
data['name'] = 'WHY'
data['location'] = 'SDU'
data['language'] = 'Python'
url_values = urllib.urlencode(data)
print url_values
name=Somebody+Here&language=Python&location=Northampton
url = 'http://www.example.com/example.cgi'
full_url = url + '?' + url_values
data = urllib2.open(full_url)

這樣就實現了Data數據的Get傳送。

2.設置Headers到http請求

有一些站點不喜歡被程序（非人為訪問）訪問，或者發送不同版本的內容到不同的瀏覽器。

默認的urllib2把自己作為「Python-urllib/x.y」(x和y是Python主版本和次版本號,例如Python-urllib/2.7)，

這個身份可能會讓站點迷惑，或者乾脆不工作。

瀏覽器確認自己身份是通過User-Agent頭，當你創建了一個請求對象，你可以給他一個包含頭數據的字典。

下面的例子發送跟上面一樣的內容，但把自身模擬成Internet Explorer。

（多謝大家的提醒，現在這個Demo已經不可用了，不過原理還是那樣的）。

import urllib
import urllib2
url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'name' : 'WHY',
'location' : 'SDU',
'language' : 'Python' }
headers = { 'User-Agent' : user_agent }
data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
response = urllib2.urlopen(req)
the_page = response.read()

以上就是python利用urllib2通過指定的URL抓取網頁內容的全部內容，非常簡單吧，希望對大家能有所幫助。

『陸』如何用Python提取中文關鍵詞

去非中文字元
分詞
統計
提取

『柒』如何用Python實現在文件夾下查找一個關鍵詞

#!/usr/bin/python
#coding:utf8
import os

#判斷文件中是否包含關鍵字，是則將文件路徑列印出來
def is_file_contain_word(file_list, query_word):
for _file in file_list:
if query_word in open(_file).read():
print _file
print("Finish searching.")

#返回指定目錄的所有文件（包含子目錄的文件）
def get_all_file(floder_path):
file_list = []
if floder_path is None:
raise Exception("floder_path is None")
for dirpath, dirnames, filenames in os.walk(floder_path):
for name in filenames:
file_list.append(dirpath + '\\' + name)
return file_list

query_word = raw_input("Please input the key word that you want to search:")
basedir = raw_input("Please input the directory:")

is_file_contain_word(get_all_file(basedir), query_word)
raw_input("Press Enter to quit.")

請採納

『捌』怎麼用python依據多個關鍵詞提取Excel里關鍵詞所在的整行內容

沒有數據，模擬幾條說明常規思路。

a=['PGSC1','PGSC3','PGSC6','PGSC7']

b=[['PGSC1','A',555],['PGSC2','B',988],['PGSC3','C',7666],['PGSC7','P',8767],['PGSC1','A',567]]

data=[]

for x in a:

for y in b:

if x==y[0]:

data.append(y)

print(data)

當然，你也可以用numpy或者pandas來處理會更方便。

『玖』 python怎麼提取關鍵詞

你好，那個r'.*?('+ lste +').*?『會吧你這個關鍵字前面和後面的文字都匹配了，所以當你的那個關鍵字多次出現的時候，就會報那個重復出現的錯了。
你直接
hh = re.findall(lste, gg)就可以了呀？
或者是還有什麼需要匹配的東西，我看你後面好像要將結果連接起來，但是你匹配出來的都是關鍵字，直接連接的話，其實就是多個關鍵字的拼接了。

『拾』如何用最簡單的Python爬蟲採集整個網站

採集網站數據並不難，但是需要爬蟲有足夠的深度。我們創建一個爬蟲，遞歸地遍歷每個網站，只收集那些網站頁面上的數據。一般的比較費時間的網站採集方法從頂級頁面開始（一般是網站主頁），然後搜索頁面上的所有鏈接，形成列表，再去採集到的這些鏈接頁面，繼續採集每個頁面的鏈接形成新的列表，重復執行。

導航:首頁 > 編程語言 > 如何利用python收集關鍵詞

如何利用python收集關鍵詞

與如何利用python收集關鍵詞相關的資料