java新聞爬蟲_java爬蟲抓取指定數據

❶ java網路爬蟲怎麼實現

網路爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。x0dx0a傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。對於垂直搜索來說，聚焦爬蟲，即有針對性地爬取特定主題網頁的爬蟲，更為適合。x0dx0ax0dx0a以下是一個使用java實現的簡單爬蟲核心代碼：x0dx0apublic void crawl() throws Throwable { x0dx0a while (continueCrawling()) { x0dx0a CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL x0dx0a if (url != null) { x0dx0a printCrawlInfo(); x0dx0a String content = getContent(url); //獲取URL的文本信息 x0dx0a x0dx0a //聚焦爬蟲只爬取與主題內容相關的網頁，這里採用正則匹配簡單處理 x0dx0a if (isContentRelevant(content, this.regexpSearchPattern)) { x0dx0a saveContent(url, content); //保存網頁至本地 x0dx0a x0dx0a //獲取網頁內容中的鏈接，並放入待爬取隊列中 x0dx0a Collection urlStrings = extractUrls(content, url); x0dx0a addUrlsToUrlQueue(url, urlStrings); x0dx0a } else { x0dx0a System.out.println(url + " is not relevant ignoring ..."); x0dx0a } x0dx0a x0dx0a //延時防止被對方屏蔽 x0dx0a Thread.sleep(this.delayBetweenUrls); x0dx0a } x0dx0a } x0dx0a closeOutputStream(); x0dx0a}x0dx0aprivate CrawlerUrl getNextUrl() throws Throwable { x0dx0a CrawlerUrl nextUrl = null; x0dx0a while ((nextUrl == null) && (!urlQueue.isEmpty())) { x0dx0a CrawlerUrl crawlerUrl = this.urlQueue.remove(); x0dx0a //doWeHavePermissionToVisit：是否有許可權訪問該URL，友好的爬蟲會根據網站提供的"Robot.txt"中配置的規則進行爬取 x0dx0a //isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往採用BloomFilter進行排重，這里簡單使用HashMap x0dx0a //isDepthAcceptable：是否達到指定的深度上限。爬蟲一般採取廣度優先的方式。一些網站會構建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環），採用深度限制加以避免 x0dx0a if (doWeHavePermissionToVisit(crawlerUrl) x0dx0a && (!isUrlAlreadyVisited(crawlerUrl)) x0dx0a && isDepthAcceptable(crawlerUrl)) { x0dx0a nextUrl = crawlerUrl; x0dx0a // System.out.println("Next url to be visited is " + nextUrl); x0dx0a } x0dx0a } x0dx0a return nextUrl; x0dx0a}x0dx0aprivate String getContent(CrawlerUrl url) throws Throwable { x0dx0a //HttpClient4.1的調用與之前的方式不同 x0dx0a HttpClient client = new DefaultHttpClient(); x0dx0a HttpGet httpGet = new HttpGet(url.getUrlString()); x0dx0a StringBuffer strBuf = new StringBuffer(); x0dx0a HttpResponse response = client.execute(httpGet); x0dx0a if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) { x0dx0a HttpEntity entity = response.getEntity(); x0dx0a if (entity != null) { x0dx0a BufferedReader reader = new BufferedReader( x0dx0a new InputStreamReader(entity.getContent(), "UTF-8")); x0dx0a String line = null; x0dx0a if (entity.getContentLength() > 0) { x0dx0a strBuf = new StringBuffer((int) entity.getContentLength()); x0dx0a while ((line = reader.readLine()) != null) { x0dx0a strBuf.append(line); x0dx0a } x0dx0a } x0dx0a } x0dx0a if (entity != null) { x0dx0a nsumeContent(); x0dx0a } x0dx0a } x0dx0a //將url標記為已訪問 x0dx0a markUrlAsVisited(url); x0dx0a return strBuf.toString(); x0dx0a}x0dx0apublic static boolean isContentRelevant(String content, x0dx0aPattern regexpPattern) { x0dx0a boolean retValue = false; x0dx0a if (content != null) { x0dx0a //是否符合正則表達式的條件 x0dx0a Matcher m = regexpPattern.matcher(content.toLowerCase()); x0dx0a retValue = m.find(); x0dx0a } x0dx0a return retValue; x0dx0a}x0dx0apublic List extractUrls(String text, CrawlerUrl crawlerUrl) { x0dx0a Map urlMap = new HashMap(); x0dx0a extractHttpUrls(urlMap, text); x0dx0a extractRelativeUrls(urlMap, text, crawlerUrl); x0dx0a return new ArrayList(urlMap.keySet()); x0dx0a} x0dx0aprivate void extractHttpUrls(Map urlMap, String text) { x0dx0a Matcher m = (text); x0dx0a while (m.find()) { x0dx0a String url = m.group(); x0dx0a String[] terms = url.split("a href=\""); x0dx0a for (String term : terms) { x0dx0a // System.out.println("Term = " + term); x0dx0a if (term.startsWith("http")) { x0dx0a int index = term.indexOf("\""); x0dx0a if (index > 0) { x0dx0a term = term.substring(0, index); x0dx0a } x0dx0a urlMap.put(term, term); x0dx0a System.out.println("Hyperlink: " + term); x0dx0a } x0dx0a } x0dx0a } x0dx0a} x0dx0aprivate void extractRelativeUrls(Map urlMap, String text, x0dx0a CrawlerUrl crawlerUrl) { x0dx0a Matcher m = relativeRegexp.matcher(text); x0dx0a URL textURL = crawlerUrl.getURL(); x0dx0a String host = textURL.getHost(); x0dx0a while (m.find()) { x0dx0a String url = m.group(); x0dx0a String[] terms = url.split("a href=\""); x0dx0a for (String term : terms) { x0dx0a if (term.startsWith("/")) { x0dx0a int index = term.indexOf("\""); x0dx0a if (index > 0) { x0dx0a term = term.substring(0, index); x0dx0a } x0dx0a String s = //" + host + term; x0dx0a urlMap.put(s, s); x0dx0a System.out.println("Relative url: " + s); x0dx0a } x0dx0a } x0dx0a } x0dx0a x0dx0a}x0dx0apublic static void main(String[] args) { x0dx0a try { x0dx0a String url = ""; x0dx0a Queue urlQueue = new LinkedList(); x0dx0a String regexp = "java"; x0dx0a urlQueue.add(new CrawlerUrl(url, 0)); x0dx0a NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L, x0dx0a regexp); x0dx0a // boolean allowCrawl = crawler.areWeAllowedToVisit(url); x0dx0a // System.out.println("Allowed to crawl: " + url + " " + x0dx0a // allowCrawl); x0dx0a crawler.crawl(); x0dx0a } catch (Throwable t) { x0dx0a System.out.println(t.toString()); x0dx0a t.printStackTrace(); x0dx0a } x0dx0a}

❷ 用java編寫網路爬蟲求代碼和流程急

import java.awt.*;
import java.awt.event.*;
import java.io.*;
import java.net.*;
import java.util.*;
import java.util.regex.*;
import javax.swing.*;
import javax.swing.table.*;//一個Web的爬行者(註：爬行在這里的意思與抓取，捕獲相同)
public class SearchCrawler extends JFrame{
//最大URL保存值
private static final String[] MAX_URLS={"50","100","500","1000"};

//緩存robot禁止爬行列表
private HashMap disallowListCache=new HashMap();

//搜索GUI控制項
private JTextField startTextField;
private JComboBox maxComboBox;
private JCheckBox limitCheckBox;
private JTextField logTextField;
private JTextField searchTextField;
private JCheckBox caseCheckBox;
private JButton searchButton;

//搜索狀態GUI控制項
private JLabel crawlingLabel2;
private JLabel crawledLabel2;
private JLabel toCrawlLabel2;
private JProgressBar progressBar;
private JLabel matchesLabel2;

//搜索匹配項表格列表
private JTable table;

//標記爬行機器是否正在爬行
private boolean crawling;

//寫日誌匹配文件的引用
private PrintWriter logFileWriter;

//網路爬行者的構造函數
public SearchCrawler(){
//設置應用程序標題欄
setTitle("搜索爬行者");
//設置窗體大小
setSize(600,600);

//處理窗體關閉事件
addWindowListener(new WindowAdapter(){
public void windowClosing(WindowEvent e){
actionExit();
}
});

//設置文件菜單
JMenuBar menuBar=new JMenuBar();
JMenu fileMenu=new JMenu("文件");
fileMenu.setMnemonic(KeyEvent.VK_F);
JMenuItem fileExitMenuItem=new JMenuItem("退出",KeyEvent.VK_X);
fileExitMenuItem.addActionListener(new ActionListener(){
public void actionPerformed(ActionEvent e){
actionExit();
}
});
fileMenu.add(fileExitMenuItem);
menuBar.add(fileMenu);
setJMenuBar(menuBar);

❸ java爬蟲抓取指定數據

根據java網路編程相關的內容，使用jdk提供的相關類可以得到url對應網頁的html頁面代碼。

針對得到的html代碼，通過使用正則表達式即可得到我們想要的內容。

比如，我們如果想得到一個網頁上所有包括「java」關鍵字的文本內容，就可以逐行對網頁代碼進行正則表達式的匹配。最後達到去除html標簽和不相關的內容，只得到包括「java」這個關鍵字的內容的效果。

從網頁上爬取圖片的流程和爬取內容的流程基本相同，但是爬取圖片的步驟會多一步。

需要先用img標簽的正則表達式匹配獲取到img標簽，再用src屬性的正則表達式獲取這個img標簽中的src屬性的圖片url，然後再通過緩沖輸入流對象讀取到這個圖片url的圖片信息，配合文件輸出流將讀到的圖片信息寫入到本地即可。

❹ 關於java新聞網站的演算法

（一）演算法倫理的研究

1.演算法內涵界定。演算法源於數學，但現代演算法又遠遠不止於傳統數學的計算范疇。演算法多被理解為是計算機用於解決問題的程序或步驟，是現代人工智慧系統的運行支柱。《計算主義：一種新的世界觀》(李建會等，2012)中將演算法定義為能行的方法，在外界的常識性理解中所謂演算法就是能感受到的一套運算規則，這個規則的特點在於運算時間的有限性、計算步驟的有窮性、輸入結果的確切性,它是機械步驟或能行可算計程序。該定義點明了演算法應具備的兩個基本屬性—或侍李—有限性與有窮性。《用計算的觀點看世界》(酈全民，2016)則從信息傳播的角度解讀演算法，認為演算法實質上是信息處理方法。

2.演算法倫理研究

倫理關乎道德價值真理及其判斷。存在於自然界、社會中的人，其行為應遵循一定的倫理道德規范。倫理的效應要導向善。倫理道德關注對個體存在的尊重、個體的自由、公平正義以及組織團體的延續與發展等問題。在一定程度上可以說，當今的人類社會已經不能脫離智能演算法系統而運行了。

演算法無時無處不在對世界產生影響，因而演算法也會必然的觸碰到倫理道德。和鴻鵬（2017）已指出，演算法系統在人類社會生活中的廣泛應用，會陷入諸多如人類面臨且無法迴避的倫理兩難選擇困境之中。而當演算法與倫理發生關聯時，學界一般認為會引出職業倫理和技術倫理兩種倫理問題。

職業倫理主要與演算法系統的開發者有關，指開發者是帶有個性價值觀、倫理道德觀去研發演算法系統的行為體，因而演算法系統一開始便會摻雜著設計人主觀性的倫理道德觀。設計者出於何種目的開發某演算法系統、面對不同問題設計者持有的倫理道德態度，這些衫遲都會在演算法系統的運行中得到體現。

技術倫理是演算法系統在一定意義上可稱之為一種科學技術，這種技術自身及其運作結果都會負載著倫理價值。其實在一些情況下，職業倫理與技術倫理之間並沒有很明確的界別，關於這一點，劉則淵跟王國豫已做過論述。

本文將主要從技術倫理的角度對演算法關涉倫理這一問題嘗試做深入研究。

（二）網路新聞傳播的演算法倫理研究

演算法與技術的融合不斷英語於網路新聞傳播領域中，從數據新聞到機器寫作，從演算法推送到輿情到分析，國內新聞傳媒領域的機器新聞和相關研究逐漸發展，金兼斌在《機器新聞寫作:一場正在發生的革命》(2014)，作者較早的將眼光聚焦於基於演算法的新聞內容生產和編輯。認為在自動化新聞生產大發展的前提下，諸如新聞生產或分發中勞動密集型的基礎性工作與環節都將被技術取代。張超、鍾新在《從比特到人工智慧:數字新聞生產的演算法轉向》(2017)認為演算法正在從比特形式走向人工智慧階段，這種轉向使得數字新聞與傳統新聞的邊界進一步明晰，促使數字新聞生產也產生了變革。胡萬鵬在《智能演算法推薦的倫理風險及防範策略》中總結了從演算法推送方面：針對新聞的價值觀所受到的負面影響；以及新聞的公共性、客觀性和真實性受到的削弱進行分析；從受眾方面：將具體對信息繭房現象以及受眾的知情權和被遺忘權展開探討；從社會影響方面,則針對社會群體、社會公共領域和社會文化所受到的消極影響展開論述。

根據以上文獻的梳理可以看出，國內目前對網路新聞傳播的演算法倫理研究主要集中在新聞業態演算法倫理失范的相關問題，因為與其他失范問題相比，這是比較容易發現的。但目前關於網路新聞傳播的演算法倫理的國內研究還存在不足：國內算談棚法倫理和網路新聞傳播演算法倫理的研究還是在起步階段，比較成熟的系統性研究還未出現；關於演算法開發人員和平台的責任機制的研究都比較薄弱，總上所述，演算法推送新聞的倫理問題研究是有必要繼續加強的。

2.新聞推薦演算法的興起、發展與原理

2.1新聞推薦演算法的興起

隨著計算機技術的信息處理的維度越來越高，信息處理的能力不斷提升，演算法技術可以從大數據中篩選出用戶最關心最感興趣的信息，改變了原有的新聞信息傳播方式，重塑了新的媒介生態和傳播格局。

但反過來看，在人人都能生產信息的背景下，信息的生產、傳播和反饋的速度都是呈幾何倍數增長，用戶面對的信息越來越多。由於設備的局限性和信息海量，用戶無法集中注意力看自己感興趣的內容，也無法及時抓取對自己有用的信息，於是出現了「注意力經濟」。美國經濟學家邁克爾·戈德海伯（1997）認為，當今社會是一個信息極大豐富甚至泛濫的社會，而互聯網的出現，加快了這一進程，信息非但不是稀缺資源，相反是過剩的。相對於過剩的信息，只有一種資源是稀缺的，那就是人們的注意力。換句話說，信息不能夠一味追求量，還要有價值，價值就在於用戶對信息的注意力，誰獲得了用戶的注意力就可以有市場的發展空間，通過「販賣」用戶的注意力能夠使新媒體聚合平台獲得利潤，維持發展。再加上現在生活節奏越來越快，人們對信息獲取的量和效率要求提高，不想把時間浪費在自己不感興趣的信息，從而用戶獲取信息的「個性化」特徵變得明顯起來。

基於此背景下，演算法推送新聞的傳播機制應運而生，用戶不需要特意搜索自己需要的信息，而是海量的信息會自行「找到」用戶，為用戶節省搜索時間之餘，又能做到真正為用戶提供有用的信息。

2.2新聞推薦演算法的發展現狀

演算法推薦是依據用戶數據為用戶推薦特定領域的信息，根據受眾使用反饋不斷修正並完善推薦方案。目前主要有兩類新聞機構使用演算法推送，其一是新型的互聯網新聞聚合類平台，國內主要是以今日頭條和一點資訊等演算法類平台為代表，在我國新聞客戶端市場上擁有極高的佔有率。張一鳴創建今日頭條是依靠大數據和演算法為用戶推薦信息，提供連接人與信息的服務，演算法會以關鍵詞等元素判斷用戶的興趣愛好，從全網抓取內容實現個性化推薦。國外則是以Facebook、Instagram等平台為代表，這些APP都是通過演算法挖掘用戶的數據，以用戶個性化需求為導向對用戶進行新聞推送。另一種則是專業新聞生產的傳統媒體，為積極應對新聞市場的競爭和提高技術水平而轉型到新聞全媒體平台，如國內的「人民日報」等，國外利用演算法推送向用戶推送新聞的傳統媒體則有美國的美聯社、華盛頓郵報和英國的BBC等,他們利用演算法監督受眾的數量還有閱讀行為，使他們的新聞報道能夠更加受受眾的喜歡，增加用戶的粘性。

2.2新聞推薦演算法的原理

2.2.1新聞推薦演算法的基本要素

演算法推送有三個基本要素，分別是用戶、內容和演算法。用戶是演算法推送系統的服務對象，對用戶的理解和認知越是透徹，內容分法的准確性和有效性就越准確。內容是演算法推送系統的基本生產資料，對多種形式內通的分析、組織、儲存和分發都需要科學的手段與方法。演算法是演算法推送技術上的支持，也是最核心的。系統中大量用戶與海量的信息是無法自行匹配的，需要推送演算法把用戶和內容連接起來，在用戶和內容之間發揮橋梁作用，高效把合適的內容推薦給合適的用戶。

2.2.2新聞推薦演算法的基本原理

演算法推送的出現需要具備兩個條件：足夠的信息源和精確的演算法框架。其中，演算法的內容生產源與信息分發最終效果密切相關：是否有足夠多的信息可供抓取與信息是否有足夠的品質令用戶滿意都將對信息的傳播效果產生影響。與此同時，分發環節也在向前追溯，改變著整個傳播的生態。目前，國內新聞傳播領域所使用的演算法推送主要有三大類——協同過濾推送、基於內容推送和關聯規則推送。

協同過濾推送分為基於用戶的協同過濾和基於模型的協同過濾。前者主要考慮的是用戶和用戶之間的相似度，只要找出相似用戶喜歡的新聞文章類別，並預測目標用戶對該文章的喜歡程度，就可以將其他文章推薦給用戶；後者和前者是類似的，區別在此時轉向找到文章和文章之間的相似度，只有找到了目標用戶對某類文章的喜愛程度，那麼我們就可以對相似度高的類似文章進行預測，將喜愛程度相當的相似文章推薦給用戶。因此，前者利用用戶歷史數據在整個用戶資料庫中尋找相似的推送文章進行推薦，後者通過用戶歷史數據構造預測模型，再通過模型進行預測並推送。

基於內容的推送即根據用戶歷史進行文本信息特徵抽取、過濾，生成模型，向用戶推薦與歷史項目內容相似的信息。它的優點之一就是解決了協同過濾中數據稀少時無法准確判斷分發的問題。但如果長期只根據用戶歷史數據推薦信息，會造成過度個性化，容易形成「信息繭房」。

關聯規則推送就是基於用戶歷史數據挖掘用戶數據背後的關聯，以分析用戶的潛在需求，向用戶推薦其可能感興趣的信息。基於該演算法的信息推薦流程主要分為兩個步驟，第一步是根據當前用戶閱讀過的感興趣的內容，通過規則推導出用戶還沒有閱讀過的可能感興趣的內容；第二是根據規則的重要程度，對內容排序並展現給用戶。關聯規則推送的效果依賴規則的數量和質量，但隨著規則數量的增多，對系統的要求也會提高。

2.2.3演算法推送的實現流程

在信息過載的時代，同一個新聞選題有很多同質化的報道，因此分發前需要對新聞內容進行消重，消重後的新聞內容便等待推送，此時的推送有三個類別：啟動推送、擴大推送和限制推送。

3.「今日頭條」新聞推薦演算法分析

「今日頭條」是國內一款資訊類的媒體聚合平台，每天有超過1.2億人使用。從「你關心的，才是頭條！」到如今的「信息創造價值！」，產品slogan的變化也意味著今日頭條正逐漸擺脫以往單一、粗暴的流量思維，而開始注重人與信息的連接，在促進信息高效、精準傳播的同時注重正確的價值引導。

在2018年初，「今日頭條」的資深演算法架構師曹歡歡博士在一場分享交流會上公開了其演算法運行原理。在他的敘述中，非常詳細地介紹了「今日頭條」的演算法推薦系統概述以及演算法推薦系統的操作原理。

3.1.1-1曹歡歡博士的今日頭條演算法建模

上圖用數學形式化的方法去描述「今日頭條」的演算法推送，實際上就是一個能夠得出用戶對內容滿意程度的函數：即y為用戶對內容的滿意度，Xi,Xc,Xu分別是今日頭條公開的演算法推送的三個維度：Xi是用戶，包括用戶的性別、年齡、職業和興趣標簽，還有其他演算法模型刻畫的隱形用戶偏好等；Xc是環境，這也是移動互聯網時代新聞推送的特點，由於用戶隨時隨地在不停移動，移動終端也在移動，用戶在不同的工作場合、旅行等場景信息推送偏好也會不同；Xu是內容，今日頭條本身就是信息聚合類平台，平台上涵蓋各種不同形式的內容。本章將以該函數為基礎，逐一分析今日頭條的推薦演算法。

3.1推薦維度之一：內容分析

內容分析原指第二次世界大戰期間，傳播學家拉斯韋爾等研究學家組織了「戰士通訊研究」的工作，以德國公開出版的戰時報紙為分析研究對象，弄清報紙內容本質性的事實和趨勢，揭示隱含的隱性情報內容，獲取了許多軍情機密情報並且對事態發展作出情報預測。在「今日頭條」中，內容分析則是對文章、視頻內容提取關鍵要素，通過對文本、視頻標題關鍵字進行語義識別，給內容進行分類。「今日頭條」的推送系統是典型的層次化文本分類演算法，來幫助每篇新聞找到合適的分類，比如：第一大分類是政治、科技、財經、娛樂、體育等，體育類可以下分籃球、足球、網球等，足球又可以下分中國足球和國際足球，中國足球最後下分為甲、中超、國家隊等。這一步是對文章進行對這個工作主要目的是對文章進行分類，方便以後對客戶推薦。

想要內容分析實現效果，則需要海量的內容信息給演算法系統提供有效的篩選和分類。「今日頭條」既然是依賴於演算法推送新聞，那它背後的資料庫必然是強大的，「網頁蜘蛛」和「頭條號」就是支撐今日頭條平台消息來源的重要渠道，其消息來源極其豐富，何時何地有何新鮮事，都能高效率抓取信息。

第一個消息來源的渠道是「網頁蜘蛛」，「網頁蜘蛛」又叫網頁爬蟲，頭條使用的就是搜索引擎爬蟲叫「Bytespider」。它能按照一定的規則，自動爬行抓取互聯網的信息或腳本，就像蜘蛛通過蛛網進行捕食，當發現新的信息資源，蜘蛛會立刻出動抓取信息內容並將其收入自己的資料庫中。和微信的垂直搜索不同，Bytespider是能夠抓取全網內容的全新搜索引擎，因此「今日頭條」的搜索引擎功能很全面，搜索的資源很廣，資源包容性極高。

Bytespider信息抓取的基本流程如下：首先是網頁抓取。Bytespider順著網頁中的超鏈接，從這個網站爬到另一個網站，通過超鏈接分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於互聯網中超鏈接的應用很普遍，理論上，從一定范圍的網頁出發，就能搜集到絕大多數的網頁。第二步是處理網頁。搜索引擎抓到網頁後，還要做大量的預處理工作，才能提供檢索服務。其中，最重要的就是提取關鍵詞，建立索引庫和索引。其他還包括消除重復網頁、判斷網頁類型、分析超鏈接、計算網頁的重要度、豐富度等。第三步提供檢索服務。用戶輸入關鍵詞進行檢索，搜索引擎從索引資料庫中找到匹配該關鍵詞的網頁，為了用戶便於判斷，除了網頁標題和URL外，還會提供一段來自網頁的摘要以及其他信息。

3.2推薦維度之二：用戶分析

用戶分析通過提取用戶的有效數據，如用戶經常瀏覽的文字類型、經常搜索的關鍵字、注冊時登記信息的內容等，演算法系統可以將每個用戶的瀏覽記錄、瀏覽時間、留言、評論和轉發等行為進行關鍵字提取，最終形成用戶畫像，以便之後對用戶進行文章和視頻的精準推送。舉個例子，給喜歡閱讀「體育」的用戶標上「體育」標簽；給喜歡「娛樂」的用戶標上「娛樂」的標簽，這一步的作用是給用戶的興趣進行建模，包括用戶對文章和視頻的全局熱度、分類熱度，主題熱度，以及關鍵詞熱度等。熱度信息在大的推薦系統能夠解決新聞冷啟動問題，幫助新聞實現推送。

用戶分析還具有協同特徵，它可以在部分程度上幫助解決所謂演算法越推越窄的問題。協同特徵也就是「聯想式」的推送方法，並非只考慮用戶已有歷史，而是通過用戶行為分析不同用戶間相似性，比如點擊相似、興趣分類相似、主題相似、興趣詞相似，甚至向量相似，從而擴展模型的探索能力。根據用戶之間計算數據的相似程度，把用戶細化分類成為不同的目標群體，再向目標群體集中的推送其感興趣的新聞內容

內容分析和用戶分析是相輔相成的，如果沒有分析的文本標簽，無法得到用戶興趣標簽，沒有用戶的興趣標簽就無法給用戶定位實現精準推送。

3.3推薦維度之三：環境分析

環境分析就是根據文章的時效性和接近性推送給相應的用戶，比如獲取用戶當前所在位置是否在旅遊區，這個可以通過獲取用戶的實時位置來實現。還會不斷與用戶之前經常出現的所在地進行對比等方式確認當前狀態，分析出用戶是在常住地區還是在旅行。這時若系統檢測到用戶正在泰山及周邊遊玩，則可能會相應推送泰山的相關文章、周邊的交通新聞和天氣信息等等。

通過上面三個推薦維度可以作為數據基礎，分析當前用戶處於什麼環境，結合用戶畫像以及文章的內容分類來推薦，盡量做到推送的內容都是用戶所感興趣的。演算法系統還會通過內容分類、分析抽取，把文本相似度高的文章，包括新聞主題、內容相似的文章進行消重，解決推送重復的問題，進一步對目標用戶進行精確且不重復的內容推薦。最後過濾質量低俗色情的內容，以免造成平台會有負面傾向。

3.4「今日頭條」新聞推薦演算法的價值取向

3.4.1「用戶為上」

「今日頭條」的演算法推送是站在用戶的立場上的，以滿足用戶個性化和推送的精準性，「今日頭條」也重新衡量了新聞價值標准：以用戶為上，用戶對新聞內容和閱讀方式的滿意度便是平台推送新聞的價值宗旨。傳統媒體時代，只有報紙和電視，有什麼受眾就得看什麼，而如今「今日頭條」根據用戶興趣去進行推送。演算法推送平台用戶范圍廣，很多用戶熱衷關注負面，也有許多用戶都有窺視欲和好奇心，喜歡無聊八卦和無聊新聞，而且在好奇心作用下用戶都有從眾心理。這使得生產者過度去迎合受眾，只要是用戶喜歡看就可以發表在「今日頭條」上。

3.4.2「演算法主導」

「今日頭條」更注重技術分發，生產者是用戶，受眾者也是用戶，這樣一來內容監管和分發就很困難。演算法推送機制根據用戶愛好進行推送，這樣生產的內容快、也無疑會加速內容配送效率。在演算法推送模型中，用戶點擊頻率、閱讀時間、點贊評論以及轉發在演算法時代都是可以進行量化的目標。在這樣情況下生產的內容，想要獲得較大點擊率和推送率，需要標題才能吸引用戶，因為用戶在平台一眼能看到的就是標題和配圖。標題和配圖決定用戶是否會打開你的內容，這導致許多內容生產者在編輯新聞標題時陷入標題黨的怪圈，還有導致低俗內容的呈現，以製造沖突製造懸念貼標簽等方式引用戶點擊，意圖把自己的文章做成爆文。對於海量的信息內容，即使今日頭條數據和智能推薦做的再好，目前來說也難以抵擋海量的垃圾信息。

4.演算法推送新聞引發的倫理問題

在如今網路時代的傳播思維中，「用戶為上」、「演算法主導」的新聞價值取向已經在演算法聚合類平台成為了普遍，演算法推送技術作為吸引用戶的手段，搭建起一個充滿誘導的媒介環境，以此增加用戶對平台的粘性。演算法推送技術在獲取信息、傳播速度等方面與以往相比有著跨時代的進步，但與此同時，由於演算法推送技術的加入，衍生出新的倫理問題，並且日漸復雜化。

4.1演算法推送引發的倫理問題

4.1.1演算法推送過於機械化，沒有思考能力

單向的演算法推薦對用戶來說經常會帶來內容雜亂無章、信息量過大、信息價值低等問題。從邏輯講，演算法只是從關鍵字的檢索匹配來完成統計推薦，但對新聞報道或文學作品具有藝術性、專業性的內容來說，是不能保證推送的質量的。演算法方面，目前主要基於匹配檢索與統計，大部分都是個人關注的信息類型和標簽，難以達到較好的推送效果。一千個人眼裡有一千個哈姆雷特，但是計算機只有隻有一個。演算法技術過於注重機械化的統計，只根據關鍵詞來推薦用戶，對我們中國具有博大精深的中國文字文化底蘊，推薦演算法是遠遠不夠的。整個新聞客戶端顯得像是一個菜市場，沒有態度、沒有風格，閱讀感受單一化，呈現了碎片化的特點。新聞不只是讓用戶能夠了解身邊發生的新鮮事，還有宣傳正面思想和傳播正能量的作用，新聞應該還要給人們帶來新的思考。讓機器做出正確判斷很簡單，但是讓機器綜合心理學、社會學、乃至某細分領域內的規則做出判斷還要正確地引導受眾則很難，正如現在演算法技術還不能完成一篇富有人文性、文學性和批判性的深度報道，它止步在了碎片式的、表層的傳播范疇。

4.1.2容易引起「信息繭房」效應

「信息繭房」這一概念是凱斯.桑斯坦在《信息烏托邦》一書中提出的。意指受眾在過度的信息自我選擇之中，這樣會降低接觸外界其他信息的可能，從而將自己的生活桎梏於蠶繭一般的「蠶房」中的現象。人們的信息領域會習慣性被自己的興趣引導，信息窄化帶來了受眾對信息接收的單一性，這種單一性的可能會使受眾陷入循環，加重受眾信息同質化。

4.1.3演算法推送的「偽中立性」

客觀和全面是新聞倫理的基本要求，新聞從業者必須從可好信息源來獲取真實的信息，以客觀的態度反應現實。我們慣常認為,互聯網技術服務商是技術中立者,不需要承擔約束大眾媒體的社會責任，然而當信息把關人又新聞編輯轉變為演算法工程師，傳統的媒介倫理似乎已經失效。演算法具有商業傾向性，「中立性」是演算法平台用以逃避媒體責任的理由，給大眾媒介造成傳播亂象，如此一來更像是一場演算法平台「肆意妄為又不想負責」的詭辯。

演算法平台的信息源是經過選擇和過濾的，「頭條號」的內容占「今日頭條」整個信息系統的絕大部分，然而在「人人都可以做新聞人」的時代，頭條號平台是一個開放的網路媒介環境，存在大量的偏見和錯誤的認知。無論是「今日頭條」平台設立的演算法規則，還是其他爬蟲的抓取的關鍵詞，演算法系統的信息源很多是具有目的性的、有偏見和非客觀的信息，所以信息源不能直接作用於用戶。因此，篩選演算法系統的信息源與傳統的人工編輯相比較，范圍極廣且很難把關，若演算法被惡意利用，那麼使整個傳播系統將會被輕易控制。

4.1.4演算法推送里的「議程設置」

原議程設置功能揭示的重要內涵是：「受眾對新聞的看法雖然被大眾媒體議程設置功能所主導，但其更深刻的是議程設置給大眾媒體新聞帶來放大與延伸，從而使受眾對新聞選擇做出能動性修正，讓受眾在滿足需求和媒介依賴中逐漸培養出的潛在認同感」。

推送演算法技術在互聯網平台的運用，使原來傳統媒體主導的議程設置過程發生了變化，伴隨著傳播權的轉移、公眾參與度的提高和信息量劇增等原因導致議程設置功逐漸能減弱。過往傳統新聞的內容是由編輯有選擇地進行報道後再呈現在受眾面前的，而個性化新聞推送是用戶自己來選擇看哪一方面的內容，而這一環節中，天然的技術賦權將傳播權從傳統媒體下放至平台的用戶，使得受眾和社會的連接無需依賴傳統媒介，新聞媒體作為把關人的作用和議程設置功能都在減弱。

4.2演算法新聞治理缺陷下的演算法權利異化

演算法作為人工智慧的基石之一，是「一種有限、確定、有效並適合用計算機程序來實現的解決問題的方法,是計算機科學的基礎」。近年來,伴隨人工智慧深度學習演算法取得的重大突破和大數據時代的到來,人工智慧的應用場景不斷拓展，人工智慧時代正逐漸從想像成為現實。藉助於海量的大數據和具備強大計算能力的硬體設備,擁有深度學習演算法的人工智慧機器可以通過自主學習和強化訓練來不斷提升自身的能力,解決很多人類難以有效應對的治理難題。伴隨人工能演算法在國家和社會治理中重要性的日漸凸顯,國家和社會對於演算法的依賴也逐漸加深,一種新型的權力形態——演算法權力也隨之出現。

可以把演算法權利分為四種：數據主權、演算法設計權、研發的資本權和演算法控制權。由於前三種權利都是單向的、演算法開發者賦予演算法的權利，是屬於演算法開發者的，與演算法分發平台呈現的效果沒有直接的影響，所以本文將著重論述演算法控制權。

演算法控制權是雙向的，用戶是演算法技術數據行為的提供者，同時又是被演算法技術控制的受害者。例如我們看到「今日頭條」會通過推送演算法來監管用戶的發布和瀏覽行為，同時平台會通過演算法決策系統來實現內容的發布去引導用戶。演算法控制權當然是一種天然技術賦予的權利，但演算法控制權是在用戶提供數據行為的情況下才得以實現的，因此演算法控制權既存在內容生產權，同時有要尊重和保護演算法相對人的義務。

正因為如此，演算法技術被認為是一種雙刃劍，一方面演算法能夠做出精準的行為預測，可以為管理者提供非常好的循環干預機制；對於公共行為主體來說，可以通過對大數據的應用來解決社會治理問題，對於私人主體來說可以藉助數據來提供個性化和定製化的服務；另一方面，演算法技術存在著諸如利益和風險不對稱等問題，而且由於演算法技術發展的超前性，新科技的創造者具備不對稱的信息和技術優勢，能夠按照自身利益的需求來塑造在平台上的演算法推送邏輯和社會系統，這帶來了監管的不確定性。人們要通過集體行為去承擔社會責任，通過這樣的方式規制演算法權利，可以讓我們能夠對演算法分發系統的意義和價值得到更深刻的思考。

❺ java 如何實現網路爬蟲，爬取新聞評論，新聞內容可以獲取，但是評論無法在網頁源碼顯示。

如果評論是通過AJAX顯示的，那麼抓取有一定難度。
你的爬蟲需要能夠解釋JS，並解惑JS的內容。
但如果你只針對少數的網站進行抓取，則可以針對這些網站開發專用的蜘蛛。人工分析其JS，從中找到其獲取評論的AJAX介面，然後抓之。這樣簡單。
還可以用爬蟲操作一個瀏覽器，通過瀏覽器的介面獲取其運行完成後的顯示的內容

導航:首頁 > 編程語言 > java新聞爬蟲

java新聞爬蟲

與java新聞爬蟲相關的資料