java推薦演算法包_如何系統地自學 Python

㈠關於java新聞網站的演算法

（一）演算法倫理的研究

1.演算法內涵界定。演算法源於數學，但現代演算法又遠遠不止於傳統數學的計算范疇。演算法多被理解為是計算機用於解決問題的程序或步驟，是現代人工智慧系統的運行支柱。《計算主義：一種新的世界觀》(李建會等，2012)中將演算法定義為能行的方法，在外界的常識性理解中所謂演算法就是能感受到的一套運算規則，這個規則的特點在於運算時間的有限性、計算步驟的有窮性、輸入結果的確切性,它是機械步驟或能行可算計程序。該定義點明了演算法應具備的兩個基本屬性—或侍李—有限性與有窮性。《用計算的觀點看世界》(酈全民，2016)則從信息傳播的角度解讀演算法，認為演算法實質上是信息處理方法。

2.演算法倫理研究

倫理關乎道德價值真理及其判斷。存在於自然界、社會中的人，其行為應遵循一定的倫理道德規范。倫理的效應要導向善。倫理道德關注對個體存在的尊重、個體的自由、公平正義以及組織團體的延續與發展等問題。在一定程度上可以說，當今的人類社會已經不能脫離智能演算法系統而運行了。

演算法無時無處不在對世界產生影響，因而演算法也會必然的觸碰到倫理道德。和鴻鵬（2017）已指出，演算法系統在人類社會生活中的廣泛應用，會陷入諸多如人類面臨且無法迴避的倫理兩難選擇困境之中。而當演算法與倫理發生關聯時，學界一般認為會引出職業倫理和技術倫理兩種倫理問題。

職業倫理主要與演算法系統的開發者有關，指開發者是帶有個性價值觀、倫理道德觀去研發演算法系統的行為體，因而演算法系統一開始便會摻雜著設計人主觀性的倫理道德觀。設計者出於何種目的開發某演算法系統、面對不同問題設計者持有的倫理道德態度，這些衫遲都會在演算法系統的運行中得到體現。

技術倫理是演算法系統在一定意義上可稱之為一種科學技術，這種技術自身及其運作結果都會負載著倫理價值。其實在一些情況下，職業倫理與技術倫理之間並沒有很明確的界別，關於這一點，劉則淵跟王國豫已做過論述。

本文將主要從技術倫理的角度對演算法關涉倫理這一問題嘗試做深入研究。

（二）網路新聞傳播的演算法倫理研究

演算法與技術的融合不斷英語於網路新聞傳播領域中，從數據新聞到機器寫作，從演算法推送到輿情到分析，國內新聞傳媒領域的機器新聞和相關研究逐漸發展，金兼斌在《機器新聞寫作:一場正在發生的革命》(2014)，作者較早的將眼光聚焦於基於演算法的新聞內容生產和編輯。認為在自動化新聞生產大發展的前提下，諸如新聞生產或分發中勞動密集型的基礎性工作與環節都將被技術取代。張超、鍾新在《從比特到人工智慧:數字新聞生產的演算法轉向》(2017)認為演算法正在從比特形式走向人工智慧階段，這種轉向使得數字新聞與傳統新聞的邊界進一步明晰，促使數字新聞生產也產生了變革。胡萬鵬在《智能演算法推薦的倫理風險及防範策略》中總結了從演算法推送方面：針對新聞的價值觀所受到的負面影響；以及新聞的公共性、客觀性和真實性受到的削弱進行分析；從受眾方面：將具體對信息繭房現象以及受眾的知情權和被遺忘權展開探討；從社會影響方面,則針對社會群體、社會公共領域和社會文化所受到的消極影響展開論述。

根據以上文獻的梳理可以看出，國內目前對網路新聞傳播的演算法倫理研究主要集中在新聞業態演算法倫理失范的相關問題，因為與其他失范問題相比，這是比較容易發現的。但目前關於網路新聞傳播的演算法倫理的國內研究還存在不足：國內算談棚法倫理和網路新聞傳播演算法倫理的研究還是在起步階段，比較成熟的系統性研究還未出現；關於演算法開發人員和平台的責任機制的研究都比較薄弱，總上所述，演算法推送新聞的倫理問題研究是有必要繼續加強的。

2.新聞推薦演算法的興起、發展與原理

2.1新聞推薦演算法的興起

隨著計算機技術的信息處理的維度越來越高，信息處理的能力不斷提升，演算法技術可以從大數據中篩選出用戶最關心最感興趣的信息，改變了原有的新聞信息傳播方式，重塑了新的媒介生態和傳播格局。

但反過來看，在人人都能生產信息的背景下，信息的生產、傳播和反饋的速度都是呈幾何倍數增長，用戶面對的信息越來越多。由於設備的局限性和信息海量，用戶無法集中注意力看自己感興趣的內容，也無法及時抓取對自己有用的信息，於是出現了「注意力經濟」。美國經濟學家邁克爾·戈德海伯（1997）認為，當今社會是一個信息極大豐富甚至泛濫的社會，而互聯網的出現，加快了這一進程，信息非但不是稀缺資源，相反是過剩的。相對於過剩的信息，只有一種資源是稀缺的，那就是人們的注意力。換句話說，信息不能夠一味追求量，還要有價值，價值就在於用戶對信息的注意力，誰獲得了用戶的注意力就可以有市場的發展空間，通過「販賣」用戶的注意力能夠使新媒體聚合平台獲得利潤，維持發展。再加上現在生活節奏越來越快，人們對信息獲取的量和效率要求提高，不想把時間浪費在自己不感興趣的信息，從而用戶獲取信息的「個性化」特徵變得明顯起來。

基於此背景下，演算法推送新聞的傳播機制應運而生，用戶不需要特意搜索自己需要的信息，而是海量的信息會自行「找到」用戶，為用戶節省搜索時間之餘，又能做到真正為用戶提供有用的信息。

2.2新聞推薦演算法的發展現狀

演算法推薦是依據用戶數據為用戶推薦特定領域的信息，根據受眾使用反饋不斷修正並完善推薦方案。目前主要有兩類新聞機構使用演算法推送，其一是新型的互聯網新聞聚合類平台，國內主要是以今日頭條和一點資訊等演算法類平台為代表，在我國新聞客戶端市場上擁有極高的佔有率。張一鳴創建今日頭條是依靠大數據和演算法為用戶推薦信息，提供連接人與信息的服務，演算法會以關鍵詞等元素判斷用戶的興趣愛好，從全網抓取內容實現個性化推薦。國外則是以Facebook、Instagram等平台為代表，這些APP都是通過演算法挖掘用戶的數據，以用戶個性化需求為導向對用戶進行新聞推送。另一種則是專業新聞生產的傳統媒體，為積極應對新聞市場的競爭和提高技術水平而轉型到新聞全媒體平台，如國內的「人民日報」等，國外利用演算法推送向用戶推送新聞的傳統媒體則有美國的美聯社、華盛頓郵報和英國的BBC等,他們利用演算法監督受眾的數量還有閱讀行為，使他們的新聞報道能夠更加受受眾的喜歡，增加用戶的粘性。

2.2新聞推薦演算法的原理

2.2.1新聞推薦演算法的基本要素

演算法推送有三個基本要素，分別是用戶、內容和演算法。用戶是演算法推送系統的服務對象，對用戶的理解和認知越是透徹，內容分法的准確性和有效性就越准確。內容是演算法推送系統的基本生產資料，對多種形式內通的分析、組織、儲存和分發都需要科學的手段與方法。演算法是演算法推送技術上的支持，也是最核心的。系統中大量用戶與海量的信息是無法自行匹配的，需要推送演算法把用戶和內容連接起來，在用戶和內容之間發揮橋梁作用，高效把合適的內容推薦給合適的用戶。

2.2.2新聞推薦演算法的基本原理

演算法推送的出現需要具備兩個條件：足夠的信息源和精確的演算法框架。其中，演算法的內容生產源與信息分發最終效果密切相關：是否有足夠多的信息可供抓取與信息是否有足夠的品質令用戶滿意都將對信息的傳播效果產生影響。與此同時，分發環節也在向前追溯，改變著整個傳播的生態。目前，國內新聞傳播領域所使用的演算法推送主要有三大類——協同過濾推送、基於內容推送和關聯規則推送。

協同過濾推送分為基於用戶的協同過濾和基於模型的協同過濾。前者主要考慮的是用戶和用戶之間的相似度，只要找出相似用戶喜歡的新聞文章類別，並預測目標用戶對該文章的喜歡程度，就可以將其他文章推薦給用戶；後者和前者是類似的，區別在此時轉向找到文章和文章之間的相似度，只有找到了目標用戶對某類文章的喜愛程度，那麼我們就可以對相似度高的類似文章進行預測，將喜愛程度相當的相似文章推薦給用戶。因此，前者利用用戶歷史數據在整個用戶資料庫中尋找相似的推送文章進行推薦，後者通過用戶歷史數據構造預測模型，再通過模型進行預測並推送。

基於內容的推送即根據用戶歷史進行文本信息特徵抽取、過濾，生成模型，向用戶推薦與歷史項目內容相似的信息。它的優點之一就是解決了協同過濾中數據稀少時無法准確判斷分發的問題。但如果長期只根據用戶歷史數據推薦信息，會造成過度個性化，容易形成「信息繭房」。

關聯規則推送就是基於用戶歷史數據挖掘用戶數據背後的關聯，以分析用戶的潛在需求，向用戶推薦其可能感興趣的信息。基於該演算法的信息推薦流程主要分為兩個步驟，第一步是根據當前用戶閱讀過的感興趣的內容，通過規則推導出用戶還沒有閱讀過的可能感興趣的內容；第二是根據規則的重要程度，對內容排序並展現給用戶。關聯規則推送的效果依賴規則的數量和質量，但隨著規則數量的增多，對系統的要求也會提高。

2.2.3演算法推送的實現流程

在信息過載的時代，同一個新聞選題有很多同質化的報道，因此分發前需要對新聞內容進行消重，消重後的新聞內容便等待推送，此時的推送有三個類別：啟動推送、擴大推送和限制推送。

3.「今日頭條」新聞推薦演算法分析

「今日頭條」是國內一款資訊類的媒體聚合平台，每天有超過1.2億人使用。從「你關心的，才是頭條！」到如今的「信息創造價值！」，產品slogan的變化也意味著今日頭條正逐漸擺脫以往單一、粗暴的流量思維，而開始注重人與信息的連接，在促進信息高效、精準傳播的同時注重正確的價值引導。

在2018年初，「今日頭條」的資深演算法架構師曹歡歡博士在一場分享交流會上公開了其演算法運行原理。在他的敘述中，非常詳細地介紹了「今日頭條」的演算法推薦系統概述以及演算法推薦系統的操作原理。

3.1.1-1曹歡歡博士的今日頭條演算法建模

上圖用數學形式化的方法去描述「今日頭條」的演算法推送，實際上就是一個能夠得出用戶對內容滿意程度的函數：即y為用戶對內容的滿意度，Xi,Xc,Xu分別是今日頭條公開的演算法推送的三個維度：Xi是用戶，包括用戶的性別、年齡、職業和興趣標簽，還有其他演算法模型刻畫的隱形用戶偏好等；Xc是環境，這也是移動互聯網時代新聞推送的特點，由於用戶隨時隨地在不停移動，移動終端也在移動，用戶在不同的工作場合、旅行等場景信息推送偏好也會不同；Xu是內容，今日頭條本身就是信息聚合類平台，平台上涵蓋各種不同形式的內容。本章將以該函數為基礎，逐一分析今日頭條的推薦演算法。

3.1推薦維度之一：內容分析

內容分析原指第二次世界大戰期間，傳播學家拉斯韋爾等研究學家組織了「戰士通訊研究」的工作，以德國公開出版的戰時報紙為分析研究對象，弄清報紙內容本質性的事實和趨勢，揭示隱含的隱性情報內容，獲取了許多軍情機密情報並且對事態發展作出情報預測。在「今日頭條」中，內容分析則是對文章、視頻內容提取關鍵要素，通過對文本、視頻標題關鍵字進行語義識別，給內容進行分類。「今日頭條」的推送系統是典型的層次化文本分類演算法，來幫助每篇新聞找到合適的分類，比如：第一大分類是政治、科技、財經、娛樂、體育等，體育類可以下分籃球、足球、網球等，足球又可以下分中國足球和國際足球，中國足球最後下分為甲、中超、國家隊等。這一步是對文章進行對這個工作主要目的是對文章進行分類，方便以後對客戶推薦。

想要內容分析實現效果，則需要海量的內容信息給演算法系統提供有效的篩選和分類。「今日頭條」既然是依賴於演算法推送新聞，那它背後的資料庫必然是強大的，「網頁蜘蛛」和「頭條號」就是支撐今日頭條平台消息來源的重要渠道，其消息來源極其豐富，何時何地有何新鮮事，都能高效率抓取信息。

第一個消息來源的渠道是「網頁蜘蛛」，「網頁蜘蛛」又叫網頁爬蟲，頭條使用的就是搜索引擎爬蟲叫「Bytespider」。它能按照一定的規則，自動爬行抓取互聯網的信息或腳本，就像蜘蛛通過蛛網進行捕食，當發現新的信息資源，蜘蛛會立刻出動抓取信息內容並將其收入自己的資料庫中。和微信的垂直搜索不同，Bytespider是能夠抓取全網內容的全新搜索引擎，因此「今日頭條」的搜索引擎功能很全面，搜索的資源很廣，資源包容性極高。

Bytespider信息抓取的基本流程如下：首先是網頁抓取。Bytespider順著網頁中的超鏈接，從這個網站爬到另一個網站，通過超鏈接分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於互聯網中超鏈接的應用很普遍，理論上，從一定范圍的網頁出發，就能搜集到絕大多數的網頁。第二步是處理網頁。搜索引擎抓到網頁後，還要做大量的預處理工作，才能提供檢索服務。其中，最重要的就是提取關鍵詞，建立索引庫和索引。其他還包括消除重復網頁、判斷網頁類型、分析超鏈接、計算網頁的重要度、豐富度等。第三步提供檢索服務。用戶輸入關鍵詞進行檢索，搜索引擎從索引資料庫中找到匹配該關鍵詞的網頁，為了用戶便於判斷，除了網頁標題和URL外，還會提供一段來自網頁的摘要以及其他信息。

3.2推薦維度之二：用戶分析

用戶分析通過提取用戶的有效數據，如用戶經常瀏覽的文字類型、經常搜索的關鍵字、注冊時登記信息的內容等，演算法系統可以將每個用戶的瀏覽記錄、瀏覽時間、留言、評論和轉發等行為進行關鍵字提取，最終形成用戶畫像，以便之後對用戶進行文章和視頻的精準推送。舉個例子，給喜歡閱讀「體育」的用戶標上「體育」標簽；給喜歡「娛樂」的用戶標上「娛樂」的標簽，這一步的作用是給用戶的興趣進行建模，包括用戶對文章和視頻的全局熱度、分類熱度，主題熱度，以及關鍵詞熱度等。熱度信息在大的推薦系統能夠解決新聞冷啟動問題，幫助新聞實現推送。

用戶分析還具有協同特徵，它可以在部分程度上幫助解決所謂演算法越推越窄的問題。協同特徵也就是「聯想式」的推送方法，並非只考慮用戶已有歷史，而是通過用戶行為分析不同用戶間相似性，比如點擊相似、興趣分類相似、主題相似、興趣詞相似，甚至向量相似，從而擴展模型的探索能力。根據用戶之間計算數據的相似程度，把用戶細化分類成為不同的目標群體，再向目標群體集中的推送其感興趣的新聞內容

內容分析和用戶分析是相輔相成的，如果沒有分析的文本標簽，無法得到用戶興趣標簽，沒有用戶的興趣標簽就無法給用戶定位實現精準推送。

3.3推薦維度之三：環境分析

環境分析就是根據文章的時效性和接近性推送給相應的用戶，比如獲取用戶當前所在位置是否在旅遊區，這個可以通過獲取用戶的實時位置來實現。還會不斷與用戶之前經常出現的所在地進行對比等方式確認當前狀態，分析出用戶是在常住地區還是在旅行。這時若系統檢測到用戶正在泰山及周邊遊玩，則可能會相應推送泰山的相關文章、周邊的交通新聞和天氣信息等等。

通過上面三個推薦維度可以作為數據基礎，分析當前用戶處於什麼環境，結合用戶畫像以及文章的內容分類來推薦，盡量做到推送的內容都是用戶所感興趣的。演算法系統還會通過內容分類、分析抽取，把文本相似度高的文章，包括新聞主題、內容相似的文章進行消重，解決推送重復的問題，進一步對目標用戶進行精確且不重復的內容推薦。最後過濾質量低俗色情的內容，以免造成平台會有負面傾向。

3.4「今日頭條」新聞推薦演算法的價值取向

3.4.1「用戶為上」

「今日頭條」的演算法推送是站在用戶的立場上的，以滿足用戶個性化和推送的精準性，「今日頭條」也重新衡量了新聞價值標准：以用戶為上，用戶對新聞內容和閱讀方式的滿意度便是平台推送新聞的價值宗旨。傳統媒體時代，只有報紙和電視，有什麼受眾就得看什麼，而如今「今日頭條」根據用戶興趣去進行推送。演算法推送平台用戶范圍廣，很多用戶熱衷關注負面，也有許多用戶都有窺視欲和好奇心，喜歡無聊八卦和無聊新聞，而且在好奇心作用下用戶都有從眾心理。這使得生產者過度去迎合受眾，只要是用戶喜歡看就可以發表在「今日頭條」上。

3.4.2「演算法主導」

「今日頭條」更注重技術分發，生產者是用戶，受眾者也是用戶，這樣一來內容監管和分發就很困難。演算法推送機制根據用戶愛好進行推送，這樣生產的內容快、也無疑會加速內容配送效率。在演算法推送模型中，用戶點擊頻率、閱讀時間、點贊評論以及轉發在演算法時代都是可以進行量化的目標。在這樣情況下生產的內容，想要獲得較大點擊率和推送率，需要標題才能吸引用戶，因為用戶在平台一眼能看到的就是標題和配圖。標題和配圖決定用戶是否會打開你的內容，這導致許多內容生產者在編輯新聞標題時陷入標題黨的怪圈，還有導致低俗內容的呈現，以製造沖突製造懸念貼標簽等方式引用戶點擊，意圖把自己的文章做成爆文。對於海量的信息內容，即使今日頭條數據和智能推薦做的再好，目前來說也難以抵擋海量的垃圾信息。

4.演算法推送新聞引發的倫理問題

在如今網路時代的傳播思維中，「用戶為上」、「演算法主導」的新聞價值取向已經在演算法聚合類平台成為了普遍，演算法推送技術作為吸引用戶的手段，搭建起一個充滿誘導的媒介環境，以此增加用戶對平台的粘性。演算法推送技術在獲取信息、傳播速度等方面與以往相比有著跨時代的進步，但與此同時，由於演算法推送技術的加入，衍生出新的倫理問題，並且日漸復雜化。

4.1演算法推送引發的倫理問題

4.1.1演算法推送過於機械化，沒有思考能力

單向的演算法推薦對用戶來說經常會帶來內容雜亂無章、信息量過大、信息價值低等問題。從邏輯講，演算法只是從關鍵字的檢索匹配來完成統計推薦，但對新聞報道或文學作品具有藝術性、專業性的內容來說，是不能保證推送的質量的。演算法方面，目前主要基於匹配檢索與統計，大部分都是個人關注的信息類型和標簽，難以達到較好的推送效果。一千個人眼裡有一千個哈姆雷特，但是計算機只有隻有一個。演算法技術過於注重機械化的統計，只根據關鍵詞來推薦用戶，對我們中國具有博大精深的中國文字文化底蘊，推薦演算法是遠遠不夠的。整個新聞客戶端顯得像是一個菜市場，沒有態度、沒有風格，閱讀感受單一化，呈現了碎片化的特點。新聞不只是讓用戶能夠了解身邊發生的新鮮事，還有宣傳正面思想和傳播正能量的作用，新聞應該還要給人們帶來新的思考。讓機器做出正確判斷很簡單，但是讓機器綜合心理學、社會學、乃至某細分領域內的規則做出判斷還要正確地引導受眾則很難，正如現在演算法技術還不能完成一篇富有人文性、文學性和批判性的深度報道，它止步在了碎片式的、表層的傳播范疇。

4.1.2容易引起「信息繭房」效應

「信息繭房」這一概念是凱斯.桑斯坦在《信息烏托邦》一書中提出的。意指受眾在過度的信息自我選擇之中，這樣會降低接觸外界其他信息的可能，從而將自己的生活桎梏於蠶繭一般的「蠶房」中的現象。人們的信息領域會習慣性被自己的興趣引導，信息窄化帶來了受眾對信息接收的單一性，這種單一性的可能會使受眾陷入循環，加重受眾信息同質化。

4.1.3演算法推送的「偽中立性」

客觀和全面是新聞倫理的基本要求，新聞從業者必須從可好信息源來獲取真實的信息，以客觀的態度反應現實。我們慣常認為,互聯網技術服務商是技術中立者,不需要承擔約束大眾媒體的社會責任，然而當信息把關人又新聞編輯轉變為演算法工程師，傳統的媒介倫理似乎已經失效。演算法具有商業傾向性，「中立性」是演算法平台用以逃避媒體責任的理由，給大眾媒介造成傳播亂象，如此一來更像是一場演算法平台「肆意妄為又不想負責」的詭辯。

演算法平台的信息源是經過選擇和過濾的，「頭條號」的內容占「今日頭條」整個信息系統的絕大部分，然而在「人人都可以做新聞人」的時代，頭條號平台是一個開放的網路媒介環境，存在大量的偏見和錯誤的認知。無論是「今日頭條」平台設立的演算法規則，還是其他爬蟲的抓取的關鍵詞，演算法系統的信息源很多是具有目的性的、有偏見和非客觀的信息，所以信息源不能直接作用於用戶。因此，篩選演算法系統的信息源與傳統的人工編輯相比較，范圍極廣且很難把關，若演算法被惡意利用，那麼使整個傳播系統將會被輕易控制。

4.1.4演算法推送里的「議程設置」

原議程設置功能揭示的重要內涵是：「受眾對新聞的看法雖然被大眾媒體議程設置功能所主導，但其更深刻的是議程設置給大眾媒體新聞帶來放大與延伸，從而使受眾對新聞選擇做出能動性修正，讓受眾在滿足需求和媒介依賴中逐漸培養出的潛在認同感」。

推送演算法技術在互聯網平台的運用，使原來傳統媒體主導的議程設置過程發生了變化，伴隨著傳播權的轉移、公眾參與度的提高和信息量劇增等原因導致議程設置功逐漸能減弱。過往傳統新聞的內容是由編輯有選擇地進行報道後再呈現在受眾面前的，而個性化新聞推送是用戶自己來選擇看哪一方面的內容，而這一環節中，天然的技術賦權將傳播權從傳統媒體下放至平台的用戶，使得受眾和社會的連接無需依賴傳統媒介，新聞媒體作為把關人的作用和議程設置功能都在減弱。

4.2演算法新聞治理缺陷下的演算法權利異化

演算法作為人工智慧的基石之一，是「一種有限、確定、有效並適合用計算機程序來實現的解決問題的方法,是計算機科學的基礎」。近年來,伴隨人工智慧深度學習演算法取得的重大突破和大數據時代的到來,人工智慧的應用場景不斷拓展，人工智慧時代正逐漸從想像成為現實。藉助於海量的大數據和具備強大計算能力的硬體設備,擁有深度學習演算法的人工智慧機器可以通過自主學習和強化訓練來不斷提升自身的能力,解決很多人類難以有效應對的治理難題。伴隨人工能演算法在國家和社會治理中重要性的日漸凸顯,國家和社會對於演算法的依賴也逐漸加深,一種新型的權力形態——演算法權力也隨之出現。

可以把演算法權利分為四種：數據主權、演算法設計權、研發的資本權和演算法控制權。由於前三種權利都是單向的、演算法開發者賦予演算法的權利，是屬於演算法開發者的，與演算法分發平台呈現的效果沒有直接的影響，所以本文將著重論述演算法控制權。

演算法控制權是雙向的，用戶是演算法技術數據行為的提供者，同時又是被演算法技術控制的受害者。例如我們看到「今日頭條」會通過推送演算法來監管用戶的發布和瀏覽行為，同時平台會通過演算法決策系統來實現內容的發布去引導用戶。演算法控制權當然是一種天然技術賦予的權利，但演算法控制權是在用戶提供數據行為的情況下才得以實現的，因此演算法控制權既存在內容生產權，同時有要尊重和保護演算法相對人的義務。

正因為如此，演算法技術被認為是一種雙刃劍，一方面演算法能夠做出精準的行為預測，可以為管理者提供非常好的循環干預機制；對於公共行為主體來說，可以通過對大數據的應用來解決社會治理問題，對於私人主體來說可以藉助數據來提供個性化和定製化的服務；另一方面，演算法技術存在著諸如利益和風險不對稱等問題，而且由於演算法技術發展的超前性，新科技的創造者具備不對稱的信息和技術優勢，能夠按照自身利益的需求來塑造在平台上的演算法推送邏輯和社會系統，這帶來了監管的不確定性。人們要通過集體行為去承擔社會責任，通過這樣的方式規制演算法權利，可以讓我們能夠對演算法分發系統的意義和價值得到更深刻的思考。

㈡如何系統地自學 python

是否非常想學好 Python，一方面被瑣事糾纏，一直沒能動手，另一方面，擔心學習成本太高，心裡默默敲著退堂鼓？

幸運的是，Python 是一門初學者友好的編程語言，想要完全掌握它，你不必花上太多的時間和精力。

Python 的設計哲學之一就是簡單易學，體現在兩個方面：

語法簡潔明了：相對 Ruby 和 Perl，它的語法特性不多不少，大多數都很簡單直接，不玩兒玄學。
切入點很多：Python 可以讓你可以做很多事情，科學計算和數據分析、爬蟲、Web 網站、游戲、命令行實用工具等等等等，總有一個是你感興趣並且願意投入時間的。

廢話不多說，學會一門語言的捷徑只有一個： Getting Started

¶ 起步階段
任何一種編程語言都包含兩個部分：硬知識和軟知識，起步階段的主要任務是掌握硬知識。

硬知識
「硬知識」指的是編程語言的語法、演算法和數據結構、編程範式等，例如：變數和類型、循環語句、分支、函數、類。這部分知識也是具有普適性的，看上去是掌握了一種語法，實際是建立了一種思維。例如：讓一個 Java 程序員去學習 Python，他可以很快的將 Java 中的學到的面向對象的知識 map 到 Python 中來，因此能夠快速掌握 Python 中面向對象的特性。

如果你是剛開始學習編程的新手，一本可靠的語法書是非常重要的。它看上去可能非常枯燥乏味，但對於建立穩固的編程思維是必不可少。

下面列出了一些適合初學者入門的教學材料：

廖雪峰的 Python 教程 Python 中文教程的翹楚，專為剛剛步入程序世界的小白打造。

笨方法學 Python 這本書在講解 Python 的語法成分時，還附帶大量可實踐的例子，非常適合快速起步。

The Hitchhiker』s Guide to Python! 這本指南著重於 Python 的最佳實踐，不管你是 Python 專家還是新手，都能獲得極大的幫助。

Python 的哲學：

用一種方法，最好是只有一種方法來做一件事。

學習也是一樣，雖然推薦了多種學習資料，但實際學習的時候，最好只選擇其中的一個，堅持看完。

必要的時候，可能需要閱讀講解數據結構和演算法的書，這些知識對於理解和使用 Python 中的對象模型有著很大的幫助。

軟知識
「軟知識」則是特定語言環境下的語法技巧、類庫的使用、IDE的選擇等等。這一部分，即使完全不了解不會使用，也不會妨礙你去編程，只不過寫出的程序，看上去顯得「傻」了些。

對這些知識的學習，取決於你嘗試解決的問題的領域和深度。對初學者而言，起步階段極易走火，或者在選擇 Python 版本時徘徊不決，一會兒看 2.7 一會兒又轉到 3.0，或者徜徉在類庫的大海中無法自拔，Scrapy，Numpy，Django 什麼都要試試，或者參與編輯器聖戰、大括弧縮進探究、操作系統辯論賽等無意義活動，或者整天跪舔語法糖，老想著怎麼一行代碼把所有的事情做完，或者去構想聖潔的性能安全通用性健壯性全部滿分的解決方案。

很多「大牛」都會告誡初學者，用這個用那個，少走彎路，這樣反而把初學者推向了真正的彎路。
還不如告訴初學者，學習本來就是個需要你去走彎路出 Bug，只能腳踏實地，沒有奇跡只有狗屎的過程。

選擇一個方向先走下去，哪怕臟丑差，走不動了再看看有沒有更好的解決途徑。

自己走了彎路，你才知道這么做的好處，才能理解為什麼人們可以手寫狀態機去匹配卻偏要發明正則表達式，為什麼面向過程可以解決卻偏要面向對象，為什麼我可以操縱每一根指針卻偏要自動管理內存，為什麼我可以嵌套回調卻偏要用 Promise...

更重要的是，你會明白，高層次的解決方法都是對低層次的封裝，並不是任何情況下都是最有效最合適的。

技術涌進就像波浪一樣，那些陳舊的封存已久的技術，消退了遲早還會涌回的。就像現在移動端應用、手游和 HTML5 的火熱，某些方面不正在重演過去 PC 的那些歷史么？

因此，不要擔心自己走錯路誤了終身，堅持並保持進步才是正道。

起步階段的核心任務是掌握硬知識，軟知識做適當了解，有了穩固的根，粗壯的枝幹，才能長出濃密的葉子，結出甜美的果實。

¶ 發展階段
完成了基礎知識的學習，必定會感到一陣空虛，懷疑這些語法知識是不是真的有用。

沒錯，你的懷疑是非常正確的。要讓 Python 發揮出它的價值，當然不能停留在語法層面。
發展階段的核心任務，就是「跳出 Python，擁抱世界」。

在你面前會有多個分支：科學計算和數據分析、爬蟲、Web 網站、游戲、命令行實用工具等等等等，這些都不是僅僅知道 Python 語法就能解決的問題。

拿爬蟲舉例，如果你對計算機網路，HTTP 協議，HTML，文本編碼，JSON 一無所知，你能做好這部分的工作么？而你在起步階段的基礎知識也同樣重要，如果你連循環遞歸怎麼寫都還要查文檔，連 BFS 都不知道怎麼實現，這就像工匠做石凳每次起錘都要思考錘子怎麼使用一樣，非常低效。

在這個階段，不可避免要接觸大量類庫，閱讀大量書籍的。

類庫方面
「Awesome Python 項目」：vinta/awesome-python · GitHub
這里列出了你在嘗試解決各種實際問題時，Python 社區已有的工具型類庫，如下圖所示：

vinta/awesome-python

你可以按照實際需求，尋找你需要的類庫。

至於相關類庫如何使用，必須掌握的技能便是閱讀文檔。由於開源社區大多數文檔都是英文寫成的，所以，英語不好的同學，需要惡補下。

書籍方面
這里我只列出一些我覺得比較有一些幫助的書籍，詳細的請看豆瓣的書評：

科學和數據分析：
❖「集體智慧編程」：集體智慧編程 (豆瓣)
❖「數學之美」：數學之美 (豆瓣)
❖「統計學習方法」：統計學習方法 (豆瓣)
❖「Pattern Recognition And Machine Learning」：Pattern Recognition And Machine Learning (豆瓣)
❖「數據科學實戰」：數據科學實戰 (豆瓣)
❖「數據檢索導論」：信息檢索導論 (豆瓣)

爬蟲：
❖「HTTP 權威指南」：HTTP權威指南 (豆瓣)

Web 網站：
❖「HTML & CSS 設計與構建網站」：HTML & CSS設計與構建網站 (豆瓣)

...

列到這里已經不需要繼續了。

聰明的你一定會發現上面的大部分書籍，並不是講 Python 的書，而更多的是專業知識。

事實上，這里所謂「跳出 Python，擁抱世界」，其實是發現 Python 和專業知識相結合，能夠解決很多實際問題。這個階段能走到什麼程度，更多的取決於自己的專業知識。

¶ 深入階段
這個階段的你，對 Python 幾乎了如指掌，那麼你一定知道 Python 是用 C 語言實現的。

可是 Python 對象的「動態特徵」是怎麼用相對底層，連自動內存管理都沒有的C語言實現的呢？這時候就不能停留在表面了，勇敢的拆開 Python 的黑盒子，深入到語言的內部，去看它的歷史，讀它的源碼，才能真正理解它的設計思路。

這里推薦一本書：
「Python 源碼剖析」：Python源碼剖析 (豆瓣)
這本書把 Python 源碼中最核心的部分，給出了詳細的闡釋，不過閱讀此書需要對 C 語言內存模型和指針有著很好的理解。

另外，Python 本身是一門雜糅多種範式的動態語言，也就是說，相對於 C 的過程式、 Haskell 等的函數式、Java 基於類的面向對象而言，它都不夠純粹。換而言之，編程語言的「道學」，在 Python 中只能有限的體悟。學習某種編程範式時，從那些面向這種範式更加純粹的語言出發，才能有更深刻的理解，也能了解到 Python 語言的根源。

這里推薦一門公開課
「編程範式」：斯坦福大學公開課：編程範式
講師高屋建瓴，從各種編程範式的代表語言出發，給出了每種編程範式最核心的思想。

值得一提的是，這門課程對C語言有非常深入的講解，例如C語言的范型和內存管理。這些知識，對閱讀 Python 源碼也有大有幫助。

Python 的許多最佳實踐都隱藏在那些眾所周知的框架和類庫中，例如 Django、Tornado 等等。在它們的源代碼中淘金，也是個不錯的選擇。

¶ 最後的話
每個人學編程的道路都是不一樣的，其實大都殊途同歸，沒有迷路的人只有不能堅持的人！

希望想學 Python 想學編程的同學，不要猶豫了，看完這篇文章，

Just Getting Started ！！！

㈢ java中CRC演算法是個什麼東東

CRC演算法實現有2種方法，一、查表法，二、直接計算，查表法的計算速度相對來說比較快，本人介紹的方法是直接計演算法，用了2種方法實現，都是面向對象進行演算法的封裝。
package com.wms.serial;

/**
* @author lino
* @version 2006/08/25
*/
public class CRC16{
public int value;

public CRC16()
{
value = 0;
}

/** update CRC with byte b */
public void update(byte aByte)
{
int a, b;

a = (int) aByte;
for (int count = 7; count >=0; count--) {
a = a << 1;
b = (a >>>8) & 1;
if ((value & 0x8000) != 0) {
value = ((value << 1) + b) ^ 0x1021;
} else {
value = (value << 1) + b;
}
}
value = value & 0xffff;
return;
}

/** reset CRC value to 0 */
public void reset()
{
value = 0;
}

public int getValue()
{
return value;
}

public static void main(String[] args) {
CRC16 crc16 = new CRC16();
byte[] b = new byte[]{
//(byte) 0xF0,(byte)0xF0,(byte)0xF0,(byte)0x72
(byte) 0x2C,(byte)0x00,(byte)0xFF,(byte)0xFE
,(byte) 0xFE,(byte)0x04,(byte)0x00,(byte)0x00
,(byte) 0x00,(byte)0x00
};
for (int k = 0; k < b.length; k++)
{
crc16.update(b[k]);
}
System.out.println(Integer.toHexString(crc16.getValue()));
System.out.println(Integer.toHexString(b.length));
}
}

package com.wms.serial;

public class CRC162 {
public static final void main(String[] args){
CRC162 crc16 = new CRC162();
byte[] b = new byte[]{
//(byte) 0xF0,(byte)0xF0,(byte)0xF0,(byte)0x72
(byte) 0x2C,(byte)0x00,(byte)0xFF,(byte)0xFE
,(byte) 0xFE,(byte)0x04,(byte)0x00,(byte)0x00
,(byte) 0x00,(byte)0x00
};
System.out.println(Integer.toHexString(crc16.encode(b)));
//再把這個2f49替換成b數組的最後兩個位元組的數組,生成一個新的數組b2
byte[] b2 = new byte[]{
//(byte) 0xF0,(byte)0xF0,(byte)0xF0,(byte)0x72
(byte) 0x2C,(byte)0x00,(byte)0xFF,(byte)0xFE
,(byte) 0xFE,(byte)0x04,(byte)0x00,(byte)0x00
,(byte) 0x2f,(byte)0x49
};
System.out.println(Integer.toHexString(crc16.encode(b2))); //算出來是 0

//你可以自已構造一些byte進行加解密試試
}

public short encode(byte[] b){
short CRC_x = 0;
int pp = 65536; // 1<<16;
int pp2 = 69665; // (1<<16) + (1<<12) + (1<<5) + 1
for(int i=0;i<b.length;i++){
for(int j=0;j<8;j++){
CRC_x = (short)((CRC_x<<1) + (((b[i]<<j)&0x80)>>7));
if((CRC_x/pp) == 1){
CRC_x=(short)(CRC_x^pp2);
}
}
}
return CRC_x;
}
}

㈣ JAVA加密解密要用到的JAR包

一般java加密解密都需要jar包的，不同的加解密方式對應
不同的加解密包，一般加解密方式有這么幾種。
資料鏈接：http://www.doc88.com/p-19252566394.html

㈤ Java代碼優化有哪些常用的方法

1、盡量指定類的final修飾符帶有final修飾符的類是不可派生的。
在Java核心API中，有許多應用final的例子，例如java.lang.String。為String類指定final防止了人們覆蓋length()方法。另外，如果指定一個類為final，則該類所有的方法都是final。Java編譯器會尋找機會內聯（inline）所有的final方法（這和具體的編譯器實現有關）。此舉能夠使性能平均提高50% 。
2、盡量重用對象。
特別是String 對象的使用中，出現字元串連接情況時應用StringBuffer 代替。由於系統不僅要花時間生成對象，以後可能還需花時間對這些對象進行垃圾回收和處理。因此，生成過多的對象將會給程序的性能帶來很大的影響。
3、盡量使用局部變數，調用方法時傳遞的參數以及在調用中創建的臨時變數都保存在棧（Stack）中，速度較快。
其他變數，如靜態變數、實例變數等，都在堆（Heap）中創建，速度較慢。另外，依賴於具體的編譯器/JVM，局部變數還可能得到進一步優化。請參見《盡可能使用堆棧變數》。
4、不要重復初始化變數
默認情況下，調用類的構造函數時， Java會把變數初始化成確定的值：所有的對象被設置成null，整數變數（byte、short、int、long）設置成0，float和double變數設置成0.0，邏輯值設置成false。當一個類從另一個類派生時，這一點尤其應該注意，因為用new關鍵詞創建一個對象時，構造函數鏈中的所有構造函數都會被自動調用。
5、在JAVA + ORACLE 的應用系統開發中，java中內嵌的SQL語句盡量使用大寫的形式，以減輕ORACLE解析器的解析負擔。
6、 Java 編程過程中，進行資料庫連接、I/O流操作時務必小心，在使用完畢後，即使關閉以釋放資源。
因為對這些大對象的操作會造成系統大的開銷，稍有不慎，會導致嚴重的後果。
7、由於JVM的有其自身的GC機制，不需要程序開發者的過多考慮，從一定程度上減輕了開發者負擔，但同時也遺漏了隱患，過分的創建對象會消耗系統的大量內存，嚴重時會導致內存泄露，因此，保證過期對象的及時回收具有重要意義。
JVM回收垃圾的條件是：對象不在被引用；然而，JVM的GC並非十分的機智，即使對象滿足了垃圾回收的條件也不一定會被立即回收。所以，建議我們在對象使用完畢，應手動置成null。
8、在使用同步機制時，應盡量使用方法同步代替代碼塊同步。
9、盡量減少對變數的重復計算
例如：for(int i = 0;i < list.size; i ++) {
…
}
應替換為：
for(int i = 0,int len = list.size();i < len; i ++){
…
}
10、盡量採用lazy loading 的策略，即在需要的時候才開始創建。

例如： String str = 「aaa」;
if(i == 1) {
list.add(str);
}
應替換為：
if(i == 1) {
String str = 「aaa」;
list.add(str);
}

11、慎用異常

異常對性能不利。拋出異常首先要創建一個新的對象。Throwable介面的構造函數調用名為fillInStackTrace()的本地（Native）方法，fillInStackTrace()方法檢查堆棧，收集調用跟蹤信息。只要有異常被拋出，VM就必須調整調用堆棧，因為在處理過程中創建了一個新的對象。異常只能用於錯誤處理，不應該用來控製程序流程。
12、不要在循環中使用：

Try {
} catch() {
}
應把其放置在最外層。
13、StringBuffer 的使用：

StringBuffer表示了可變的、可寫的字元串。
有三個構造方法 :
StringBuffer (); //默認分配16個字元的空間
StringBuffer (int size); //分配size個字元的空間
StringBuffer (String str); //分配16個字元+str.length()個字元空間
你可以通過StringBuffer的構造函數來設定它的初始化容量，這樣可以明顯地提升性能。
這里提到的構造函數是StringBuffer(int length)，length參數表示當前的StringBuffer能保持的字元數量。你也可以使用ensureCapacity(int minimumcapacity)方法在StringBuffer對象創建之後設置它的容量。首先我們看看StringBuffer的預設行為，然後再找出一條更好的提升性能的途徑。
StringBuffer在內部維護一個字元數組，當你使用預設的構造函數來創建StringBuffer對象的時候，因為沒有設置初始化字元長度，StringBuffer的容量被初始化為16個字元，也就是說預設容量就是16個字元。當StringBuffer達到最大容量的時候，它會將自身容量增加到當前的2倍再加2，也就是（2*舊值+2）。如果你使用預設值，初始化之後接著往裡面追加字元，在你追加到第16個字元的時候它會將容量增加到34（2*16+2），當追加到34個字元的時候就會將容量增加到70（2*34+2）。無論何事只要StringBuffer到達它的最大容量它就不得不創建一個新的字元數組然後重新將舊字元和新字元都拷貝一遍――這也太昂貴了點。所以總是給StringBuffer設置一個合理的初始化容量值是錯不了的，這樣會帶來立竿見影的性能增益。StringBuffer初始化過程的調整的作用由此可見一斑。所以，使用一個合適的容量值來初始化StringBuffer永遠都是一個最佳的建議。
14、合理的使用Java類 java.util.Vector。

簡單地說，一個Vector就是一個java.lang.Object實例的數組。Vector與數組相似，它的元素可以通過整數形式的索引訪問。但是，Vector類型的對象在創建之後，對象的大小能夠根據元素的增加或者刪除而擴展、縮小。請考慮下面這個向Vector加入元素的例子：
Object bj = new Object();
Vector v = new Vector(100000);
for(int I=0;
I<100000; I++) { v.add(0,obj); }
除非有絕對充足的理由要求每次都把新元素插入到Vector的前面，否則上面的代碼對性能不利。在默認構造函數中，Vector的初始存儲能力是10個元素，如果新元素加入時存儲能力不足，則以後存儲能力每次加倍。Vector類就對象StringBuffer類一樣，每次擴展存儲能力時，所有現有的元素都要復制到新的存儲空間之中。下面的代碼片段要比前面的例子快幾個數量級：
Object bj = new Object();
Vector v = new Vector(100000);
for(int I=0; I<100000; I++) { v.add(obj); }
同樣的規則也適用於Vector類的remove()方法。由於Vector中各個元素之間不能含有「空隙」，刪除除最後一個元素之外的任意其他元素都導致被刪除元素之後的元素向前移動。也就是說，從Vector刪除最後一個元素要比刪除第一個元素「開銷」低好幾倍。
假設要從前面的Vector刪除所有元素，我們可以使用這種代碼：
for(int I=0; I<100000; I++)
{
v.remove(0);
}
但是，與下面的代碼相比，前面的代碼要慢幾個數量級：
for(int I=0; I<100000; I++)
{
v.remove(v.size()-1);
}
從Vector類型的對象v刪除所有元素的最好方法是：
v.removeAllElements();
假設Vector類型的對象v包含字元串「Hello」。考慮下面的代碼，它要從這個Vector中刪除「Hello」字元串：
String s = "Hello";
int i = v.indexOf(s);
if(I != -1) v.remove(s);
這些代碼看起來沒什麼錯誤，但它同樣對性能不利。在這段代碼中，indexOf()方法對v進行順序搜索尋找字元串「Hello」，remove(s)方法也要進行同樣的順序搜索。改進之後的版本是：
String s = "Hello";
int i = v.indexOf(s);
if(I != -1) v.remove(i);
這個版本中我們直接在remove()方法中給出待刪除元素的精確索引位置，從而避免了第二次搜索。一個更好的版本是：
String s = "Hello"; v.remove(s);
最後，我們再來看一個有關Vector類的代碼片段：
for(int I=0; I++;I < v.length)
如果v包含100,000個元素，這個代碼片段將調用v.size()方法100,000次。雖然size方法是一個簡單的方法，但它仍舊需要一次方法調用的開銷，至少JVM需要為它配置以及清除堆棧環境。在這里，for循環內部的代碼不會以任何方式修改Vector類型對象v的大小，因此上面的代碼最好改寫成下面這種形式：
int size = v.size(); for(int I=0; I++;I<size)
雖然這是一個簡單的改動，但它仍舊贏得了性能。畢竟，每一個CPU周期都是寶貴的。
15、當復制大量數據時，使用System.array()命令。
int[] src={1,3,5,6,7,8};
int[] dest = new int[6];
System.array(src, 0, dest, 0, 6);
src:源數組; srcPos:源數組要復制的起始位置;
dest:目的數組; destPos:目的數組放置的起始位置;
length:復制的長度.
注意：src and dest都必須是同類型或者可以進行轉換類型的數組．
16、代碼重構：增強代碼的可讀性。
public class ShopCart {
private List carts ;
…
public void add (Object item) {
if(carts == null) {
carts = new ArrayList();
}
crts.add(item);
}
public void remove(Object item) {
if(carts. contains(item)) {
carts.remove(item);
}
}
public List getCarts() {
//返回只讀列表
return Collections.unmodifiableList(carts);
}

//不推薦這種方式
//this.getCarts().add(item);
}
17、不用new關鍵詞創建類的實例

用new關鍵詞創建類的實例時，構造函數鏈中的所有構造函數都會被自動調用。但如果一個對象實現了Cloneable介面，我們可以調用它的clone()方法。clone()方法不會調用任何類構造函數。
在使用設計模式（Design Pattern）的場合，如果用Factory模式創建對象，則改用clone()方法創建新的對象實例非常簡單。例如，下面是Factory模式的一個典型實現：
public static Credit getNewCredit() {
return new Credit();
}
改進後的代碼使用clone()方法，如下所示：
private static Credit BaseCredit = new Credit();
public static Credit getNewCredit() {
return (Credit) BaseCredit.clone();
}
上面的思路對於數組處理同樣很有用。
18、乘法和除法

考慮下面的代碼：
for (val = 0; val < 100000; val +=5) {
alterX = val * 8; myResult = val * 2;
}
用移位操作替代乘法操作可以極大地提高性能。下面是修改後的代碼：
for (val = 0; val < 100000; val += 5) {
alterX = val << 3; myResult = val << 1;
}
修改後的代碼不再做乘以8的操作，而是改用等價的左移3位操作，每左移1位相當於乘以2。相應地，右移1位操作相當於除以2。值得一提的是，雖然移位操作速度快，但可能使代碼比較難於理解，所以最好加上一些注釋。
19、在JSP頁面中關閉無用的會話。

一個常見的誤解是以為session在有客戶端訪問時就被創建，然而事實是直到某server端程序調用HttpServletRequest.getSession(true)這樣的語句時才被創建，注意如果JSP沒有顯示的使用 <> 關閉session，則JSP文件在編譯成Servlet時將會自動加上這樣一條語句HttpSession session = HttpServletRequest.getSession(true);這也是JSP中隱含的session對象的來歷。由於session會消耗內存資源，因此，如果不打算使用session，應該在所有的JSP中關閉它。
對於那些無需跟蹤會話狀態的頁面，關閉自動創建的會話可以節省一些資源。使用如下page指令：<%@ page session="false"%>
20、JDBC與I/O

如果應用程序需要訪問一個規模很大的數據集，則應當考慮使用塊提取方式。默認情況下，JDBC每次提取32行數據。舉例來說，假設我們要遍歷一個5000行的記錄集，JDBC必須調用資料庫157次才能提取到全部數據。如果把塊大小改成512，則調用資料庫的次數將減少到10次。
21、Servlet與內存使用
許多開發者隨意地把大量信息保存到用戶會話之中。一些時候，保存在會話中的對象沒有及時地被垃圾回收機制回收。從性能上看，典型的症狀是用戶感到系統周期性地變慢，卻又不能把原因歸於任何一個具體的組件。如果監視JVM的堆空間，它的表現是內存佔用不正常地大起大落。
解決這類內存問題主要有二種辦法。第一種辦法是，在所有作用范圍為會話的Bean中實現HttpSessionBindingListener介面。這樣，只要實現valueUnbound()方法，就可以顯式地釋放Bean使用的資源。
另外一種辦法就是盡快地把會話作廢。大多數應用伺服器都有設置會話作廢間隔時間的選項。另外，也可以用編程的方式調用會話的setMaxInactiveInterval()方法，該方法用來設定在作廢會話之前，Servlet容器允許的客戶請求的最大間隔時間，以秒計。
22、使用緩沖標記

一些應用伺服器加入了面向JSP的緩沖標記功能。例如，BEA的WebLogic Server從6.0版本開始支持這個功能，Open Symphony工程也同樣支持這個功能。JSP緩沖標記既能夠緩沖頁面片斷，也能夠緩沖整個頁面。當JSP頁面執行時，如果目標片斷已經在緩沖之中，則生成該片斷的代碼就不用再執行。頁面級緩沖捕獲對指定URL的請求，並緩沖整個結果頁面。對於購物籃、目錄以及門戶網站的主頁來說，這個功能極其有用。對於這類應用，頁面級緩沖能夠保存頁面執行的結果，供後繼請求使用。
23、選擇合適的引用機制

在典型的JSP應用系統中，頁頭、頁腳部分往往被抽取出來，然後根據需要引入頁頭、頁腳。當前，在JSP頁面中引入外部資源的方法主要有兩種：include指令，以及include動作。
include指令：例如<%@ include file="right.html" %>。該指令在編譯時引入指定的資源。在編譯之前，帶有include指令的頁面和指定的資源被合並成一個文件。被引用的外部資源在編譯時就確定，比運行時才確定資源更高效。
include動作：例如<jsp:include page="right.jsp" />。該動作引入指定頁面執行後生成的結果。由於它在運行時完成，因此對輸出結果的控制更加靈活。但時，只有當被引用的內容頻繁地改變時，或者在對主頁面的請求沒有出現之前，被引用的頁面無法確定時，使用include動作才合算。
24、及時清除不再需要的會話

為了清除不再活動的會話，許多應用伺服器都有默認的會話超時時間，一般為30分鍾。當應用伺服器需要保存更多會話時，如果內存容量不足，操作系統會把部分內存數據轉移到磁碟，應用伺服器也可能根據「最近最頻繁使用」（Most Recently Used）演算法把部分不活躍的會話轉儲到磁碟，甚至可能拋出「內存不足」異常。在大規模系統中，串列化會話的代價是很昂貴的。當會話不再需要時，應當及時調用HttpSession.invalidate()方法清除會話。HttpSession.invalidate()方法通常可以在應用的退出頁面調用。
25、不要將數組聲明為：public static final 。
26、HashMap的遍歷效率討論

經常遇到對HashMap中的key和value值對的遍歷操作，有如下兩種方法：
Map<String, String[]> paraMap = new HashMap<String, String[]>();
//第一個循環
Set<String> appFieldDefIds = paraMap.keySet();
for (String appFieldDefId : appFieldDefIds) {
String[] values = paraMap.get(appFieldDefId);
......
}

//第二個循環
for(Entry<String, String[]> entry : paraMap.entrySet()){
String appFieldDefId = entry.getKey();
String[] values = entry.getValue();
.......
}
第一種實現明顯的效率不如第二種實現。
分析如下 Set<String> appFieldDefIds = paraMap.keySet(); 是先從HashMap中取得keySet
代碼如下：
public Set<K> keySet() {
Set<K> ks = keySet;
return (ks != null ? ks : (keySet = new KeySet()));
}

private class KeySet extends AbstractSet<K> {
public Iterator<K> iterator() {
return newKeyIterator();
}
public int size() {
return size;
}
public boolean contains(Object o) {
return containsKey(o);
}
public boolean remove(Object o) {
return HashMap.this.removeEntryForKey(o) != null;
}
public void clear() {
HashMap.this.clear();
}
}
其實就是返回一個私有類KeySet, 它是從AbstractSet繼承而來，實現了Set介面。
再來看看for/in循環的語法
for(declaration : expression)
statement
在執行階段被翻譯成如下各式
for(Iterator<E> #i = (expression).iterator(); #i.hashNext();){
declaration = #i.next();
statement
}
因此在第一個for語句for (String appFieldDefId : appFieldDefIds) 中調用了HashMap.keySet().iterator()
而這個方法調用了newKeyIterator()
Iterator<K> newKeyIterator() {
return new KeyIterator();
}
private class KeyIterator extends HashIterator<K> {
public K next() {
return nextEntry().getKey();
}
}
所以在for中還是調用了
在第二個循環for(Entry<String, String[]> entry : paraMap.entrySet())中使用的Iterator是如下的一個內部
類
private class EntryIterator extends HashIterator<Map.Entry<K,V>> {
public Map.Entry<K,V> next() {
return nextEntry();
}
}
此時第一個循環得到key，第二個循環得到HashMap的Entry效率就是從循環裡面體現出來的第二個循環此致可以直接取key和value值而第一個循環還是得再利用HashMap的get(Object key)來取value值現在看看HashMap的get(Object key)方法
public V get(Object key) {
Object k = maskNull(key);
int hash = hash(k);
int i = indexFor(hash, table.length); //Entry[] table
Entry<K,V> e = table;
while (true) {
if (e == null)
return null;
if (e.hash == hash && eq(k, e.key))
return e.value;
e = e.next;
}
}
其實就是再次利用Hash值取出相應的Entry做比較得到結果，所以使用第一中循環相當於兩次進入HashMap的Entry
中而第二個循環取得Entry的值之後直接取key和value，效率比第一個循環高。其實按照Map的概念來看也應該是用第二個循環好一點，它本來就是key和value的值對，將key和value分開操作在這里不是個好選擇。
27、array(數組) 和 ArryList的使用

array（[]）：最高效；但是其容量固定且無法動態改變；
ArrayList：容量可動態增長；但犧牲效率；
基於效率和類型檢驗，應盡可能使用array，無法確定數組大小時才使用ArrayList！
ArrayList是Array的復雜版本
ArrayList內部封裝了一個Object類型的數組，從一般的意義來說，它和數組沒有本質的差別，甚至於ArrayList的許多方法，如Index、IndexOf、Contains、Sort等都是在內部數組的基礎上直接調用Array的對應方法。
ArrayList存入對象時，拋棄類型信息，所有對象屏蔽為Object，編譯時不檢查類型，但是運行時會報錯。
註：jdk5中加入了對泛型的支持，已經可以在使用ArrayList時進行類型檢查。
從這一點上看來，ArrayList與數組的區別主要就是由於動態增容的效率問題了
28、盡量使用HashMap 和ArrayList ,除非必要，否則不推薦使用HashTable和Vector ，後者由於使用同步機制，而導致了性能的開銷。
29、StringBuffer 和StringBuilder的區別：

java.lang.StringBuffer線程安全的可變字元序列。一個類似於 String 的字元串緩沖區，但不能修改。
StringBuilder。與該類相比，通常應該優先使用 java.lang.StringBuilder類，因為它支持所有相同的操作，但由於它不執行同步，所以速度更快。為了獲得更好的性能，在構造 StirngBuffer 或 StirngBuilder 時應盡可能指定它的容量。當然，如果你操作的字元串長度不超過 16 個字元就不用了。相同情況下使用 StirngBuilder 相比使用 StringBuffer 僅能獲得 10%-15% 左右的性能提升，但卻要冒多線程不安全的風險。而在現實的模塊化編程中，負責某一模塊的程序員不一定能清晰地判斷該模塊是否會放入多線程的環境中運行，因此：除非你能確定你的系統的瓶頸是在 StringBuffer 上，並且確定你的模塊不會運行在多線程模式下，否則還是用 StringBuffer 吧。
30、盡量避免使用split
除非是必須的，否則應該避免使用split，split由於支持正則表達式，所以效率比較低，如果是頻繁的幾十，幾百萬的調用將會耗費大量資源，如果確實需要頻繁的調用split，可以考慮使用apache的 StringUtils.split(string,char)，頻繁split的可以緩存結果。
其他補充:
1、及時清除不再使用的對象，設為null
2、盡可能使用final,static等關鍵字
3、盡可能使用buffered對象
如何優化代碼使JAVA源文件及編譯後CLASS文件更小
1 盡量使用繼承，繼承的方法越多，你要寫的代碼量也就越少
2 打開JAVA編譯器的優化選項： javac -O 這個選項將刪除掉CLASS文件中的行號，並能把
一些private, static,final的小段方法申明為inline方法調用
3 把公用的代碼提取出來
4 不要初始化很大的數組，盡管初始化一個數組在JAVA代碼中只是一行的代碼量，但
編譯後的代碼是一行代碼插入一個數組的元素，所以如果你有大量的數據需要存在數組
中的話，可以先把這些數據放在String中，然後在運行期把字元串解析到數組中
5 日期類型的對象會佔用很大的空間，如果你要存儲大量的日期對象，可以考慮把它存儲為
long型，然後在使用的時候轉換為Date類型
6 類名，方法名和變數名盡量使用簡短的名字，可以考慮使用Hashjava, Jobe, Obfuscate and Jshrink等工具自動完成這個工作
7 將static final類型的變數定義到Interface中去
8 算術運算能用左移/右移的運算就不要用*和/運算，相同的運算不要運算多次
2. 不要兩次初始化變數
Java通過調用獨特的類構造器默認地初始化變數為一個已知的值。所有的對象被設置成null，integers (byte, short, int, long)被設置成0，float和double設置成0.0，Boolean變數設置成false。這對那些擴展自其它類的類尤其重要，這跟使用一個新的關鍵詞創建一個對象時所有一連串的構造器被自動調用一樣。
3. 在任何可能的地方讓類為Final
標記為final的類不能被擴展。在《核心Java API》中有大量這個技術的例子，諸如java.lang.String。將String類標記為final阻止了開發者創建他們自己實現的長度方法。
更深入點說，如果類是final的，所有類的方法也是final的。Java編譯器可能會內聯所有的方法（這依賴於編譯器的實現）。在我的測試里，我已經看到性能平均增加了50%。
9. 異常在需要拋出的地方拋出，try catch能整合就整合
try {
some.method1(); // Difficult for javac
} catch( method1Exception e ) { // and the JVM runtime
// Handle exception 1 // to optimize this
} // code
try {
some.method2();
} catch( method2Exception e ) {
// Handle exception 2
}

try {
some.method3();
} catch( method3Exception e ) {
// Handle exception 3
}
已下代碼更容易被編譯器優化
try {
some.method1(); // Easier to optimize
some.method2();
some.method3();
} catch( method1Exception e ) {
// Handle exception 1
} catch( method2Exception e ) {
// Handle exception 2
} catch( method3Exception e ) {
// Handle exception 3
}
10. For循環的優化
Replace…
for( int i = 0; i < collection.size(); i++ ) {
...
}
with…
for( int i = 0, n = collection.size(); i < n; i++ ) {
...
}

5、在JAVA + ORACLE 的應用系統開發中，java中內嵌的SQL語句盡量使用大寫的形式，以減輕ORACLE解析器的解析負擔。
10、盡量採用lazy loading 的策略，即在需要的時候才開始創建。
例如： String str = 「aaa」;
if(i == 1) {
list.add(str);
}
應替換為：
if(i == 1) {
String str = 「aaa」;
list.add(str);
}
12、不要在循環中使用：
Try {
} catch() {
}
應把其放置在最外層

導航:首頁 > 源碼編譯 > java推薦演算法包

java推薦演算法包

與java推薦演算法包相關的資料