⑴ 網路信息檢索的圖書1
ISBN: 978-7-5606-2378-8
開本: 16開
定價: 32.00元 《網路信息檢索》詳細介紹了網路信息檢索的原理和技術,內容包括信息檢索模型、網路信息的自動獲取、網路信息預處理和索引、查詢語言和查詢優化等。針對網路信息檢索的廣泛應用,書中對搜索引擎、中文和跨語言信息檢索、多媒體檢索、並行和分布式信息檢索、信息分類和聚類、信息提取與自動問答等重要應用的關鍵技術也進行了深入的探討。
《網路信息檢索》層次分明,深入淺出;既有原理闡述和理論推導,也有大量的實例分析,闡述力求系統性和科學性。《網路信息檢索》可作為高等院校計算機科學與技術、信息管理與信息系統、電子商務等專業的高年級本科生或研究生的教科書和參考書,對廣大從事網路信息檢索、數字圖書館、信息管理、人工智慧、Web數據挖掘等研究和應用開發的科技人員也有較大的參考價值。 第1章 緒論
1.1 網路信息檢索概述
1.1.1 網路信息
1.1.2 信息檢索
1.1.3 網路信息檢索
1.2 信息檢索的發展
1.2.1 手工檢索
1.2.2 離線批處理檢索
1.2.3 聯機檢索
1.2.4 網路信息檢索
1.3 網路信息檢索的應用
1.3.1 搜索引擎
1.3.2 多媒體信息檢索
1.3.3 話題識別與跟蹤
1.3.4 信息過濾
1.3.5 問題回答
思考題
參考文獻
第2章 信息檢索模型
2.1 檢索模型定義
2.2布爾模型
2.3 向量模型
2.3.1 索引項權重
2.3.2 相似度量
2.3.3 計算方法
2,4 概率模型
2.5 擴展的布爾模型
2.5.1 模糊集合模型
2.5.2 擴展布爾模型
2.6 擴展的向量模型
2.6.1 廣義向量空間模型
2.6.2 潛語義標引模型
2.6.3神經網路模型
2.7 擴展的概率模型
2.7.1 推理網路模型
2.7.2 信任度網路模型
2.7.3 語言模型
2.8 小結
思考題
習題
參考文獻
第3章 網路信息的自動搜集
3.1 網路信息的特點
3.1.1 Web的組成
3.1.2 Web的特點
3.2 網路信息搜集的原理
3.2.1 信息搜集的基本流程
3.2.2 遍歷策略
3.2.3 頁面解析
3.3 網路信息搜集的禮貌原則
3.3.1 機器人排斥協議
3.3.2 機器人元標簽
3.4 高性能信息搜集
3.4.1 並行搜集
3.4.2 DNS優化
3.4.3 優先搜集策略
3.4.4 網頁更新
3.4.5 網頁消重
3.4.6 避免蜘蛛陷阱
3.5 專題信息搜集
3.5.1 網頁的主題特性
3.5.2 專題信息搜集演算法
3.6 小結
思考題
習題
參考文獻
第4章 網頁文本處理和索引
4.1 文本的特性
4.1.1 信息熵
4.1.2 統計定律
4.2 網頁信息的特徵
4.2.1 網頁結構
4.2.2 網頁類型
4.3 網頁去噪
4.3.1 基於網頁結構的方法
4.3.2 基於模板的方法
4.4 文本處理
4.4.1 詞彙分析
4.4.2 排除停用詞
4.4.3 詞干提取
4.4.4 索引詞選擇
4.5 索引
4.5.1 Trie樹
4.5.2 後綴樹
4.5.3 簽名檔
4.5.4 倒排文件
4.6 小結
思考題
習題
參考文獻
第5章 查詢語言與查詢處理
5.1 Web查詢語言
5.1.1 WebSQL查詢語言
5.1.2 W3QL查詢語言
5.1.3 WebOQL查詢語言
5.2 查詢方式
5.2.1 基於關鍵字的查詢
5.2.2 模式匹配
5.3 相關反饋
5.3.1 向量空間模型中的相關反饋
5.3.2 概率模型中的相關反饋
5.4 查詢擴展
5.4.1 基於字典的簡單查詢擴展
5.4.2 自動局部分析
5,4.3 自動全局分析
5.5 小結
思考題
習題
參考文獻
第6章 信息檢索性能評價
6.1 信息檢索評價指標
6.1.1 查全率和查准率
6.1.2 其他評價指標
6.2 信息檢索評價基準
6.2.1 基準測試
6.2.2 TREC評測
6.2.3 Web檢索評價
6.2.4 CWIRF評測
6.3 小結
思考題
習題
參考文獻
第7章 搜索引擎
7.1 概述
7.1.1 發展概況
7.1,2 術語與定義
7.1.3 工作原理
7.2 鏈接分析
7.2.1 PageRank
7.2.2 HITS
7.2.3 演算法比較
7.3 相關排序
7.3.1 Lucene檢索模型
7.3.2 Nutch排序演算法
7.4 大規模搜索引擎
7.4.1 體系架構
7.4.2數據結構
7.4.3 檢索演算法
7.4.4 相關排序
7.5 小結
思考題
習題
參考文獻
第8章 並行和分布式信息檢索
8.1 並行信息檢索
8.1.1 並行計算的概念
8.1.2 並行信息檢索體系架構
8.1.3 並行編程
8.1.4 數據並行
8.2 分布式信息檢索
8.3元搜索引擎
8.3.1 系統架構
8.3.2 資源選擇
8.3.3 文檔選擇
8.3.4 信息融合
8.4 P2P網路信息檢索
8.4.1 P2P網路信息檢索的原理
8.4.2 非結構化P2P網路信息檢索
8.4.3 結構化P2P網路信息檢索
8.5 小結
思考題
習題
參考文獻
第9章 中文和跨語言信息檢索
9.1 中文預處理
9.1.1 中文編碼及轉換
9.1.2 中文分詞
9.2中文信息檢索
9.2.1 中文檢索模型
9.2.2 中文索引
9.3 跨語言信息檢索
9.3.1 基本原理
9.3.2 基於GVSM的跨語言檢索
9.3.3 基於LSI的跨語言檢索
9,4 小結
思考題
習題
參考文獻
第10章 多媒體信息檢索
10.1 基於內容的圖像信息檢索
10.2 圖像特徵提取
10.2.1 顏色特徵
10.2.2 形狀特徵提取
10.2.3 紋理特徵提取
10.3 圖像相似量度
10.4 基於內容的視頻信息檢索
10.4.1 鏡頭分割
10.4.2 關鍵幀提取
10.5 基於內容的音頻信息檢索
10.6 小結
思考題
習題
參考文獻
第11章 信息分類與聚類
11.1 基本知識
11.1.1 類的概念
11.1.2 對象特徵描述
11.1.3 文檔相似性
11.1.4 類間距離
11.2 特徵描述及提取
11.2.1 特徵提取
11.2.2 特徵選擇
11.3 聚類方法
11.3.1 劃分聚類法
11.3.2 層次聚類法
11.3.3 其他聚類方法
11.4 分類方法
11.4.1 NaiveBayes演算法
11.4.2 kNN演算法
11.4.3 Rocchio演算法
11.4.4 SVM演算法
11.5 方法評測
11.5.1 聚類方法評測
11.5.2 分類方法評測
11.5.3 顯著性檢驗
11.6 小結
思考題
習題
參考文獻
第12章 Web信息抽取與問答系統
12.1 信息抽取概述
12.1.1 信息抽取的發展
12.1.2 信息抽取的評價指標
12.2 Web信息抽取
12.2.1 基於關鍵字的Web信息抽取
12.2.2 基於模式的Web信息抽取
12.2.3 基於樣本的Web信息抽取
12.3 問答系統
12.3.1 問題分析
12.3.2 信息檢索
12.3.3 答案抽取
12.6 小結
思考題
參考文獻
⑵ 基於大數據的圖書館個性化服務讀者行為分析方法和策略
1. 基於大數據的圖書館個性化服務讀者行為分析方法與步驟
基於大數據的圖書館個性化服務讀者行為分析,是指圖書館基於事件存儲大資料庫數據的支持,通過對用戶海量數據進行採集、過濾、分析和定義,從中發現讀者行為數據中蘊含的行為關系、用戶需求和知識,是對讀者的行為進行分析、判定、定義和匹配的過程,也是圖書館掌握讀者閱讀習慣和發現服務需求,提高個性化服務精確性和用戶滿意度的關鍵,讀者行為分析與判定流程見圖2-2。
讀者行為分析過程可分為用戶行為事件採集、用戶行為事件的存儲、用戶行為事件初步過濾、用戶行為定義、用戶行為分析與判定、用戶行為匹配、用戶行為存儲大資料庫的更新、行為分析與判定過程的完善8部分內容。在用戶行為事件分析、判定前,圖書館應全面、規范地採集讀者行為數據,並對數據進行科學分類、綜合分析、行為定義和人工匹配,構建具備海量存儲、高效管理和查詢功能的用戶行為事件存儲大資料庫。
當圖書館完成對用戶行為數據的採集後,首先,應依據對用戶行為的分類和管理員經驗,對用戶行為數據進行價值過濾和人工篩選,以提高行為數據的價值密度和可用性。其次,對用戶行為發生的時間、地點、方式、作用對象和結果進行定義,採用高效演算法對存儲於用戶行為事件大資料庫中的資源進行分析、判定,並對用戶行為的類型進行詳細定義。再次,應將已定義的用戶行為和用戶行為存儲大資料庫中的數據進行比對,進一步完善、規范用戶行為存儲大資料庫的資源。同時,利用用戶行為存儲大資料庫資源,對用戶行為分析與判定的規則實施反饋,完成對用戶行為分析、判定規則的動態修改與完善。最後,圖書館可依據讀者行為分析與判定的結果,明確讀者閱讀需求及其變化趨勢,為讀者提供個性化的閱讀推送式服務。
圖2-2 圖書館讀者行為分析與判定流程圖
個性化服務是一個不斷完善的過程,多次經過行為模擬和分析反復校準才能讓個性化服務盡可能貼近每一個用戶。如通過記錄用戶訪問某些專業內容來判斷為用戶推薦的相關內容或深度內容是否精準,就需要不斷地積累用戶在某專業內容上的行為記錄,記錄次數越多,記錄越精細,在下一次為用戶做個性化推薦時的精準度就越高。所以個性化服務所需的數據分析系統包括採集與感知都是循環起效的,這是一個閉環上升的垂直優化體系。
2.基於大數據的圖書館個性化服務讀者行為分析策略
(1)發現讀者需求及變化趨勢。大數據背景下,圖書館可通過監控設備、感測器網路和其他讀者行為採集設備,獲取讀者閱讀活動的服務內容與方式、閱讀終端與服務模式、閱讀社會關系組成、成員信息交流、論壇、博客、微博、微信朋友圈等社交網路上的思想表達、移動閱讀中讀者個體的行為路徑、感測器網路對讀者活動的記錄、服務系統的運行參數信息等數據,這些數據蘊含著巨大的社會和商業價值。因此,圖書館力圖採集讀者行為大數據,將讀者行為進行解析、描述和量化,最終實現對讀者服務需求、服務模式變化趨勢預測與控制。同時,圖書館應注重讀者行為數據分析的時效性,及時獲取讀者閱讀情緒和服務需求的變化數據,並將數據變化結果可視化表現出來,確保服務策略和內容隨著讀者個性化需求變化而動態調整。
(2)最大范圍的採集讀者行為數據。科學採集高價值讀者行為數據,是准確分析和預測讀者需求,提高讀者忠誠度和服務滿意度的關鍵。首先,圖書館應從讀者服務全局出發,收集讀者的行為數據,採集來自伺服器運行監控設備、感測器網路、用戶閱讀終端設備、系統運行日誌、讀者論壇與博客、讀者服務反饋系統、網頁cookies、搜索引擎、讀者閱讀行為監控設備的數據,盡量減少用戶行為數據採集的盲點,提高數據的完整性、精確性、及時性和有效性。其次,所採集的數據應具有海量和實時性特點,依據讀者閱讀需求對讀者行為分析的內容,選取數據和應用對象進行調整,避免讀者行為分析過程中可能會對讀者服務產生的消極影響,最終實現從理解讀者閱讀行為到掌握讀者閱讀需求的轉變。再次,圖書館應與第三方服務商合作,以服務協作和大數據資源共享的方式,努力拓展讀者行為數據採集的廣度和深度,在實現以讀者為中心的讀者行為數據選擇、過濾、共享和互補前提下,提高數據應用分析和增強數據的可用性。
(3)保證讀者行為數據的安全性和可用性。讀者行為數據具有海量、全面、高價值和實時性的特點,圖書館應加強對讀者行為數據的安全性和可用性管理,保證用戶保密信息和隱私數據的安全。但是,移動終端工作模式和使用環境的不確定性,嚴重影響了圖書館大數據閱讀服務的安全性,因此,必須加強閱讀終端的安全性管理。首先,圖書館應依據閱讀終端的安全設計標准及其移動性、開放性,以及閱讀終端與讀者閱讀行為的關聯性,為不同類型的閱讀終端劃分相應安全度,並通過嚴格限制閱讀終端的使用對象、安全模式、應用環境和通信方式來保證設備安全。其次,應將讀者行為數據劃分為用戶隱私數據、讀者特徵數據、行為日誌數據和公開數據四個安全等級,執行相應的安全存儲、管理和使用策略,並依據用戶行為數據生命周期發展規律,加強數據收集、存儲、使用、轉移和刪除五個環節的安全管理。再次,應堅持讀者需求精確感知、行為關系全面挖掘、服務模式發展准確預測和讀者行為科學分析的原則,實現讀者行為數據的良性監控和採集,避免採集與讀者閱讀服務保障無關的個人隱私行為數據。
(4)重點突出讀者閱讀行為數據挖掘的知識關聯分析。知識關聯分析就是從海量數據中發現存在於大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式,通過讀者閱讀行為數據的知識關聯分析,發現讀者不同行為之間的聯系,以及讀者的閱讀習慣和服務需求,是圖書館以讀者需求為中心制定服務策略的前提。圖書館應在三維空間開展讀者閱讀行為數據的交叉關聯分析,所涉及的主要內容包括讀者閱讀活動頻率、閱讀的時間與地點、閱讀內容分布規律、閱讀習慣和愛好、閱讀關鍵詞關聯度、閱讀社會關系交集、熱點內容的關注度等。同時,行為數據的選擇要堅持以服務保障為中心和高價值的原則,特別加強對讀者閱讀活動的熱點內容、主要閱讀模式和個性化服務需求反饋行為數據之間的關聯分析。此外,基於讀者閱讀行為數據挖掘的知識關聯分析,應加強對讀者閱讀行為的跟蹤和監控,在加強對讀者顯性行為特徵數據監控的同時,還應突出利用顯性行為數據挖掘,而獲得隱性行為信息。對讀者閱讀需求、閱讀熱點、閱讀行為關聯性等進行關聯分析,增強讀者行為知識關聯分析的廣度、深度和有效性。