圖書檢索系統體系架構研究

時間：2024-06-12 07:07:46 松濤系統架構師我要投稿

相關推薦

圖書檢索系統體系架構研究

　　圖書檢索系統可以歸納為索引子系統、檢索子系統、資源匹配子系統和資源子系統四大部分，每一個子系統在整個系統中都有著不可忽視的作用，各個子系統之間統籌合作完成圖書信息的檢索工作。下面小編為大家準備了圖書檢索系統體系架構的文章，歡迎閱讀。

圖書檢索系統體系架構研究

　　1 圖書信息檢索系統評價指標

　　信息檢索評價是對信息檢索系統性能(主要滿足用戶信息需求的能力)進行評估的活動。通過評估可以評價不同技術的優劣，不同因素對系統的影響，從而促進本領域研究水平的不斷提高。信息檢索系統的目標是在較少消耗的情況下盡快、全面返回準確的結果。根據F.W.Lancaster的闡述，判定一個檢索系統的優劣，主要從質量、費用和時間三方面來衡量。因此，對計算機信息檢索的效果評價也應該從這三個方面進行。本文主要研究信息檢索系統的質量標準，質量標準主要通過查全率與查準率進行評價。

　　查全率和查準率是判定檢索效果的主要標準，而后兩者相對來說要次要些。

　　查全率是指系統在進行某一檢索時，檢出的相關文獻量與系統文獻庫中相關文獻總量的比率，它反映該系統文獻庫中實有的相關文獻量在多大程度上被檢索出來。

　　查全率=[檢出相關文獻量/文獻庫內相關文獻總量]×100% (1)

　　查準率是指系統在進行某一檢索時，檢出的相關文獻量與檢出文獻總量的比率，它反映每次從該系統文獻庫中實際檢出的全部文獻中有多少是相關的。

　　查準率=[檢出相關文獻量/檢出文獻總量]×100% (2)

　　查全率與查準率是評價檢索效果的兩項重要指標。查全率和查準率與文獻的存儲與信息檢索兩個方面是直接相關的，也就是說，與系統的收錄范圍、索引語言、標引工作和檢索工作等有著非常密切的關系。

　　影響查全率的因素：從文獻存儲來看，主要有：文獻庫收錄文獻不全;索引詞匯缺乏控制和專指性;詞表結構不完整;詞間關系模糊或不正確;標引不詳;標引前后不一致;標引人員遺漏了原文的重要概念或用詞不當等。此外，從情報檢索來看，主要有：檢索策略過于簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索人員業務不熟練和缺乏耐心;檢索系統不具備截詞功能和反饋功能，檢索時不能全面地描述檢索要求等。

　　影響查準率的因素：主要有：索引詞不能準確描述文獻主題和檢索要求;組配規則不嚴密;選詞及詞間關系不正確;標引過于詳盡;組配錯誤;檢索時所用檢索詞(或檢索式)專指度不夠，檢索面寬于檢索要求;檢索系統不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數量有限;截詞部位不當，檢索式中使用邏輯“或”不當等等。

　　2 信息檢索系統體系架構

　　一個完整的圖書信息檢索系統應當包括圖書信息的預處理，圖書信息的入庫、用戶檢索接口、資源匹配、資源排序等部分，本文主要就以下幾個部分進行闡述。

　　2.1 索引子系統

　　索引子系統主要完成的工作是對圖書信息的入庫工作，圖書館中信息資源具有完整的資源名，然而用戶在搜索時是通過輸入關鍵字來發現類似的資源，因此需要對信息資源進行預處理。主要通過對信息資源名構建倒排索引，通過建立關鍵詞和信息資源名之間的鄰接矩陣，如此則完成信息資源和關鍵詞之間的關聯性，用戶可以通過關鍵詞發現自身需要的相關聯文檔。

　　2.2 查詢子系統

　　查詢子系統主要提供給用戶查詢接口，用戶通過輸入檢索關鍵詞，查詢子系統需要對用戶的檢索關鍵詞進行分析，可能用戶輸入的關鍵詞并非規范的形式，可能還存在著錯誤信息，或者是以字母形式輸入，或者是以英文或者其它方式輸入，查詢子系統需要對輸入的檢索關鍵詞進行消歧工作。

　　2.3 資源匹配子系統

　　資源匹配子系統主要根據用戶的檢索關鍵詞在圖書館數據庫資源中進行資源匹配，尋找和用戶相關聯的資源，資源匹配的方式有很多種，諸如采用完全匹配方式(即用戶輸入的關鍵詞和數據庫中資源完成匹配)、部分匹配方式(用戶輸入的關鍵詞中部分信息和數據庫中信息匹配成功)、語義匹配方式(用戶輸入的關鍵詞與數據庫中資源存在語義上的關聯性)。

　　2.4 資源排序子系統

　　資源排序子系統主要根據用戶的檢索關鍵詞對匹配完成的資源信息進行排序，按照資源的重要性和用戶檢索的相關聯程度進行梯度排序，排序的原則有多種方式，諸如余弦相似度，向量相似度，Jaccard相似度，Dice相似度等多種方式，有些排序子系統根據現今流行的搜索引擎頁面排序算法進行改進，并將改進的排序算法移植于圖書信息檢索系統中。

　　拓展：基于圖書館管理系統的藏書剔除實踐

　　一、常用方法的藏書剔除

　　常用的藏書剔除辦法主要有主觀判斷法、書齡判斷法、使用年限法等，其中主觀判斷法是藏書剔除最常用的方法之一，是館員按照事先擬訂的一系列相關的剔除標準（或準則），憑借自己的經驗，直接在書架上剔除文獻資料。面對的是知識內容千差萬別、質量水平參差不齊的藏書，運用主觀判斷法進行藏書剔除的尺度很難把握。

　　書齡判斷法是根據圖書年代進行藏書剔除的一種方法�？墒窍嗤瑫g圖書的利用率會相差甚遠，單純以年代決定藏書的去留，就有可能把一些有價值的、使用率高的舊書剔除出去，或者留下許多書齡較短、不符合讀者需求的圖書。

　　文獻壽命“半衰期”體現的是知識情報的老化與更新的基本規律，可以作為一線書庫藏書剔除的一個參考依據。然而在實際工作中，量化某一館藏是否超出其有效使用年限，或著超出了多少，都是很困難的。

　　調查研究法是開展特定范圍（讀者、專家）的調查，并根據調查結果進行藏書剔除的一種方法。它過分注重代表范圍內的即時需求，忽視館藏體系整體的、長遠的建設和發展。

　　滯架時間是反映圖書使用情況的一個客觀標準，如果大量利用率很低的館藏文獻繼續留在一線書庫，會增加館藏的承載負擔和經濟支出，增加讀者查找和獲取的時間。但如果圖書沒有放到規定位置，或者讀者沒有發現它，那么它自然沒有被利用的記錄，很可能就被選為剔除對象。

　　目標比對法是根據資源建設目標進行藏書剔除的一種方法。然而，藏書體系也需要不斷完善，這種方法有時會加大滯后的周期。

　　上述方法從不同角度為藏書剔除提供依據，總體上說是各有千秋。有些時候，單獨使用上述方法在時間、人力、質量等方面難以滿足藏書剔除的需要，需要結合目標、摸索更先進、更科學、更合適的藏書剔除方法。

　　二、圖書館管理系統發展概況

　　圖書館管理系統，又稱圖書館自動化管理系統，自國內圖書館開始運用圖書館自動化管理系統，到目前已經將傳統的圖書館業務手工操作轉變為計算機管理，從簡單的單個模塊管理提升到功能齊全和強大的集成系統，使圖書館的主要業務，包括采訪、編目、流通、連續出版物管理、公共檢索等，在一個書目數據庫中得以實現。隨著計算機和網絡技術在我國的快速發展，圖書館管理系統全面普及，傳統的人工工作逐項逐項地被計算機代替。圖書館管理系統本身從圖書館內部提供信息資源朝著館際之間資源共享和信息資源的多媒體化[2—3]方向發展。圖書館管理系統實時顯示圖書的庫存數量、種類，以及圖書的借閱情況，有助于動態的分析和決策，提高了圖書館的管理水平，提高了工作效率。

　　三、基于圖書館管理系統的藏書剔除

　　在圖書館集成管理系統得到普遍應用的當前，依托各集成管理系統的功能，跟蹤特定讀者群，核實電子文獻、各種數據庫、虛擬館藏的覆蓋面、特色和利用情況。與對口院系、各專業尤其重點學科、基地建立長期的聯系，掌握對口院系學科的專業設置、課程設置及學生和教師用書需求。根據入藏、流通、閱覽統計，確定反映本館利用狀況的藏書周轉基點，研究剔除一部分非本館特色學科的文獻、剔除一部分少人問津的文獻，對藏書結構、滿足率、利用率造成的影響。傳統的藏書剔除工作也可以根據計劃進度、一個庫一個庫、一類一類、持續不斷地開展，形成一個經常性、制度化、規范化、以3～5年為周期的、按主題（或按類別）的藏書剔除制度。

　　利用計算機很容易列出長期滯架文獻的清單，但是要從這幾十萬條數據中判斷出哪些圖書應該在這一批剔除的確有困難。況且，判斷館藏圖書是否有使用價值，使用頻率的高低只是其中的一個方面，使用頻率的高低并不一定與使用價值的大小同步，滯架書刊中不乏一些內容質量、及其時效性都是好的或比較好的書刊，不應屬于剔除之列。因此必須啟用專用的系統，把具體的量化指標限定條件輸入計算機，如歷年利用率要求、出版時間要求、復本數量要求、外觀狀態要求、修補次數要求等，其中連續利用率、出版時間、復本數量可以從數據庫獲得，外觀狀態和修補次數如果有記錄以記錄為準，沒有記錄則認定外觀狀態正常、修補次數為零。在計算機分類分類平臺完成檢索之后，記錄符合條件的分類結果，生成一個符合量化指標的表單。面對學科知識千差萬別、書品質量參差不齊的具體藏書，不是用幾條原則標準就能決定取舍的，隨時都可出現的一些實際問題。所以還需具體問題具體分析，還須對藏書進行逐類審查、逐種鑒別的，任何僵化的、一刀切的做法是不可取的，因此需要對擬剔除文獻進行必要的復審。

　　對于通過復核的擬剔文獻，才可以分門別類交付工作人員把對應的文獻逐一從架位上按順序抽取出來，按順序集中存放。下架后應設一道復核工序，即由復核人員對下架的剔除文獻進行認真核對，以防止誤剔、漏剔。同時，對獲批下架文獻進行相應的數據處理，把剔除文獻的去向反映到相應的數據庫，調整庫位，生成新的排架號。

　　藏書剔除的主要目的是為了提高藏書質量，讓使用率高的藏書留在一線書庫的開架書位上，方便讀者取用，提高流通書位的利用率，控制開館成本。斯坦利J斯洛特的相關研究表明：“當一個圖書館的核心藏書占該館現有圖書的72～84%時，可以保證滿足99%的讀者使用需求”，換句話說，如果一個圖書館將其現有藏書的16～28%圖書予以剔除，會對1%的讀者需求產生影響。所以儲藏剔除不能將剔除文獻輕率地拋棄，對尚有一定參考、利用價值的書刊，優先移至貯藏書庫，密集排架，以為讀者可能產生的特殊文獻需求提供保障。通過對藏書剔除相關問題的研究、分析和解決，可從藏書是否符合讀者群的需求、藏書分類是否恰當、藏書著錄是否準確、藏書排架是否符合讀者習慣等一個個側面為館員改進工作提供了非常重要的反饋信息，進而有利于修正和調整資源建設的方針和政策，有利于管理水平的提高。

　　四、結束語

　　藏書剔除是藏書建設的重要環節，在當前圖書館集成管理系統得到普遍應用的前提下，依托圖書館集成管理系統的功能，可為藏書剔除工作提供更客觀、更準確的依據，并有效地保障藏書剔除的進度和質量。

【圖書檢索系統體系架構研究】相關文章：

紅帽認證體系架構介紹07-23

存儲架構體系發展在電信支撐系統中的應用09-22