學術搜索引擎的優化策略

時間：2024-08-19 21:47:29 其他畢業論文我要投稿

相關推薦

學術搜索引擎的優化策略

　　摘要：該文介紹了一種新的檢索模型，提高學術搜索引擎的檢全率及檢索效率。該擴展模型的創新點在于引入檢索詞的下位詞構成新的檢索詞組，不再局限于檢索詞本身字面上的匹配;且文獻列表的排序將學術價值這一因素考慮在內，根據相關度及學術價值的綜合評分機制對檢索結果進行有序輸出。該模型具有一定的科學性和實用性，但是其排序的評分機制等需要在未來的研究中進一步細化，完善。該擴展模型主要適用于對檢全率要求較高的學術系統及網站。

　　關鍵詞：學術搜索引擎檢索文獻排名擴展模型

　　不同于普通網站或系統的搜索引擎，本文所研究的學術搜索引擎是專門針對于知識庫的一類搜索引擎，其檢索對象較為單一，為期刊、文獻等數字學術資源。該文以CNKI為例。當前學術搜索引擎檢索模型一般采用布爾模型、向量模型等傳統的檢索模型[1]，這類檢索方式只能對檢索的關鍵詞進行字面上的匹配，而忽略了其內在含義的相似度，降低了學術搜索引擎的檢全率。該文淺談一種更加全面的檢索模型，以提高其檢索效率。在該文中此模型統一簡稱為擴展模型。

　　1、理論依據

　　當用戶輸入檢索詞后，返回具有相關信息的文獻排名列表。此列表的確定取決于文獻的關鍵詞或題目及其下位詞是否與檢索詞匹配。此列表的排序則取決于文獻與檢索詞的相關度及該文獻的學術價值。該文根據文獻所屬期刊的影響因子評定文獻的學術價值。

　　所以該模型獲取檢索詞后，首先，根據建好的學科專長詞表(表1)利用其下位詞進行擴展，擴展后成為擴展檢索詞組;其次，從文獻庫中抽取文獻題目或關鍵詞中含有擴展檢索詞組的文獻;但是檢索詞與其下位詞能提供的相關度權重不同，根據已確定的評分機制(第三部分將詳細給出)即可計算相關文獻的得分，按得分高低得出文獻列表。

　　2、模型介紹

　　該模型是為了提高文獻的查全率，借鑒了文獻[2]結合專長詞表的專家檢索方法，即用戶輸入檢索詞后，利用詞表對檢索詞進行擴展。具體設計如下。

　　2.1 構建主題詞表

　　專長詞表的一、二級詞匯由中國分類主題詞表中對應分類的主題詞經稍加改造得來。專長詞表分為三級，其中部分一、二級詞匯如表1所示。

　　對每一個二級詞還需建立相應的三級詞文檔，一個學術研究領域較長時間內的大量學術研究成果的關鍵詞的集合，可以揭示研究成果的總體內容特征、研究內容之間的內在聯系、學術研究的發展脈絡與發展方向[3]，該文以中國知網CNKI數據庫2010―2014年核心期刊上相關文獻的所有關鍵詞作為三級詞匯來源。

　　2.2 確定文獻列表

　　用戶輸入檢索詞后，首先，利用該檢索詞的下位詞進行擴展。其次，根據CNKI數據庫文獻表中的文獻題目和關鍵詞，生成題目或關鍵詞中含有擴展檢索詞組中詞的文獻，此即符合查詢主題的專家文獻。

　　2.3 文獻排名的實現

　　文獻排名依據兩方面：一是依據文獻與檢索詞的相關度;二是依據該文獻的學術價值。在此基礎上，雖然文獻最終得分與文獻中含有檢索詞組中詞的數量有一定關系，但并不意味著二者成絕對的正相關，而是僅對同一篇文獻來說，隨著相關詞數量的增加，最終得分也增加。最后按文獻得分由高到低得出有序的文獻列表。

　　一般地，題目和關鍵詞能集中體現文章的主要內容，故取文獻的題目和關鍵詞衡量其相關度，按體現程度的不同，給二者賦予不同的系數，該文分別將其設定為0.6和0.4(式(2))。其次，在檢索詞組中，詞本體與其下位詞體現相關度也不同，將其權數分別設為0.7和0.3(式(4))。最后，由于期刊的級別不同，其權威性也不同，因此，可取期刊的影響因子衡量文獻的學術價值。相關度和學術價值的系數分別設為0.8和0.2(式(3))。

　　計分公式如下：

　　Wk=Skrel+Skval (1)

　　Wk為文獻k的得分;Skrel為文獻k的相關度得分;Skval為文獻k的學術價值得分。

　　Wk=(0.6×Pktil+0.4×Pkkey)+Skval (2)

　　Pktil為檢索詞組中詞在文獻k的題目中出現的頻數;Pkkey為檢索詞組中詞在文獻k的關鍵詞中出現的頻數。

　　Wk=0.8×(0.6×Pktil+0.4×Pkkey)+0.2×Skval (3)

　　Wk=0.8×[0.6×(0.7Pkts+0.3Pkte)+0.4×(0.7Pkks+0.3Pkke)]+0.2×Skval (4)

　　Pkts與Pkte分別為檢索詞本體及其擴展詞在題目中出現的頻數;Pkks與Pkke則分別為檢索詞的本體及擴展詞在文獻關鍵詞中出現的頻數。

　　在計算出3.2節所得文獻列表中每篇文獻的分值后，按分值高低排序即可得出有序的文獻列表。

　　3、結語

　　該模型的創新點在于突破了布爾模型、向量模型等傳統模型的僵性匹配模式，通過下位詞匹配提高模型的檢全率，使檢索方式更加智能。同時在進行排序時，將學術價值這一因素考慮在內。該模型可用于對檢全率要求較高的系統。但是該模型也有一些缺陷，其評分標準有待進一步的細化、考證;同時檢準率有待提高。

　　參考文獻：