- 相關推薦
CPM搜索引擎的設計與實現
畢業論文
目錄
摘要 2
前 言 4
1 概述 5
1.1 搜索引擎的概念 5
1.2 1些著名的搜索引擎 6
1.2.1 Google 6
1.2.2 百度 7
1.2.3 天網 7
1.3 典型WEB搜索引擎工作原理 7
1.4 CPM搜索引擎工作原理 9
2 CPM搜索總體設計 10
2.1基本要求 10
2.2 體系結構規劃分析 11
2.3 各模塊設計策略分析 11
2.3.1 網頁搜集 11
2.3.2 預處理 13
2.3.3 查詢服務 14
2.4 體系結構 16
3 網頁搜集模塊的設計與實現 18
3.1 超文本傳輸協議 18
3.2 網絡蜘蛛原理 19
3.3 網絡蜘蛛的類結構 20
3.4 CSPIDERTHREAD類 21
3.5 網絡蜘蛛爬取策略 26
3.6 控制對1個站點并發搜索線程的數目 26
3.7 數據庫設計 26
4 預處理模塊的設計與實現 28
4.1 分析網頁 28
4.1.1 分析網頁內容 28
4.1.2 獲取網頁所有鏈接URL 29
4.3 網頁重復搜集的避免 30
4.4 網頁重要程度確定 31
4.5 中文分詞 31
4.5.1 算法介紹 31
4.5.2 正向減字最大匹配法 33
4.5.3 分詞系統實現 35
5 查詢服務模塊設計與實現 40
5.1 查詢服務系統結構 40
5.2 查詢結果顯示 41
5.3 用戶界面 41
5.4 針對查詢服務對分詞系統的改進 43
6 結束語 44
致謝 46
參 考 文 獻 47
附錄 48
1 網絡蜘蛛程序與數據庫接口實現 48
2 分詞系統對文章處理的函數實現 49
CPM搜索引擎的設計與實現
摘要:本文論述了1個小型搜索引擎(CPM搜索)系統的設計原理、設計思想及具體的實現過程,對在設計過程中涉及到的關鍵算法作了具體分析和介紹,并對各個模塊的架構以及設計思想和設計過程作了詳細闡述。該系統主要包括3個模塊:網頁搜集、預處理和查詢服務。網頁搜集和預處理模塊采用VC++開發 ,實現了搶先式多線程網絡蜘蛛程序和中文分詞系統。查詢服務模塊實現了基于ASP的Web服務系統。
CPM搜索是個人畢業設計做的1個小型搜索引擎系統,設計的目的就是讓它足夠小,但是又讓它具備完整的搜索服務功能。便于任何1個對搜索引擎感興趣的人可以利用自己有限的硬件資源(如自己的臺式機)搭建,實現小型搜索服務,如校園搜索。
關鍵字:網絡蜘蛛;中文分詞;網頁重要程度;網頁索引詞;動態庫
The Design And Realization of CPM Search Engine
Abstract: There is a small search engine (CPM search) system design principles, design concepts and concrete realization process in the discourse. in the design process involves a specific analysis of the key algorithms and introduction, and the structure and design of the various modules of ideas and made a detailed design process. The system consists of three main modules : web collection, pretreatment and query services. Collection and pretreatment module used VC++ development, achieving pre-empt a number of systems network spider procedures and Chinese participle system. Query service module based on the ASP achievement of the Web system.
CPM is a small search engine search which i designed in my graduate-design time. The aim of design it is enough small, but it has also integrated search service functions. A search engine for any interested person may make use of its limited hardware resources (such as their desktop) structures, and achieve small search services, such as campus search.
KeyWords:Network spiders;the Chinese participle;the degree of importance of the website;dynamic link libraries
包括:畢業論文 任務書 沒有源代碼
【CPM搜索引擎的設計與實現】相關文章:
Web搜索引擎的智能搜索設計與實現03-08
MPC850中復位邏輯和CPM協議切換的CPLD實現03-20
都市頻道制作網的設計與實現01-07
新聞發布系統的設計和實現03-07
基于PQRM的PACS系統設計與實現03-07
高校信息查詢系統的設計與實現03-28
郵件服務器設計與實現03-08
網上商城的設計與實現ASP11-23