<dfn id="w48us"></dfn><ul id="w48us"></ul>
  • <ul id="w48us"></ul>
  • <del id="w48us"></del>
    <ul id="w48us"></ul>
  • 基于WEB文本挖掘的統計分析VB+ACCESS

    時間:2024-08-07 17:21:23 計算機網絡畢業論文 我要投稿
    • 相關推薦

    基于WEB文本挖掘的統計分析VB+ACCESS

    畢業論文

    基于WEB文本挖掘的統計分析
    ---用戶興趣建模與中文網頁自動分類
     
    摘  要  本文介紹了運用Web文本挖掘技術,在Windows平臺上實現用戶興趣建模和智能網頁推薦系統的方法和過程。首先簡要介紹了目前國內外的研究動態和水平,然后介紹了興趣模型的相關知識,主要包括:web文本挖掘的分類,web文本挖掘的靜態和動態統計分析,興趣模型的發現與建立,用戶興趣模型的獲得與實現,中文分詞技術等內容。在簡單介紹現有算法的基礎上,經過實踐調查統計,根據課題的需要和實際情況,提出1種相對簡單的用戶興趣模型的建立和實現的方法。并用VB 6.0 和Access 2003實現了相關功能。

    關鍵詞: Web文本挖掘; 網志分析;統計分析;用戶興趣模型; 中文分詞
     
    Stat and Analyse Based on Web Textual Mining
    ---User’s Interests Modeling and Chinese Pages Auto-Classify
     
    Abstract  In this paper,introduced the method and process of how to realize User’s Interest Modeling and Chinese Pages Commend System on Windows platform,which uses Web Textual Mining.In the begining,we introduce the resemble thesiss research developments and level at home and abroad.Then,we introduce the correlation knowledge of interest modeling,which include the classes of Web Textual Mining,static and dynamic statistic and analyze of Web Textual Mining,detect and build the interest model,obtain and realize the users interest model,Chinese Split Word technique etc.For the tasks requirements and practical situation,after introduced some algorithm in existence we produce a relative simple way of users interest modeling and the realize methods,by investigate and stat.The systems realize tool is Microsoft VB 6.0 and Microsoft Access 2003.
    Keywords:Web Textual Mining; Web-log analyse; Stat and analyse; User’ s Interests Model;Word split

     
    目  錄
    1 前  言 1
    1.1 課題背景 1
    1.2 國內外研究動態和水平 1
    1.3 本文的主要工作 2
    1.4 課題研究的意義 3
    1.5 論文的大致結構 3
    2 WEB文本挖掘 4
    2.1 數據挖掘 4
    2.1.1 WEB挖掘的概述及分類 4
    2.1.2 Web 挖掘的任務 5
    2.1.3 Web數據挖掘幾個步驟 6
    2.1.4 Web數據挖掘的分類 7
    2.2 WEB 文本挖掘 9
    3 興趣模型的發現與建立 11
    3.1 現有算法介紹 11
    3.1.1 用戶主動提供 11
    3.1.2 相關反饋 12
    3.1.3 現有興趣發現算法的缺陷 13
    3.2 靜態和動態相結合的方法 13
    3.2.1 Web訪問動機的靜態分析 14
    3.2.2 Web訪問動機的動態分析 17
    3.3 結論與模型的建立 17
    3.3.1 根據隱式反饋[6]建立和更新用戶興趣模型 17
    4 用戶興趣模型獲得與實現 22
    4.1 COOKIES 22
    4.1.1 Cookies的概述及屬性 22
    4.1.2 Cookies的存取方法 23
    4.1.3 Cookies安全需求和造成的安全威脅 24
    4.1.4 Cookies的作用 25
    4.2 收藏夾分析 26
    4.1.1 獲取 “收藏夾”文件 26
    4.1.2 收藏夾的目錄結構 28
    4.1.3 如何分析網志中的頁面 28
    4.3中文分詞技術介紹 30
    4.3.1 中文分詞和對興趣收集的重要意義 30
    4.3.2 CSW 5.0 中分詞組件簡介 32
    4.3.3本系統調用CSW5. DLL 示例 33
    4.4 VB中的鉤子 34
    4.4.1 鉤子的概述和分類 34
    4.4.2 VB中鉤子的實現 36
    5 中文網頁自動分類技術 38
    5.1 文檔自動分類算法的類型 38
    5.2 實現中文網頁自動分類的1般過程 39
    5.3 影響自動分類的關鍵因素 40
    5.3.1 分類體系 40
    5.3.2 特征提取 41
    5.3.3 分類算法介紹 41
    6 系統設計與實現 42
    6.1系統可行性研究 42
    6.1.1 背景 42
    6.1.2可行性研究的前提 42
    6.1.3要求 42
    6.1.4進行可行性研究的方法 42
    6.1.5設備 42
    6.1.6 局限性 43
    6.1.7 技術條件方面的可行性 43
    6.1.8 社會因素方面的可行性 43
    6.1.9 結論 43
    6.2需求分析 43
    6.2.1任務概述 43
    6.2.2需求規定 44
    6.2.3 數據管理 45
    6.2.4 故障處理要求 45
    6.2.5 運行環境規定 45
    6.3總體設計 45
    6.3.1 系統實現方案 45
    6.3.2 功能模塊分解 45
    6.3.3 數據庫設計 46
    6.4詳細設計 47
    6.4.1 結構程序設計 47
    6.4.2 人機界面設計 53
    6.5系統實現 53
    7 結  論 54
    致  謝 55
    參考文獻 56
    附錄1 CSW 5.0分詞軟件DLL介紹 57
    附錄2 漢語詞性對照表[北大標準/中科院標準] 61
    附錄3 部分程序源代碼 63

     
    1 前  言
    1.1 課題背景
        近年來,Internet的網絡和應用都在以驚人的速度在發展。根據中國互聯網絡信息中心2003年1月公布的中國互聯網絡發展狀況的統計數據,在中國,上網計算機總數達到2083萬,上網用戶總數達到5910萬,WWW站點數約為371600個。而就全世界而言,上網用戶數達到數億。同時,各種各樣的網絡應用早己走進各行各業,尤其是遠程教育、電子商務、搜索引擎等等。但是由于 Internet是1個開放、分布的信息空間,它本身所固有的 3個特點己經明顯地阻礙了人們充分地使用 Internet上的信息資源:[1](1) Internet上可利用的信息是無組織的,多種結構形式的,并且分布在全世界的各個站點上;(2)數據和服務的類型以及數量每天都在大量增加,因而信息可利用性和可靠性也在不斷地變化;(3)由于信息源的動態性以及潛在的有用信息的更新和保存問題,信息常常是模糊的:有時甚至是錯誤的。由于上述原因,在 Internet上進行信息檢索經常會出現“信息過載”,即網上的信息是海量和無組織的,易發生“資源迷向”,即用戶不知道如何更加有效地利用資源等問題。
        人們迫切需要1些智能的和個性化的工Internet系統,能學習和了解用戶的興趣愛好,成為用戶的助手或秘書,能幫助用戶從浩如煙海的工Internet信息中快速而準確地搜索出他們感興趣的內容:
    能為用戶提供主動的、最新的信息服務和推薦;能幫助用戶實現個性化的遠程學習等。而這些系統的基礎都離不開1個 “個性化的用戶興趣模型”。
        電子商務(E-Business)發展到現在,它提供的高效和安全的服務,讓人們體會到了Internet應用的神奇。但是,電子商務服務提供商和用戶同時對它的提出了新的要求:如何才能象現實生活中的商家和客戶交流1樣,商家為客戶推薦適合其興趣愛好的商品和服務,這在現實生活中,是靠商家與客戶的多次不同形式的交流達到的,然而,通過什么的途徑,能夠在Internet上,在商家與客戶沒有見面的環境下達到這1點呢。根據用戶顯式反饋的信息,進行綜合整理,也許是1條途徑,但是這里面包含了太多的主觀和不確定因素。隱式反饋成了人們關注的焦點,通過對用戶靜態的動態的興趣體現,通過統計分析得到用戶興趣,從而為用戶量身定制web服務和page推薦,當然,這不可避免地涉及到個人隱私問題。本課題就是在這樣的背景下提出來的。

    【基于WEB文本挖掘的統計分析VB+ACCESS】相關文章:

    基于WEB的在線考試系統03-09

    基于Web服務的集成研究03-08

    基于Web技術的網絡考試系統03-18

    基于PHP的Web數據庫訪問03-19

    基于Web服務的短信網關設計03-26

    基于聚類分析的數據挖掘方法03-08

    基于WEB的網絡考試系統ASP+SQL03-08

    基于粗糙集的文本分類研究03-03

    基于Web的嵌入式數控系統實現03-07

    主站蜘蛛池模板: 94久久国产乱子伦精品免费| 无码国模国产在线无码精品国产自在久国产 | 一本一道精品欧美中文字幕| 欧美精品在线一区二区三区| 久久精品国产精品亚洲毛片| 亚洲精品成人片在线观看| 久久国产成人精品麻豆| 久久久一本精品99久久精品66| 欧美精品丝袜久久久中文字幕 | 无码日韩精品一区二区免费暖暖 | 99久久国产综合精品五月天喷水| 国产乱码精品一区二区三区中文| 青青久久精品国产免费看| 亚洲国产精品热久久| 国产精品无码午夜福利| 亚洲精品无码Av人在线观看国产| 久久国产午夜精品一区二区三区| 2021最新国产精品一区| 国产福利微拍精品一区二区| 久久久久久九九99精品| 亚洲精品97久久中文字幕无码| 国产乱人伦偷精品视频| 亚洲国产精品久久66| 精品国产一区二区三区久久 | 国产综合色产在线精品| 国产精品 码ls字幕影视| 精品亚洲综合久久中文字幕| 国产92成人精品视频免费| 成人区精品一区二区不卡 | 午夜精品久久影院蜜桃| 久草视频精品在线| 精品成人av一区二区三区| 国产精品无码v在线观看| 91po国产在线精品免费观看| 亚洲国产精品久久久久| 99久久免费只有精品国产| 国产成人精品免高潮在线观看| www夜片内射视频日韩精品成人| 国产精品部在线观看| 国产精品美女久久久久av爽| 国产精品自在欧美一区|