<dfn id="w48us"></dfn><ul id="w48us"></ul>
  • <ul id="w48us"></ul>
  • <del id="w48us"></del>
    <ul id="w48us"></ul>
  • 數據挖掘的讀書筆記

    時間:2024-06-27 13:28:27 美云 讀書筆記 我要投稿
    • 相關推薦

    數據挖掘的讀書筆記

      數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。目前喲普與大數據時代的到來,數據挖掘在很多高等院校已經成為一門獨立的學科。下面是數據挖掘的相關讀書筆記。歡迎大家閱讀。

    數據挖掘的讀書筆記

      數據挖掘的讀書筆記 1

      一、數據挖掘概念(即什么是數據挖掘)

      我們生活在數據時代,各行各業每天都產生巨大的數據。數據的爆炸式增長、廣泛可用和巨大數量使得我們的時代成為真正的數據時代。急需功能強大和通用的工具,以便從海量數據中發現有價值的信息,把這些數據轉換成有組織的、可利用的知識。這種需求導致了數據挖掘的誕生。

      數據挖掘實際上是從數據中挖掘知識,由以下步驟的迭代組成:

      (1)數據清理(消除噪聲和刪除不一致數據)

      (2)數據集成(多種數據源可以組合在一起)

      (3)數據選擇(從數據庫中提取與分析任務相關的數據)

      (4)數據變換(通過匯總或聚集操作,把數據變換和統一成適合挖掘的形式)

      (5)數據挖掘(基本步驟,使用智能方法提取數據模式)

      (6)模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)

      (7)知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識) 關系數據庫是數據挖掘最常見、最豐富的信息源,因此它是我們數據挖掘研究研究的一種主要數據形式。

      二、數據挖掘技術(即怎樣進行數據挖掘)

      1、可以挖掘什么類型的模式 特征化與區分、頻繁模式、關聯和相關性挖掘,分類與回歸,聚類分析,離群點分析。 數據挖掘可以被用來進行市場分析和管理、風險分析和管理、缺陷分析和管理等。

      2、使用什么技術

      1)首先要認識數據,一個數據對象代表一個實體,又稱樣本、實例、數據點或對象。 屬性是一個數據字段,表示數據對象的一個特征,又稱維、特征和變量。

      2)數據描述 中心趨勢度量:均值、中位數和眾數 度量數據散布:極差、四分位數、方差、標準差和四分位數極差 通過基于像素的可視化技術等清晰有效的表達數據

      3)進行數據預處理,包括數據變換與數據離散化。 數據變換策略:光滑、屬性構造、聚集、規范化、離散化、由標稱數據產生概念分層 數據離散化策略:分箱、直方圖分析、聚類決策樹和相關分析

      4)然后需要建立數據倉庫進行處理,數據倉庫:是一種數據庫,它允許將各種應用系統集成在一起,為統一的歷史數據分析提供堅實的平臺,對信息處理提供支持。數據倉庫的構建需要數據集成、數據清洗和數據統一。

      5)聯機分析處理可以,在使用多維數據模型的數據倉庫或數據集市上進行,使用數據立方體結構,OLAP操作可以有效的實現。

      數據立方體計算的一般策略: 排序、散列和分組 同時聚集和緩存中間結果

      當存在多個子女方體時,由最小的子女聚集 可以使用先驗剪枝方法有效的'計算冰山立方體

      數據立方體計算方法: 多路數組聚集,基于稀疏數組的、自底向上的、共享計算的物化整個數據立方體 BUC,通過探查有效的自頂向下計算次序和排序計算冰山立方體 Star-Cubing,使用星樹結構,集成自頂向下和自底向上計算,計算冰山立方體 外殼片段立方體,通過僅預計算劃分的立方體外殼片段,支持進行高維OLAP

      6)挖掘頻繁模式和關聯規則 頻繁項集挖掘方法: Apriori算法(通過限制候選產生發現頻繁項集),由頻繁項集產生關聯規則,提高Apriori算法的效率,挖掘頻繁項集的模式增長方法,使用垂直數據格式挖掘頻繁項集,挖掘閉模式和極大模式

      數據挖掘的讀書筆記 2

      1、數據挖掘要解決的問題

      可伸縮(算法在處理各種規模的數據時都有很好的性能。隨著數據的增大,效率不會下降很快。)

      高維性(簡單的說就是多維數據的意思。平時我們經常接觸的是一維數據或者可以寫成表形式的二維數據,高維數據也可以類推,不過維數較高的時候,直觀表示很難。)

      異種數據和復雜數據

      數據的所有權與分布(分布式數據挖掘:應付分布式海量數據的現代方法)

      非傳統的分析(傳統方法:基于一種假設-檢驗模式;數據挖掘分析-時機性樣本,而不是隨機樣本)

      2、數據挖掘任務

      1)預測任務(目標變量/因變量:被預測的屬性;說明變量/自變量:用來做預測的屬性)

      2)描述任務

      A預測建模:分類-預測離散的.目標變量和回歸-預測連續的目標變量

      B關聯分析

      C聚類分析

      D異常檢測(識別其特征顯著不同于其他數據的觀測值。這樣的觀測值稱為異常點或離群點)

      3、屬性的四種類型

      1)標稱

      2)序數

      3)區間

      4)比率

      (布爾變量:Boolean Variable (布爾型變量) 是有兩種邏輯狀態的變量,它包含兩個值:真和假。如果在表達式中使用了布爾型變量,那么將根據變量值的真假而賦予整型值1或0。)

    【數據挖掘的讀書筆記】相關文章:

    數據挖掘理論在數據采集中的運用03-16

    數據挖掘專業就業方向09-27

    數據挖掘崗位職責05-14

    數據挖掘與企業營銷策略探究03-29

    數據挖掘分析崗位職責04-20

    數據挖掘在CRM中的應用分析03-22

    數據挖掘技術在CRM中的應用03-22

    基于聚類分析的數據挖掘方法03-08

    淺談反病毒數據庫的數據分類挖掘論文02-19

    數據挖掘論文參考文獻范文11-20

    主站蜘蛛池模板: 少妇人妻无码精品视频app| 中文字幕一区二区三区日韩精品| 精品亚洲欧美中文字幕在线看| 日韩精品无码一区二区中文字幕| 99免费精品国产| 久久99国产乱子伦精品免费| 久久精品18| 精品亚洲综合在线第一区| 亚洲AV无码国产精品色午友在线| 国产精品免费大片一区二区| 69久久夜色精品国产69| 亚洲精品无码不卡在线播放HE | 国产欧美精品一区二区三区四区| 国产精品视频一区二区三区无码 | 精品国精品国产自在久国产应用| 久久精品国产清自在天天线| 亚洲午夜久久久精品影院| 国产a精品视频| 国产精品人人爽人人做我的可爱| 亚洲欧美精品综合中文字幕 | 2021年精品国产福利在线| 2018国产精华国产精品| 无码精品一区二区三区在线| 人妻少妇看A偷人无码精品| 国产欧美日本亚洲精品一5| 91自慰精品亚洲| 青草青草久热精品视频在线网站 | 一区二区三区精品高清视频免费在线播放 | 精品欧洲av无码一区二区三区| 国产精品国产三级国产av品爱网 | 在线涩涩免费观看国产精品| 精品久久久久久久中文字幕| 国产精品手机在线观看你懂的| 久久久精品一区二区三区| 99久久人妻无码精品系列| 久久久久亚洲精品天堂| 无码精品人妻一区二区三区漫画 | 99久久精品费精品国产| 欧美精品一区二区三区视频| 精品一卡2卡三卡4卡免费视频| 国产精品欧美一区二区三区不卡|