<dfn id="w48us"></dfn><ul id="w48us"></ul>
  • <ul id="w48us"></ul>
  • <del id="w48us"></del>
    <ul id="w48us"></ul>
  • WEB日志格式及分析

    時間:2020-10-29 16:56:21 格式 我要投稿

    WEB日志格式及分析

      網站日志挖掘分析-WEB日志格式及分析工具

    WEB日志格式及分析

      WEB日志是網站分析和網站數據數據整理最基礎的數據,了解其格式和組成將有利于更好地進行數據的收集、處理和分析。

      一、日志格式類型

      目前常見的WEB日志格式主要由兩類,一類是Apache的NCSA日志格式,另一類是IIS的W3C日志格式。NCSA格式又分為NCSA普通日志格式(CLF)和NCSA擴展日志格式(ECLF)兩類,目前最常用的是NCSA擴展日志格式(ECLF)及基于自定義類型的Apache日志格式;而W3C擴展日志格式(ExLF)具備了更為豐富的輸出信息,但目前的應用并不廣泛,所以這里主要介紹的是NCSA擴展日志格式(ECLF)。

      二、常見日志格式的組成

      這是一個最常見的基于NCSA擴展日志格式(ECLF)的Apache日志樣例:

     
    58.61.164.141 – – [22/Feb/2010:09:51:46 +0800] “GET / HTTP/1.1″ 206 6326 ”http://www.google.cn/search?q=webdataanalysis” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”

      可以看到這個日志主要由以下幾個部分組成:

      訪問主機(remotehost)顯示主機的IP地址或者已解析的域名。

      標識符(Ident)由identd或直接由瀏覽器返回瀏覽者的EMAIL或其他唯一標示,因為涉及用戶郵箱等隱私信息,目前幾乎所有的瀏覽器就取消了這項功能。

      授權用戶(authuser)用于記錄瀏覽者進行身份驗證時提供的名字,如果需要身份驗證或者訪問密碼保護的信息則這項不為空,但目前大多數網站的日志這項也都是為空的。

      日期時間(date)一般的格式形如[22/Feb/2010:09:51:46 +0800],即[日期/月份/年份:小時:分鐘:秒鐘時區],占用的的字符位數也基本固定。

      請求(request)即在網站上通過何種方式獲取了哪些信息,也是日志中較為重要的一項,主要包括以下三個部分:

      請求類型(METHOD)常見的請求類型主要包括GET/POST/HEAD這三種;

      請求資源(RESOURCE)顯示的是相應資源的URL,可以是某個網頁的地址,也可以是網頁上調用的圖片、動畫、CSS等資源;

      協議版本號(PROTOCOL)顯示協議及版本信息,通常是HTTP/1.1或HTTP/1.0。

      狀態碼(status)用于表示服務器的響應狀態,通常1xx的狀態碼表示繼續消息;2xx表示請求成功;3xx表示請求的重定向;4xx表示客戶端錯誤;5xx表示服務器錯誤。

      傳輸字節數(bytes)即該次請求中一共傳輸的.字節數。

      來源頁面(referrer)用于表示瀏覽者在訪問該頁面之前所瀏覽的頁面,只有從上一頁面鏈接過來的請求才會有該項輸出,如果是新開的頁面則該項為空。上例中來源頁面是google,即用戶從google搜索的結果中點擊進入。

      用戶代理(agent)用于顯示用戶的詳細信息,包括IP、OS、Bowser等。

      三、日志格式擴展

      apache日志格式可以自定義來配置其輸出格式,常見的基于NCSA擴展日志格式(ECLF)自定義添加的包括域名(domain)和cookie。其中域名在一個網站擁有二級域名或者子域名時,可以更好地區分日志;而cookie可以作為用戶的身份標識。其他具體的自定義信息詳見:Custom Log Formats

      四、導入日志數據到MySQL中

      訪問分析是SEO的一項重要工作,但統計、分析工具畢竟功能是針對大眾的,很多時候SEO需要一些特定的數據,是統計分析軟件、程序所不能提供的。這樣,直接的Web日志分析就是最合適的了,日志中會記錄每一個訪問情況,只要按自己的意愿提取、組合,就能得到想要的數據。使用SQL語句分析是最方便的,需要什么樣的數據,只要使用相應的SQL命令就能實現。

      導入Web日志到MySQL數據庫的實現

      1、修改Apache日志格式

      修改Web日志格式為:

      ?

    1
    Logformat combined %>a,%ui,%un,[%tl],”%rm %ru HTTP/%rv”,%Hs,%h”,”%{User-Agent}>h”,%Ss:%Sh

      SQL需要導入的內容有特定的分隔符,Apache的日志默認是以空格分隔的,而有些內容(如狀態碼中的 200 610)也包含空格,這就無法準確的導入。將日志格式修改為以逗號分隔,就能準確的導入了。還可以根據自己的需要,取消日志格式中不需要的內容,減少日志文件大小。

      2、建立MySQL數據表

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    drop table if exists weblog;
    create table weblog (
    id int unsigned auto_increment PRIMARY KEY not null,
    l_date date,
    l_time time,
    c_ip varchar(15),
    s_ip varchar(15),
    s_port varchar(5),
    method varchar(10),
    path varchar(255),
    query varchar(255),
    status varchar(3),
    domain varchar(50),
    system varchar(200)
    );

      注:上面只是一個MySQL數據表結構范例,沒有與上一步日志格式對應,請勿直接復制使用!

      新建一個數據庫,數據表結構與日志格式對應起來。

      3、導入日志到MySQL中

    1
    LOAD DATA INFILE ’/日志位置/日志文件’ INTO TABLE weblog FIELDS TERMINATED BY ‘,’;

      weblog 對應上面的數據表名。

      另外,樂思蜀從網上找到一個將IIS日志導入到MySQL數據庫的.pl程序,需要的點這里下載(Readme.txt為使用說明)。

      五、常用日志分析工具

      1.awstats

      2.analog

      3.webalizer

      4.PHPMyVisites

    【WEB日志格式及分析】相關文章:

    WEB日志格式01-21

    關于Web日志的研究分析11-10

    駐村工作日志格式及范文12-19

    測量實習日志格式07-20

    暑假日志格式07-12

    教師實習日志格式07-21

    面向電子商務的Web日志挖掘系統11-10

    施工日志格式要求01-10

    工作日志格式要求01-10

    主站蜘蛛池模板: 国产在线观看高清精品| 欧美精品一区二区久久| 国产三级精品三级在线观看| 激情亚洲一区国产精品| 精品国产一区二区22| 国产精品人人爽人人做我的可爱| 国产亚洲精品线观看动态图| 国产成人精品日本亚洲11 | 国产精品无码专区在线观看| 99在线精品视频在线观看| 亚洲精品国产高清嫩草影院| 国产精品国产三级国产潘金莲| 国产亚洲精品岁国产微拍精品| 亚洲国产欧美日韩精品一区二区三区| 国产精品成人69XXX免费视频| 99re热这里只有精品视频中文字幕| 亚洲精品无码久久一线| 亚洲av无码成人精品区| 国产精品视频一区二区三区不卡| 大桥未久在线精品视频在线| 精品无码av一区二区三区| 婷婷精品国产亚洲AV麻豆不片| 国产精品一区三区| 国产成人精品一区二区三区| 久久精品国产精品青草| 国产成人精品亚洲日本在线| 久久国产精品成人影院| 伊人久久精品无码二区麻豆| 日韩经典精品无码一区| 久久精品亚洲男人的天堂| 久久97久久97精品免视看| 国产精品成人久久久久三级午夜电影 | 国产原创精品视频| 91精品国产综合久久精品| 国产精品无码久久综合| 国产精品三级国产电影| 久久精品国产99久久无毒不卡| 日产精品久久久一区二区| 日韩精品亚洲人成在线观看| 亚洲线精品一区二区三区影音先锋| 日韩精品无码免费视频|