<dfn id="w48us"></dfn><ul id="w48us"></ul>
  • <ul id="w48us"></ul>
  • <del id="w48us"></del>
    <ul id="w48us"></ul>
  • 阿里巴巴數據分析師實習筆試題

    時間:2022-11-13 06:01:11 筆試題目 我要投稿
    • 相關推薦

    阿里巴巴數據分析師實習筆試題

      一、異常值是指什么?請列舉1種識別連續型變量異常值的方法?

    阿里巴巴數據分析師實習筆試題

      參考答案:

      異常值(Outlier) 是指樣本中的個別值,其數值明顯偏離所屬樣本的其余觀測值。在數理統計里一般是指一組觀測值中與平均值的偏差超過兩倍標準差的測定值。

      Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一種用于單變量數據集異常值識別的統計檢測,它假定數據集來自正態分布的總體。

      未知總體標準差σ,在五種檢驗法中,優劣次序為:t檢驗法、格拉布斯檢驗法、峰度檢驗法、狄克遜檢驗法、偏度檢驗法。

      二、什么是聚類分析?聚類算法有哪幾種?請選擇一種詳細描述其計算原理和步驟。

      參考答案:

      聚類分析(cluster analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析也叫分類分析(classification analysis)或數值分類(numerical taxonomy)。聚類與分類的不同在于,聚類所要求劃分的類是未知的。

      聚類分析計算方法主要有:層次的方法(hierarchical method)、劃分方法(partitioning method)、基于密度的方法(density-based method)、基于網格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前兩種算法是利用統計學定義的距離進行度量。

      k-means 算法的工作過程說明如下:首先從n個數據對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數. k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。

      其流程如下:

      (1)從 n個數據對象任意選擇 k 個對象作為初始聚類中心;

      (2)根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分;

      (3)重新計算每個(有變化)聚類的均值(中心對象);

      (4)循環(2)、(3)直到每個聚類不再發生變化為止(標準測量函數收斂)。

      優點:本算法確定的K 個劃分到達平方誤差最小。當聚類是密集的,且類與類之間區別明顯時,效果較好。對于處理大數據集,這個算法是相對可伸縮和高效的,計算的復雜度為 O(NKt),其中N是數據對象的數目,t是迭代的次數。一般來說,K<

      缺點:1. K 是事先給定的,但非常難以選定;2. 初始聚類中心的選擇對聚類結果有較大的影響。

      三、根據要求寫出SQL

      表A結構如下:

      Member_ID (用戶的ID,字符型)

      Log_time (用戶訪問頁面時間,日期型(只有一天的數據))

      URL (訪問的頁面地址,字符型)

      要求:提取出每個用戶訪問的第一個URL(按時間最早),形成一個新表(新表名為B,表結構和表A一致)

      參考答案:

      create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;

      四、銷售數據分析

      以下是一家B2C電子商務網站的一周銷售數據,該網站主要用戶群是辦公室女性,銷售額主要集中在5種產品上,如果你是這家公司的分析師,

      a) 從數據中,你看到了什么問題?你覺得背后的原因是什么?

      b) 如果你的老板要求你提出一個運營改進計劃,你會怎么做?

      表如下:一組每天某網站的銷售數據

    日期 9月6日
    (周一)
    9月7日 9月8日 9月9日 9月10日 9月11日
    (周六)
    9月12日
    (周日)
    銷售額 5,061 5,050 5,022 5,097 5,045 3,430 3,053

      參考答案:

      a) 從這一周的數據可以看出,周末的銷售額明顯偏低。這其中的原因,可以從兩個角度來看:站在消費者的角度,周末可能不用上班,因而也沒有購買該產品的欲望;站在產品的角度來看,該產品不能在周末的時候引起消費者足夠的注意力。

      b) 針對該問題背后的兩方面原因,我的運營改進計劃也分兩方面:一是,針對消費者周末沒有購買欲望的心理,進行引導提醒消費者周末就應該準備好該產品;二是,通過該產品的一些類似于打折促銷等活動來提升該產品在周末的人氣和購買力。

      五、用戶調研

      某公司針對A、B、C三類客戶,提出了一種統一的改進計劃,用于提升客戶的周消費次數,需要你來制定一個事前試驗方案,來支持決策,請你思考下列問題:

      a) 試驗需要為決策提供什么樣的信息?

      c) 按照上述目的,請寫出你的數據抽樣方法、需要采集的數據指標項,以及你選擇的統計方法。

      a) 試驗要能證明該改進計劃能顯著提升A、B、C三類客戶的周消費次數。

      b) 根據三類客戶的數量,采用分層比例抽樣;

      需要采集的數據指標項有:客戶類別,改進計劃前周消費次數,改進計劃后周消費次數;

      選用統計方法為:分別針對A、B、C三類客戶,進行改進前和后的周消費次數的,兩獨立樣本T-檢驗

    【阿里巴巴數據分析師實習筆試題】相關文章:

    阿里巴巴南京數據分析筆試題11-21

    阿里巴巴非技術類筆經及試題08-13

    阿里巴巴筆試題02-09

    阿里巴巴筆試題08-10

    阿里巴巴的Oracle筆試題12-11

    阿里巴巴筆試題201502-19

    數據分析師崗位職責08-12

    數據分析師職業規劃11-25

    阿里巴巴校招筆試題,試題分享02-25

    2013阿里巴巴筆試試題03-27

    主站蜘蛛池模板: 久久精品视屏| 人妻熟妇乱又伦精品视频| 四虎成人精品| 国产精品福利在线观看| 手机日韩精品视频在线看网站| 国产精品日本欧美一区二区| 亚洲精品国产高清嫩草影院| 一区二区三区精品国产欧美| 久久久精品人妻一区二区三区蜜桃 | 久久99国产精品尤物| 久久精品国产亚洲Aⅴ香蕉| 国产精品视频a播放| 久久久久国产精品熟女影院 | 四虎成人www国产精品| 精品久久久久久久久午夜福利| 久久精品国产精品亚洲下载| 99爱在线视频这里只有精品| 国产91精品在线| 久久国产精品成人片免费| 最新在线精品国自av| 精品久久人人做人人爽综合| 国产成人精品怡红院在线观看| 国产精品毛片久久久久久久 | 国产成人精品无码播放| 四虎国产精品永久在线看| 久久精品人妻一区二区三区| 人精品影院| 久久香蕉国产线看观看精品yw| 亚洲欧美精品一区久久中文字幕| 国内精品久久久久久久久| 欧美亚洲国产成人精品| 麻豆精品久久精品色综合| 国产精品大白天新婚身材| 国产成人精品日本亚洲| 精品久久无码中文字幕| 精品日韩亚洲AV无码| 久久久久久国产精品免费无码 | 99精品国产成人一区二区| 欧美精品亚洲精品日韩| 国产精品视频久久久| 九九在线精品视频专区|