av无码专区精品无码|亚洲日韩久久无码自慰|91人国产精品亚洲播放|一本清日本在线视频精品|亚洲精品第一国产综合精品|琪琪精品免费一区二区三区|国精产品蘑菇一区一区有限|国产成人精品无码一区二区老年人

用戶增長分析:如何做用戶分群?!

2021-02-22 12:48:22  閱讀:-  來源:

導(dǎo)語在產(chǎn)品的增長分析當(dāng)中,想關(guān)注符合某些條件的一部分用戶,不僅想知道這些人的整體行為(訪問次數(shù),訪問時(shí)長等),還希望知道其中差異較大的細(xì)分群體。用戶分群方法,能幫助我們對(duì)差異較大的群體分別進(jìn)行深入分析,從而探究指標(biāo)數(shù)字背后的原因,探索實(shí)現(xiàn)用戶增長的途徑。

一、用戶分群的應(yīng)用場(chǎng)景

在日常的數(shù)據(jù)工作中,我們經(jīng)常接到這樣的需求:想關(guān)注符合某些條件的一部分用戶,不僅想知道這些人的整體行為(訪問次數(shù),訪問時(shí)長等),還希望知道具體是哪些人符合這些條件。然后查看這些人的數(shù)據(jù)導(dǎo)出用戶名單,針對(duì)性的發(fā)送tips消息。有時(shí)還想進(jìn)一步查看某些人在使用某功能上的具體操作行為。用戶分群,就是用來滿足這類需求的工具方法,它能幫助我們對(duì)差異較大的群體分別進(jìn)行深入分析,從而探究指標(biāo)數(shù)字背后的原因,探索實(shí)現(xiàn)用戶增長的途徑。

如用戶畫像分群,核心價(jià)值在于精細(xì)化的定位人群特征,挖掘潛在的用戶群體。使網(wǎng)站、廣告主、企業(yè)及廣告公司充分認(rèn)知群體用戶的差異化特征,根據(jù)群體的差異化特征,幫助客戶找到營銷機(jī)會(huì)、運(yùn)營方向,全面提高客戶的核心影響力。

二、用戶分群

用戶增長分析:如何做用戶分群?

圖1:用戶分群的5個(gè)類型

類型一:不分群,如全量活躍用戶投放,群發(fā)短信等,缺點(diǎn)是沒有針對(duì)性,容易引起用戶反感。

類型二:用戶基本信息分群,如根據(jù)用戶注冊(cè)的信息分群。相比不分群,這種方法已具備一定的針對(duì)性, 但是由于對(duì)用戶不是真正了解,產(chǎn)生不了很好的結(jié)果預(yù)期。

類型三:用戶畫像分群,如年齡、性別、地域、用戶偏好等,畫像建設(shè)的焦點(diǎn)是為用戶群打“標(biāo)簽”,一個(gè)標(biāo)簽通常是人為規(guī)定的高度精煉的特征標(biāo)識(shí),最后將用戶分群的標(biāo)簽綜合,即可勾勒出該用戶群的立體“畫像”。畫像分群讓我們真正了解了用戶的某些特征,對(duì)業(yè)務(wù)推廣幫助很大。

類型四:根據(jù)用戶行為進(jìn)行分群,此階段會(huì)在畫像分群的基礎(chǔ)上關(guān)注用戶的行為特征, 如根據(jù)用戶的注冊(cè)渠道和活躍習(xí)慣,制定不同的營銷推廣策略。

類型五:聚類和預(yù)測(cè)建模分群,聚類建??梢愿鶕?jù)用戶的綜合特征指標(biāo),將用戶分為不同的群體,如將用戶劃分為娛樂型、掛機(jī)型、社交型、辦公型等;預(yù)測(cè)建模即嘗試去猜測(cè)用戶下一步的態(tài)度與行為(例如想知道什么,想做什么)。正因如此,它對(duì)將復(fù)雜的行為過程變?yōu)闋I銷自動(dòng)化,是十分有幫助的。

三、常見的用戶分群維度

1. 統(tǒng)計(jì)指標(biāo):年齡,性別,地域

2. 付費(fèi)狀態(tài):免費(fèi),試用,付費(fèi)用戶

3. 購買歷史:未付費(fèi)用戶,一次付費(fèi)用戶,多次付費(fèi)用戶

4. 訪問位置:用戶使用產(chǎn)品的區(qū)域位置

5. 使用頻率:用戶使用產(chǎn)品的頻率

6. 使用深度:輕度,中度,重度用戶

7. 廣告點(diǎn)擊:用戶點(diǎn)擊了廣告 vs 未點(diǎn)擊廣告

四、常用的聚類分群方法介紹

上面介紹了一些關(guān)于分群的方法和思路, 接下來重點(diǎn)講解一下用戶聚類分群,聚類分群可分為層次聚類(合并法,分解法,樹狀圖)和非層次聚類(劃分聚類,譜聚類等),而較常用的互聯(lián)網(wǎng)用戶聚類方法為K-means聚類方法和兩步聚類法(均為劃分聚類) 。

聚類分析的特征:

  1. 簡單、直觀;
  2. 主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者 的主觀判斷和后續(xù)的分析;
  3. 不管實(shí)際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到若干類別的解;
  4. 聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對(duì)最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響。
  5. 研究者在使用聚類分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。
  6. 異常值和特殊的變量對(duì)聚類有較大影響
  7. 當(dāng)分類變量的測(cè)量尺度不一致時(shí),需要事先做標(biāo)準(zhǔn)化處理。

聚類分析的弱點(diǎn):

  1. 聚類是一種無監(jiān)督類分析方法,無法自動(dòng)發(fā)現(xiàn)應(yīng)該分成多少個(gè)類;
  2. 期望能很清楚的找到大致相等的類或細(xì)分市場(chǎng)是不現(xiàn)實(shí)的;
  3. 樣本聚類,變量之間的關(guān)系需要研究者決定;
  4. 不會(huì)自動(dòng)給出一個(gè)最佳聚類結(jié)果。

聚類分析的應(yīng)用過程:

(1)選擇聚類變量

在選取特征的時(shí)候,我們會(huì)根據(jù)一定的假設(shè),盡可能選取對(duì)產(chǎn)品使用行為有影響的變量,這些變量一般包含與產(chǎn)品密切相關(guān)的用戶態(tài)度、觀點(diǎn)、行為。但是,聚類分析過程對(duì)用于聚類的變量還有一定的要求: 1.這些變量在不同研究對(duì)象上的值具有明顯差異;2.這些變量之間不能存在高度相關(guān)。

首先,用于聚類的變量數(shù)目不是越多越好,沒有明顯差異的變量對(duì)聚類沒有起到實(shí)質(zhì)意義,而且可能使結(jié)果產(chǎn)生偏差;其次,高度相關(guān)的變量相當(dāng)于給這些變量進(jìn)行了加權(quán),等于放大了某方面因素對(duì)用戶分類的作用。 識(shí)別合適的聚類變量的方法:1.對(duì)變量做聚類分析,從聚得的各類中挑選出一個(gè)有代表性的變量;2.做主成份分析或因子分析,產(chǎn)生新的變量作為聚類變量。

(2)聚類分析

相對(duì)于聚類前的準(zhǔn)備工作,真正的執(zhí)行過程顯得異常簡單。數(shù)據(jù)準(zhǔn)備好后,導(dǎo)入到統(tǒng)計(jì)工具中跑一下,結(jié)果就出來了。這里面遇到的一個(gè)問題是,把用戶分成多少類合適?通常,可以結(jié)合幾個(gè)標(biāo)準(zhǔn)綜合判斷: 1.看拐點(diǎn)(層次聚類會(huì)出來聚合系數(shù)圖,一般選擇拐點(diǎn)附近的幾個(gè)類別);2.憑經(jīng)驗(yàn)或產(chǎn)品特性判斷(不同產(chǎn)品的用戶差異性也不同);3.在邏輯上能夠清楚地解釋。

用戶增長分析:如何做用戶分群?

圖2:聚合系數(shù)圖

(3)找出各類用戶的重要特征

確定一種分類方案之后,接下來,我們需要返回觀察各類別用戶在各個(gè)變量上的表現(xiàn)。根據(jù)差異檢驗(yàn)的結(jié)果,我們以顏色區(qū)分出不同類用戶在這項(xiàng)指標(biāo)上的水平高低。其他變量以此類推。最后,我們會(huì)發(fā)現(xiàn)不同類別用戶有別于其他類別用戶的重要特征。

(4)聚類解釋和命名

在理解和解釋用戶分類時(shí),最好可以結(jié)合更多的數(shù)據(jù),例如,人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、功能偏好數(shù)據(jù)等等。然后,選取每一類別最明顯的幾個(gè)特征為其命名,大功告成。

五、K-means聚類在用戶分群中的應(yīng)用案例

在本案例中,我們首先來看最常用的K-Means聚類法(也叫快速聚類法),這是非層次聚類法當(dāng)中最常用的一種。因其簡單直觀的計(jì)算方法和比較快的速度(相對(duì)層次聚類法而言),進(jìn)行探索性分析時(shí),K-Means往往是第一個(gè)采用的算法。并且,由于其廣泛被采用,在協(xié)作溝通時(shí)也節(jié)省了不少用于解釋的時(shí)間成本。

1. K-means的算法原理:

  1. 隨機(jī)取k個(gè)元素,作為k個(gè)簇各自的中心。
  2. 計(jì)算剩下的元素到k個(gè)簇中心的相似度,將這些元素分別劃歸到相似度最高的簇。
  3. 根據(jù)聚類結(jié)果,重新計(jì)算k個(gè)簇各自的中心,計(jì)算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)。
  4. 將全部元素按照新的中心重新聚類。
  5. 重復(fù)第4步,直到聚類結(jié)果不再變化,然后結(jié)果輸出。

假設(shè)我們提取到原始數(shù)據(jù)的集合為(X1, X2, …, Xn),并且每個(gè)Xi為d維的向量, K-means聚類的目的就是,在給定分類組數(shù)k(k ≤ n)值的條件下,將原始數(shù)據(jù)分成k類,S = {S1, S2, …, Sk},在數(shù)值模型上,即對(duì)以下表達(dá)式求最小值(μi 表示分類Si 的平均值):

用戶增長分析:如何做用戶分群?

2. 用戶分群背景和目標(biāo):

某產(chǎn)品覆蓋社會(huì)各種群體(不同年齡、不同行業(yè)、不同興趣等),需要將大盤用戶進(jìn)行一定細(xì)分,然后針對(duì)性的開展運(yùn)營活動(dòng)。

3. 聚類變量選取:

用戶畫像特征、用戶狀態(tài)特征、用戶活躍特征

4. 聚類分析和結(jié)果:

通過相關(guān)性分析和變量重要性分析,剔除部分效果差的變量,然后對(duì)剩余11個(gè)變量進(jìn)行多次訓(xùn)練(目標(biāo)聚類個(gè)數(shù),參與的變量,組內(nèi)個(gè)體差異容忍度),最終得出聚類結(jié)果

用戶增長分析:如何做用戶分群?

用戶增長分析:如何做用戶分群?

圖3:用戶分群K-means聚類效果

5. 結(jié)果解讀和命名:

聚類1:低端低齡群體

聚類2:學(xué)生活躍群體

聚類3:職場(chǎng)高粘性群體

聚類4:職場(chǎng)低粘性群體

聚類5:高齡低活躍群體

用戶增長分析:如何做用戶分群?

表2:用戶分群K-mean聚類結(jié)果

六、兩步聚類和k-means聚類的效果對(duì)比

前面談到的K-Means聚類法有簡單、直觀和快速的優(yōu)點(diǎn)。但是其缺點(diǎn)是只能采用數(shù)值型變量,不能包含類別變量,并且對(duì)異常值非常敏感,離群值很容易嚴(yán)重影響聚類結(jié)果。并且,當(dāng)數(shù)據(jù)集比較大(在騰訊,這種情況很常見),不能把所有數(shù)據(jù)點(diǎn)都裝進(jìn)內(nèi)存的時(shí)候,K-Means就無法在單機(jī)上運(yùn)行。而兩步聚類法則克服了以上缺點(diǎn),可以包含類別變量和數(shù)值型變量,并且當(dāng)硬件條件不足或數(shù)據(jù)集非常大時(shí),都能順利運(yùn)行。這種兩步聚類法可以看成是改進(jìn)版BIRCH聚類算法和層次聚類法的結(jié)合,先用BIRCH算法中的“聚類特征樹”做預(yù)聚類,形成子類,然后把子類作為輸入,做層次聚類。

1. 兩步聚類的原理:

第一步:預(yù)聚類過程:

構(gòu)建聚類特征樹(CFT),分成很多子類。

開始時(shí),把某個(gè)觀測(cè)量放在樹的根節(jié)點(diǎn)處,它記錄有該觀測(cè)量的變量信息,然后根據(jù)指定的距離測(cè)度作為相似性依據(jù),使每個(gè)后續(xù)觀測(cè)量根據(jù)它與已有節(jié)點(diǎn)的相似性,放到最相似的節(jié)點(diǎn)中,如果沒有找到某個(gè)相似性的節(jié)點(diǎn),就為它形成一個(gè)新的節(jié)點(diǎn)。在這一步當(dāng)中,離群點(diǎn)將會(huì)被識(shí)別并剔除,不會(huì)像在K-Means當(dāng)中那么容易地影響結(jié)果。

第二步:正式聚類:

將第一步完成的預(yù)聚類作為輸入,對(duì)之使用分層聚類的方法進(jìn)行再聚類(以對(duì)數(shù)似然函數(shù)作為距離的度量)。每一個(gè)階段,利用施瓦茲貝葉斯信息準(zhǔn)則(BIC)評(píng)價(jià)現(xiàn)有分類是否適合現(xiàn)有數(shù)據(jù),

并在最后給出符合準(zhǔn)則的分類方案。

2. 兩步聚類的優(yōu)點(diǎn):

1.海量數(shù)據(jù)處理;

2.自動(dòng)標(biāo)準(zhǔn)化數(shù)據(jù);

3.能夠處理分類變量和連續(xù)變量的混合數(shù)據(jù);

4.可自動(dòng)丟棄異常值或者將異常值歸入最近的類。

5.可自動(dòng)確定或者根據(jù)業(yè)務(wù)需要人工指定分類數(shù)目;

3. 兩步聚類的效果對(duì)比:

對(duì)第六點(diǎn)同樣的數(shù)據(jù)進(jìn)行兩步聚類,得到模型最優(yōu)結(jié)果如下

用戶增長分析:如何做用戶分群?

用戶增長分析:如何做用戶分群?

圖4:用戶分群兩步聚類效果

4. 兩步聚類結(jié)果解讀:

聚類1:低端低齡群體

聚類2:學(xué)生或新入職場(chǎng)高活躍群體

聚類3:青年低活躍群體

聚類4:青年掛機(jī)群體

聚類5:職場(chǎng)辦公群體

聚類6:高齡低活躍群體

用戶增長分析:如何做用戶分群?

表3:用戶分群兩步聚類結(jié)果

七、業(yè)務(wù)案例 – 通過K-Means聚類,挖掘特殊行為模式的客戶群

1. 業(yè)務(wù)需求

在本案中,產(chǎn)品經(jīng)理希望了解登錄不活躍用戶的行為模式,并且能針對(duì)不同的行為組合,對(duì)龐大的用戶群體進(jìn)行細(xì)分,從而關(guān)注不同群體的不同需求,甚至挖掘垂直領(lǐng)域需求,從而在產(chǎn)品或運(yùn)營側(cè)采取措施,拉活沉默用戶,提高DAU。

2. 分析目標(biāo)

  1. 發(fā)現(xiàn)使用行為模式異于大盤典型用戶的細(xì)分群體
  2. 粗估每個(gè)細(xì)分群體的用戶數(shù)量
  3. 了解每個(gè)細(xì)分群體的行為特征和用戶畫像
  4. 基于上述結(jié)果,在拉活方面,提出產(chǎn)品或運(yùn)營建議或明確進(jìn)一步探索的方向

3. 分析過程

a) 特征提取

分析聚焦于用戶的點(diǎn)擊行為。在本例中,考慮到用戶行為的典型性,選取了4個(gè)完整的周,共28天的數(shù)據(jù),并且時(shí)間窗當(dāng)中無任何節(jié)日。另外,考慮到計(jì)算性能和探索性分析需要反復(fù)迭代的場(chǎng)景,只從大盤當(dāng)中隨機(jī)抽取千份之一的用戶作為代表。

b) 特征篩選

在特征提取階段一共提取了接近200個(gè)功能點(diǎn)的點(diǎn)擊數(shù)據(jù)。但是這些特征當(dāng)中,有些覆蓋面非常低,只有百份之一的用戶在28天當(dāng)中曾經(jīng)使用,這些低覆蓋的特征會(huì)首先被去除。

另外,前面談到高度相關(guān)的變量也會(huì)干擾聚類過程,這里對(duì)所有特征對(duì)兩兩進(jìn)行計(jì)算皮爾遜相關(guān)系數(shù),對(duì)高相關(guān)特征(相關(guān)系數(shù)大于0.5)則只保留其中保留覆蓋面最廣的特征,以便最大限度地體現(xiàn)用戶差異。

c) 特征改造-探索

經(jīng)過上面兩步后,筆者曾進(jìn)行過多次聚類探索,但無一例外,聚類結(jié)果都呈現(xiàn)出一個(gè)超級(jí)大類搭配數(shù)十個(gè)非常小的小類(幾個(gè)或十幾個(gè)用戶)。這樣的結(jié)果,顯然與我們的分析目標(biāo)是想違背的。其一,這里挖掘出的小群體體積太小,從業(yè)務(wù)角度來說沒有價(jià)值;其二,超級(jí)大類基本等同與大盤用戶,沒有能找出其中的用戶差異。

為什么會(huì)有這樣的結(jié)果呢,主要是因?yàn)辄c(diǎn)擊行為基本上遵循的是冪率分布,大量用戶集中在低頻次區(qū)間,而極少量用戶卻會(huì)有極高的頻次,這樣在典型的聚類算法中,高頻次用戶都會(huì)被聚集成人數(shù)極少的小類,而大量的低頻詞用戶就會(huì)被聚集成一個(gè)超級(jí)大類。

用戶增長分析:如何做用戶分群?

圖5:點(diǎn)擊行為分布

用戶增長分析:如何做用戶分群?

圖6:點(diǎn)擊行為數(shù)K-Means聚類示意圖

對(duì)于這種情況,典型的解決方法是對(duì)頻次取對(duì)數(shù),使冪率分布轉(zhuǎn)化為近似的正態(tài)分布再進(jìn)行聚類,在本次研究中,取自然對(duì)數(shù)后,聚類效果僅有少量改善,但仍然停留在一個(gè)超級(jí)大類加上若干人數(shù)極少的小類的情況。背后原因,是點(diǎn)擊行為數(shù)據(jù)的特點(diǎn)之一:核心功能和熱門項(xiàng)目點(diǎn)擊人數(shù)極多,而相對(duì)冷門的功能則有大量的0值。這樣的情況下,取對(duì)數(shù)是沒有改善的。

用戶增長分析:如何做用戶分群?

圖7:打開次數(shù)分布

用戶增長分析:如何做用戶分群?

圖8:打開次數(shù)分布(自然對(duì)數(shù)變換)

回到本次分析的目標(biāo)當(dāng)中,我們需要“發(fā)現(xiàn)使用行為模式異于大盤典型用戶的細(xì)分群體”,如果丟棄這些冷門功能只看熱門選項(xiàng),則無法找出一些相對(duì)小眾的行為模式達(dá)成分析目標(biāo)。而這種數(shù)值稀疏的情況則讓筆者想起了文本分類。在文本分類的詞袋模型當(dāng)中,每個(gè)“文檔“的詞向量同樣存在大量的0值,詞袋模型的解決方法是對(duì)詞向量用TF-IDF方法進(jìn)行加權(quán)。下面簡單介紹這種方法

d) 特征改造-TF-IDF

在文本分類的詞袋模型當(dāng)中,需要將一篇篇“文檔”(Document)(例如一篇新聞,一條微博,一條說說)按照其討論的主題聚合在一起,而一篇文檔里面有很多詞(Term)。TF(Term Frequency 詞頻率)就是指一個(gè)詞在一篇文檔里的出現(xiàn)次數(shù)在整篇文檔總詞數(shù)當(dāng)中的占比,這樣簡單的計(jì)算就知道一篇文檔中什么詞更多,而不會(huì)受到文檔本身長度的影響。

另一方面,有些詞是是什么文章都會(huì)用的“大眾”詞,這些詞對(duì)于文章主題的分辨是沒什么幫助的(例如新聞當(dāng)中的“報(bào)道”“記者”等等)。對(duì)于這樣的“大眾”詞,就要降低他的權(quán)重,所以可以通過(文檔總數(shù)/含有某個(gè)詞的文檔數(shù))這樣的計(jì)算達(dá)到目的,每篇文章都有的詞權(quán)重會(huì)取0,包含的文檔數(shù)越少,數(shù)值越大。這計(jì)算就是IDF(Inverse Document Frequency 逆文檔頻率)。

按照上面的討論,讀者可能已經(jīng)想到了,如果把“文檔”的概念變?yōu)椤坝脩簟?,把“詞的出現(xiàn)次數(shù)”替換為“功能的點(diǎn)擊次數(shù)“,就正好可以用來把用戶行為的類型進(jìn)行分類。首先是低頻率用戶的功能偏好會(huì)通過TF的計(jì)算得到反映,不會(huì)因?yàn)榭傮w上用得少在與高頻用戶的對(duì)比當(dāng)中被籠統(tǒng)歸為一個(gè)低頻用戶的類。同時(shí)IDF也讓一些小眾功能有更大的權(quán)重,更容易在聚類中突出小眾偏好。

用戶增長分析:如何做用戶分群?

e) 聚類結(jié)果

通過這樣的特征改造,再用K-Means算法進(jìn)行聚類,得出的結(jié)果就比較符合分析目標(biāo)了,從大盤數(shù)據(jù)中,我們找到了各種具有鮮明行為特色的群體,并且初略估計(jì)出了各個(gè)群體的大小,行為特征和背景特征。并在此基礎(chǔ)上結(jié)合用戶研究數(shù)據(jù)去探索產(chǎn)品改進(jìn)的建議。

八、小結(jié)

用戶分群對(duì)于用戶數(shù)據(jù)研究領(lǐng)域最大的改變,在于打破數(shù)據(jù)孤島并真實(shí)了解用戶。分析某個(gè)指標(biāo)數(shù)字背后的用戶具備哪些特征(他們的人群屬性、行為特點(diǎn)等),進(jìn)而發(fā)現(xiàn)產(chǎn)品問題背后的原因,并從中發(fā)現(xiàn)產(chǎn)品有效改進(jìn)提升的機(jī)會(huì)或方向。

在進(jìn)行聚類分析時(shí),特征的選擇和準(zhǔn)備非常重要:1. 合適的變量在各個(gè)樣本之類需要有明顯差異;2.變量之間不能有強(qiáng)相關(guān)關(guān)系,否則需要用PCA等方法先進(jìn)行降維;3.需要根據(jù)數(shù)據(jù)本身的特點(diǎn)和業(yè)務(wù)特性對(duì)數(shù)據(jù)進(jìn)行變換(如標(biāo)準(zhǔn)化,取對(duì)數(shù)等);

而聚類算法的選擇則需要結(jié)合數(shù)據(jù)特點(diǎn)(是否有變量,離群值,數(shù)據(jù)量,是否成簇狀),以及計(jì)算速度(探索性分析往往需要較快的計(jì)算速度),精確度(能否精確識(shí)別出群落)等方面去選擇合適的算法。對(duì)算法中的參數(shù),例如K-Means當(dāng)中的類別數(shù)K,則需要結(jié)合技術(shù)指標(biāo)和業(yè)務(wù)背景,選取邏輯上說得通的分類方案。

聚類算法有非常多,各有其特點(diǎn)和擅長的地方,本文僅舉其中兩個(gè)較常用的方法為例,拋磚引玉,希望對(duì)讀者有所啟發(fā)。

作者:騰訊QQ大數(shù)據(jù)