金融行業(yè)風(fēng)險(xiǎn)預(yù)測(cè)模型實(shí)戰(zhàn)培訓(xùn)(2-3天)
2019-02-28 10:23:06 來源: 點(diǎn)擊:
金融行業(yè)風(fēng)險(xiǎn)預(yù)測(cè)模型實(shí)戰(zhàn)【課程目標(biāo)】本課程專注于金融行業(yè)的風(fēng)控模型,面向數(shù)據(jù)分析部等專門負(fù)責(zé)數(shù)據(jù)分析與建模的人士。通過本課程的學(xué)習(xí),達(dá)到如下目的:1、掌握數(shù)據(jù)建模的基本過程和步驟。2、掌握數(shù)據(jù)建模前
金融行業(yè)風(fēng)險(xiǎn)預(yù)測(cè)模型實(shí)戰(zhàn)
【課程目標(biāo)】
本課程專注于金融行業(yè)的風(fēng)控模型,面向數(shù)據(jù)分析部等專門負(fù)責(zé)數(shù)據(jù)分析與建模的人士。
通過本課程的學(xué)習(xí),達(dá)到如下目的:
1、掌握數(shù)據(jù)建模的基本過程和步驟。
2、掌握數(shù)據(jù)建模前的屬性篩選的系統(tǒng)方法,為建模打下基礎(chǔ)。
3、掌握常用的分類預(yù)測(cè)模型,包括邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、判別分析等等,以及分類模型的優(yōu)化。
4、掌握金融行業(yè)信用評(píng)分卡模型,構(gòu)建信用評(píng)分模型。
主要內(nèi)容包括數(shù)據(jù)建模的過程和步驟,以及建模涉及到的分析方法、分析模型,以及模型優(yōu)化等。
本課程突出數(shù)據(jù)挖掘的實(shí)際應(yīng)用,結(jié)合行業(yè)的典型應(yīng)用特點(diǎn),從實(shí)際問題入手,引出相關(guān)知識(shí),進(jìn)行大數(shù)據(jù)的收集與處理;探索數(shù)據(jù)之間的規(guī)律及關(guān)聯(lián)性,幫助學(xué)員掌握系統(tǒng)的數(shù)據(jù)預(yù)處理方法;介紹常用的模型,訓(xùn)練模型,并優(yōu)化模型,以達(dá)到最優(yōu)分析結(jié)果。
【授課時(shí)間】
2-3天時(shí)間
【授課對(duì)象】
業(yè)務(wù)支撐、網(wǎng)絡(luò)中心、IT系統(tǒng)部、數(shù)據(jù)分析部等對(duì)業(yè)務(wù)數(shù)據(jù)分析有較高要求的相關(guān)專業(yè)人員。
【學(xué)員要求】
1、每個(gè)學(xué)員自備一臺(tái)便攜機(jī)(必須)。
2、便攜機(jī)中事先安裝好Office Excel 2013版本及以上。
3、便攜機(jī)中事先安裝好IBM SPSSStatistics v24版本以上軟件。
注:講師可以提供試用版本軟件及分析數(shù)據(jù)源。
【授課方式】
基礎(chǔ)知識(shí)精講+案例演練+ 實(shí)際業(yè)務(wù)問題分析 + SPSS實(shí)際操作
【課程大綱】
Ø 選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
Ø 屬性篩選:選擇對(duì)目標(biāo)變量有顯著影響的屬性來建模
Ø 訓(xùn)練模型:采用合適的算法對(duì)模型進(jìn)行訓(xùn)練,尋找到最合適的模型參數(shù)
Ø 評(píng)估模型:進(jìn)行評(píng)估模型的質(zhì)量,判斷模型是否可用
Ø 優(yōu)化模型:如果評(píng)估結(jié)果不理想,則需要對(duì)模型進(jìn)行優(yōu)化
Ø 應(yīng)用模型:如果評(píng)估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場(chǎng)景
2、 數(shù)據(jù)挖掘常用的模型
Ø 數(shù)值預(yù)測(cè)模型:回歸預(yù)測(cè)、時(shí)序預(yù)測(cè)等
Ø 分類預(yù)測(cè)模型:邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等
Ø 市場(chǎng)細(xì)分:聚類、RFM、PCA等
Ø 產(chǎn)品推薦:關(guān)聯(lián)分析、協(xié)同過濾等
Ø 產(chǎn)品優(yōu)化:回歸、隨機(jī)效用等
Ø 產(chǎn)品定價(jià):定價(jià)策略/最優(yōu)定價(jià)等
3、 屬性篩選/特征選擇/變量降維
Ø 基于變量本身特征
Ø 基于相關(guān)性判斷
Ø 因子合并(PCA等)
Ø IV值篩選(評(píng)分卡使用)
Ø 基于信息增益判斷(決策樹使用)
4、 模型評(píng)估
Ø 模型質(zhì)量評(píng)估指標(biāo):R^2、正確率/查全率/查準(zhǔn)率/特異性等
Ø 預(yù)測(cè)值評(píng)估指標(biāo):MAD、MSE/RMSE、MAPE、概率等
Ø 模型評(píng)估方法:留出法、K拆交叉驗(yàn)證、自助法等
Ø 其它評(píng)估:過擬合評(píng)估
5、 模型優(yōu)化
Ø 優(yōu)化模型:選擇新模型/修改模型
Ø 優(yōu)化數(shù)據(jù):新增顯著自變量
Ø 優(yōu)化公式:采用新的計(jì)算公式
6、 模型實(shí)現(xiàn)算法(暫略)
7、 好模型是優(yōu)化出來的
案例:通信客戶流失分析及預(yù)警模型
比如:價(jià)格是否可用于產(chǎn)品銷量的預(yù)測(cè)?套餐的合理性是否會(huì)影響客戶流失?在欺詐風(fēng)險(xiǎn)中有哪些數(shù)據(jù)會(huì)有異常表現(xiàn)?
1、 屬性篩選/變量降維的常用方法
Ø 基于變量本身特征來選擇屬性
Ø 基于數(shù)據(jù)間的相關(guān)性來選擇屬性
Ø 基于因子合并(如PCA分析)實(shí)現(xiàn)變量的合并
Ø 利用IV值篩選
Ø 基于信息增益來選擇屬性
2、 相關(guān)分析(衡量變量間的線性相關(guān)性)
問題:這兩個(gè)屬性是否會(huì)相互影響?影響程度大嗎?
Ø 相關(guān)分析簡介
Ø 相關(guān)分析的三個(gè)種類
² 簡單相關(guān)分析
² 偏相關(guān)分析
² 距離相關(guān)分析
Ø 相關(guān)系數(shù)的三種計(jì)算公式
² Pearson相關(guān)系數(shù)
² Spearman相關(guān)系數(shù)
² Kendall相關(guān)系數(shù)
Ø 相關(guān)分析的假設(shè)檢驗(yàn)
Ø 相關(guān)分析的四個(gè)基本步驟
演練:年齡和收入的相關(guān)分析
演練:營銷費(fèi)用會(huì)影響銷售額嗎
演練:工作時(shí)間與收入有相關(guān)性嗎
演練:話費(fèi)與網(wǎng)齡的相關(guān)分析
Ø 偏相關(guān)分析
² 偏相關(guān)原理:排除不可控因素后的兩變量的相關(guān)性
² 偏相關(guān)系數(shù)的計(jì)算公式
² 偏相關(guān)分析的適用場(chǎng)景
Ø 距離相關(guān)分析
3、 方差分析(衡量類別變量與數(shù)據(jù)變量的相關(guān)性)
問題:哪些才是影響銷量的關(guān)鍵因素?
Ø 方差分析的應(yīng)用場(chǎng)景
Ø 方差分析的三個(gè)種類
² 單因素方差分析
² 多因素方差分析
² 協(xié)方差分析
Ø 方差分析的原理
Ø 方差分析的四個(gè)步驟
Ø 解讀方差分析結(jié)果的兩個(gè)要點(diǎn)
演練:用戶收入對(duì)銀行欠貸的影響分析
演練:家庭人數(shù)對(duì)銀行欠貸的影響分析
演練:年齡大小對(duì)欠貸有影響嗎
演練:尋找影響貸款風(fēng)險(xiǎn)的關(guān)鍵因素
Ø 多因素方差分析原理
Ø 多因素方差分析的作用
Ø 多因素方差結(jié)果的解讀
演練:廣告形式、地區(qū)對(duì)銷量的影響因素分析(多因素)
Ø 協(xié)方差分析原理
Ø 協(xié)方差分析的適用場(chǎng)景
演練:飼料對(duì)生豬體重的影響分析(協(xié)方差分析)
4、 列聯(lián)分析/卡方檢驗(yàn)(兩類別變量的相關(guān)性分析)
Ø 交叉表與列聯(lián)表
Ø 卡方檢驗(yàn)的原理
Ø 卡方檢驗(yàn)的幾個(gè)計(jì)算公式
Ø 列聯(lián)表分析的適用場(chǎng)景
演練:不同的信用卡類型會(huì)有不同欠貸風(fēng)險(xiǎn)嗎
演練:有無住房對(duì)欠貸的影響分析
案例:行業(yè)/規(guī)模對(duì)風(fēng)控的影響分析
5、 相關(guān)性分析各種方法的適用場(chǎng)景
6、 主成份分析(PCA)
Ø 因子分析的原理
Ø 因子個(gè)數(shù)如何選擇
Ø 如何解讀因子含義
案例:提取影響電信客戶流失的主成分分析
1、 常用的數(shù)值預(yù)測(cè)模型
Ø 回歸預(yù)測(cè)
Ø 時(shí)序預(yù)測(cè)
2、 回歸預(yù)測(cè)/回歸分析
問題:如何預(yù)測(cè)未來的銷售量(定量分析)?
Ø 回歸分析的基本原理和應(yīng)用場(chǎng)景
Ø 回歸分析的種類(一元/多元、線性/曲線)
Ø 得到回歸方程的四種常用方法
² Excel函數(shù)
² 散點(diǎn)圖+趨勢(shì)線
² 線性回歸工具
² 規(guī)范求解
Ø 線性回歸分析的五個(gè)步驟
Ø 回歸方程結(jié)果的解讀要點(diǎn)
Ø 評(píng)估回歸模型質(zhì)量的常用指標(biāo)
Ø 評(píng)估預(yù)測(cè)值的準(zhǔn)確度的常用指標(biāo)
演練:散點(diǎn)圖找推廣費(fèi)用與銷售額的關(guān)系(一元線性回歸)
演練:推廣費(fèi)用、辦公費(fèi)用與銷售額的關(guān)系(多元線性回歸)
演練:讓你的營銷費(fèi)用預(yù)算更準(zhǔn)確
演練:如何選擇最佳的回歸預(yù)測(cè)模型(曲線回歸)
Ø 帶分類變量的回歸預(yù)測(cè)
演練:汽車季度銷量預(yù)測(cè)
演練:工齡、性別與終端銷量的關(guān)系
演練:如何評(píng)估銷售目標(biāo)與資源配置(營業(yè)廳)
3、 自動(dòng)篩選不顯著自變量
Ø 三個(gè)基本概念:總變差、回歸變差、剩余變差
Ø 方程的顯著性檢驗(yàn):是否可以做回歸分析?
Ø 因素的顯著性檢驗(yàn):自變量是否可用?
Ø 擬合優(yōu)度檢驗(yàn):回歸模型的質(zhì)量評(píng)估?
Ø 理解標(biāo)準(zhǔn)誤差的含義:預(yù)測(cè)的準(zhǔn)確性?
2、 回歸模型優(yōu)化思路:尋找最佳回歸擬合線
Ø 如何處理預(yù)測(cè)離群值(剔除離群值)
Ø 如何剔除非顯著因素(剔除不顯著因素)
Ø 如何進(jìn)行非線性關(guān)系檢驗(yàn)(增加非線性自變量)
Ø 如何進(jìn)行相互作用檢驗(yàn)(增加相互作用自變量)
Ø 如何進(jìn)行多重共線性檢驗(yàn)(剔除共線性自變量)
Ø 如何檢驗(yàn)誤差項(xiàng)(修改因變量)
Ø 如何判斷模型過擬合(模型過擬合判斷)
案例:模型優(yōu)化案例
3、 規(guī)劃求解工具簡介
4、 自定義回歸模型(如何利用規(guī)劃求解進(jìn)行自定義模型)
案例:如何對(duì)餐廳客流量進(jìn)行建模及模型優(yōu)化
5、 好模型都是優(yōu)化出來的
1、 分類預(yù)測(cè)模型概述
2、 常見分類預(yù)測(cè)模型
3、 評(píng)估分類模型的常用指標(biāo)
Ø 正確率、查全率/查準(zhǔn)率、特異性等
4、 邏輯回歸分析模型(LR)
問題:如果評(píng)估用戶是否購買產(chǎn)品的概率?
Ø 邏輯回歸模型原理及適用場(chǎng)景
Ø 邏輯回歸的種類
² 二項(xiàng)邏輯回歸
² 多項(xiàng)邏輯回歸
Ø 如何解讀邏輯回歸方程
Ø 帶分類自變量的邏輯回歸分析
Ø 多項(xiàng)邏輯回歸
案例:如何評(píng)估用戶是否會(huì)有違約風(fēng)險(xiǎn)(二項(xiàng)邏輯回歸)
案例:多品牌選擇模型分析(多項(xiàng)邏輯回歸)
5、 決策樹分類(DT)
問題:如何提取客戶流失者、拖欠貨款者的特征?如何預(yù)測(cè)其流失的概率?
Ø 決策樹分類的原理
Ø 決策樹的三個(gè)關(guān)鍵問題
² 如何選擇最佳屬性來構(gòu)建節(jié)點(diǎn)
² 如何分裂變量
² 如何修剪決策樹
Ø 選擇最優(yōu)屬性
² 熵、基尼索引、分類錯(cuò)誤
² 屬性劃分增益
Ø 如何分裂變量
² 多元?jiǎng)澐峙c二元?jiǎng)澐?br /> ² 連續(xù)變量離散化(最優(yōu)劃分點(diǎn))
Ø 修剪決策樹
² 剪枝原則
² 預(yù)剪枝與后剪枝
Ø 構(gòu)建決策樹的四個(gè)算法
² C5.0、CHAID、CART、QUEST
² 各種算法的比較
Ø 如何選擇最優(yōu)分類模型?
案例:識(shí)別銀行欠貨風(fēng)險(xiǎn),提取欠貨者的特征
案例:客戶流失預(yù)警與客戶挽留模型
6、 人工神經(jīng)網(wǎng)絡(luò)(ANN)
Ø 神經(jīng)網(wǎng)絡(luò)概述
Ø 神經(jīng)網(wǎng)絡(luò)基本原理
Ø 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
Ø 神經(jīng)網(wǎng)絡(luò)的建立步驟
Ø 神經(jīng)網(wǎng)絡(luò)的關(guān)鍵問題
Ø BP反向傳播網(wǎng)絡(luò)(MLP)
Ø 徑向基網(wǎng)絡(luò)(RBF)
案例:評(píng)估銀行用戶拖欠貨款的概率
7、 判別分析(DA)
Ø 判別分析原理
Ø 距離判別法
Ø 典型判別法
Ø 貝葉斯判別法
案例:MBA學(xué)生錄取判別分析
案例:上市公司類別評(píng)估
8、 最近鄰分類(KNN)
Ø 基本原理
Ø 關(guān)鍵問題
9、 貝葉斯分類(NBN)
Ø 貝葉斯分類原理
Ø 計(jì)算類別屬性的條件概率
Ø 估計(jì)連續(xù)屬性的條件概率
Ø 貝葉斯網(wǎng)絡(luò)種類:TAN/馬爾科夫毯
Ø 預(yù)測(cè)分類概率(計(jì)算概率)
案例:評(píng)估銀行用戶拖欠貨款的概率
10、 支持向量機(jī)(SVM)
Ø SVM基本原理
Ø 線性可分問題:最大邊界超平面
Ø 線性不可分問題:特征空間的轉(zhuǎn)換
Ø 維空難與核函數(shù)
2、 集成方法的基本原理
Ø 選取多個(gè)數(shù)據(jù)集,構(gòu)建多個(gè)弱分類器
Ø 多個(gè)弱分類器投票決定
3、 集成方法/元算法的種類
Ø Bagging算法
Ø Boosting算法
4、 Bagging原理
Ø 如何選擇數(shù)據(jù)集
Ø 如何進(jìn)行投票
Ø 隨機(jī)森林
5、 Boosting的原理
Ø AdaBoost算法流程
Ø 樣本選擇權(quán)重計(jì)算公式
Ø 分類器投票權(quán)重計(jì)算公式
2、 評(píng)分卡的關(guān)鍵問題
3、 信用評(píng)分卡建立過程
Ø 篩選重要屬性
Ø 數(shù)據(jù)集轉(zhuǎn)化
Ø 建立分類模型
Ø 計(jì)算屬性分值
Ø 確定審批閾值
4、 篩選重要屬性
Ø 屬性分段
Ø 基本概念:WOE、IV
Ø 屬性重要性評(píng)估
5、 數(shù)據(jù)集轉(zhuǎn)化
Ø 連續(xù)屬性最優(yōu)分段
Ø 計(jì)算屬性取值的WOE
6、 建立分類模型
Ø 訓(xùn)練邏輯回歸模型
Ø 評(píng)估模型
Ø 得到字段系數(shù)
7、 計(jì)算屬性分值
Ø 計(jì)算補(bǔ)償與刻度值
Ø 計(jì)算各字段得分
Ø 生成評(píng)分卡
8、 確定審批閾值
Ø 畫K-S曲線
Ø 計(jì)算K-S值
Ø 獲取最優(yōu)閾值
案例:構(gòu)建銀行小額貸款的用戶信用模型
Ø 數(shù)據(jù)集成:多個(gè)數(shù)據(jù)集的合并
Ø 數(shù)據(jù)清理:異常值的處理
Ø 數(shù)據(jù)處理:數(shù)據(jù)篩選、數(shù)據(jù)精簡、數(shù)據(jù)平衡
Ø 變量處理:變量變換、變量派生、變量精簡
Ø 數(shù)據(jù)歸約:實(shí)現(xiàn)降維,避免維災(zāi)難
2、數(shù)據(jù)集成
Ø 外部數(shù)據(jù)讀入:Txt/Excel/SPSS/Database
Ø 數(shù)據(jù)追加(添加數(shù)據(jù))
Ø 變量合并(添加變量)
3、數(shù)據(jù)理解(異常數(shù)據(jù)處理)
Ø 取值范圍限定
Ø 重復(fù)值處理
Ø 無效值/錯(cuò)誤值處理
Ø 缺失值處理
Ø 離群值/極端值處理
Ø 數(shù)據(jù)質(zhì)量評(píng)估
4、數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)處理
Ø 數(shù)據(jù)篩選:數(shù)據(jù)抽樣/選擇(減少樣本數(shù)量)
Ø 數(shù)據(jù)精簡:數(shù)據(jù)分段/離散化(減少變量的取值個(gè)數(shù))
Ø 數(shù)據(jù)平衡:正反樣本比例均衡
5、數(shù)據(jù)準(zhǔn)備:變量處理
Ø 變量變換:原變量取值更新,比如標(biāo)準(zhǔn)化
Ø 變量派生:根據(jù)舊變量生成新的變量
Ø 變量精簡:降維,減少變量個(gè)數(shù)
6、數(shù)據(jù)降維
Ø 常用降維的方法
Ø 如何確定變量個(gè)數(shù)
Ø 特征選擇:選擇重要變量,剔除不重要的變量
² 從變量本身考慮
² 從輸入變量與目標(biāo)變量的相關(guān)性考慮
² 對(duì)輸入變量進(jìn)行合并
Ø 因子分析(主成分分析)
² 因子分析的原理
² 因子個(gè)數(shù)如何選擇
² 如何解讀因子含義
案例:提取影響電信客戶流失的主成分分析
7、數(shù)據(jù)探索性分析
Ø 常用統(tǒng)計(jì)指標(biāo)分析
Ø 單變量:數(shù)值變量/分類變量
Ø 雙變量:交叉分析/相關(guān)性分析
Ø 多變量:特征選擇、因子分析
演練:描述性分析(頻數(shù)、描述、探索、分類匯總)
8、數(shù)據(jù)可視化
Ø 數(shù)據(jù)可視化:柱狀圖、條形圖、餅圖、折線圖、箱圖、散點(diǎn)圖等
Ø 圖形的表達(dá)及適用場(chǎng)景
演練:各種圖形繪制
2、銀行欠貸風(fēng)險(xiǎn)預(yù)測(cè)模型實(shí)戰(zhàn)
3、銀行信用卡評(píng)分模型實(shí)戰(zhàn)
結(jié)束:課程總結(jié)與問題答疑。
【課程目標(biāo)】
本課程專注于金融行業(yè)的風(fēng)控模型,面向數(shù)據(jù)分析部等專門負(fù)責(zé)數(shù)據(jù)分析與建模的人士。
通過本課程的學(xué)習(xí),達(dá)到如下目的:
1、掌握數(shù)據(jù)建模的基本過程和步驟。
2、掌握數(shù)據(jù)建模前的屬性篩選的系統(tǒng)方法,為建模打下基礎(chǔ)。
3、掌握常用的分類預(yù)測(cè)模型,包括邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、判別分析等等,以及分類模型的優(yōu)化。
4、掌握金融行業(yè)信用評(píng)分卡模型,構(gòu)建信用評(píng)分模型。
主要內(nèi)容包括數(shù)據(jù)建模的過程和步驟,以及建模涉及到的分析方法、分析模型,以及模型優(yōu)化等。
本課程突出數(shù)據(jù)挖掘的實(shí)際應(yīng)用,結(jié)合行業(yè)的典型應(yīng)用特點(diǎn),從實(shí)際問題入手,引出相關(guān)知識(shí),進(jìn)行大數(shù)據(jù)的收集與處理;探索數(shù)據(jù)之間的規(guī)律及關(guān)聯(lián)性,幫助學(xué)員掌握系統(tǒng)的數(shù)據(jù)預(yù)處理方法;介紹常用的模型,訓(xùn)練模型,并優(yōu)化模型,以達(dá)到最優(yōu)分析結(jié)果。
【授課時(shí)間】
2-3天時(shí)間
【授課對(duì)象】
業(yè)務(wù)支撐、網(wǎng)絡(luò)中心、IT系統(tǒng)部、數(shù)據(jù)分析部等對(duì)業(yè)務(wù)數(shù)據(jù)分析有較高要求的相關(guān)專業(yè)人員。
【學(xué)員要求】
1、每個(gè)學(xué)員自備一臺(tái)便攜機(jī)(必須)。
2、便攜機(jī)中事先安裝好Office Excel 2013版本及以上。
3、便攜機(jī)中事先安裝好IBM SPSSStatistics v24版本以上軟件。
注:講師可以提供試用版本軟件及分析數(shù)據(jù)源。
【授課方式】
基礎(chǔ)知識(shí)精講+案例演練+ 實(shí)際業(yè)務(wù)問題分析 + SPSS實(shí)際操作
【課程大綱】
第一部分: 數(shù)據(jù)建模基本過程
1、 預(yù)測(cè)建模六步法Ø 選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
Ø 屬性篩選:選擇對(duì)目標(biāo)變量有顯著影響的屬性來建模
Ø 訓(xùn)練模型:采用合適的算法對(duì)模型進(jìn)行訓(xùn)練,尋找到最合適的模型參數(shù)
Ø 評(píng)估模型:進(jìn)行評(píng)估模型的質(zhì)量,判斷模型是否可用
Ø 優(yōu)化模型:如果評(píng)估結(jié)果不理想,則需要對(duì)模型進(jìn)行優(yōu)化
Ø 應(yīng)用模型:如果評(píng)估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場(chǎng)景
2、 數(shù)據(jù)挖掘常用的模型
Ø 數(shù)值預(yù)測(cè)模型:回歸預(yù)測(cè)、時(shí)序預(yù)測(cè)等
Ø 分類預(yù)測(cè)模型:邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等
Ø 市場(chǎng)細(xì)分:聚類、RFM、PCA等
Ø 產(chǎn)品推薦:關(guān)聯(lián)分析、協(xié)同過濾等
Ø 產(chǎn)品優(yōu)化:回歸、隨機(jī)效用等
Ø 產(chǎn)品定價(jià):定價(jià)策略/最優(yōu)定價(jià)等
3、 屬性篩選/特征選擇/變量降維
Ø 基于變量本身特征
Ø 基于相關(guān)性判斷
Ø 因子合并(PCA等)
Ø IV值篩選(評(píng)分卡使用)
Ø 基于信息增益判斷(決策樹使用)
4、 模型評(píng)估
Ø 模型質(zhì)量評(píng)估指標(biāo):R^2、正確率/查全率/查準(zhǔn)率/特異性等
Ø 預(yù)測(cè)值評(píng)估指標(biāo):MAD、MSE/RMSE、MAPE、概率等
Ø 模型評(píng)估方法:留出法、K拆交叉驗(yàn)證、自助法等
Ø 其它評(píng)估:過擬合評(píng)估
5、 模型優(yōu)化
Ø 優(yōu)化模型:選擇新模型/修改模型
Ø 優(yōu)化數(shù)據(jù):新增顯著自變量
Ø 優(yōu)化公式:采用新的計(jì)算公式
6、 模型實(shí)現(xiàn)算法(暫略)
7、 好模型是優(yōu)化出來的
案例:通信客戶流失分析及預(yù)警模型
第二部分: 屬性篩選方法
問題:如何選擇合適的屬性來進(jìn)行建模預(yù)測(cè)?比如:價(jià)格是否可用于產(chǎn)品銷量的預(yù)測(cè)?套餐的合理性是否會(huì)影響客戶流失?在欺詐風(fēng)險(xiǎn)中有哪些數(shù)據(jù)會(huì)有異常表現(xiàn)?
1、 屬性篩選/變量降維的常用方法
Ø 基于變量本身特征來選擇屬性
Ø 基于數(shù)據(jù)間的相關(guān)性來選擇屬性
Ø 基于因子合并(如PCA分析)實(shí)現(xiàn)變量的合并
Ø 利用IV值篩選
Ø 基于信息增益來選擇屬性
2、 相關(guān)分析(衡量變量間的線性相關(guān)性)
問題:這兩個(gè)屬性是否會(huì)相互影響?影響程度大嗎?
Ø 相關(guān)分析簡介
Ø 相關(guān)分析的三個(gè)種類
² 簡單相關(guān)分析
² 偏相關(guān)分析
² 距離相關(guān)分析
Ø 相關(guān)系數(shù)的三種計(jì)算公式
² Pearson相關(guān)系數(shù)
² Spearman相關(guān)系數(shù)
² Kendall相關(guān)系數(shù)
Ø 相關(guān)分析的假設(shè)檢驗(yàn)
Ø 相關(guān)分析的四個(gè)基本步驟
演練:年齡和收入的相關(guān)分析
演練:營銷費(fèi)用會(huì)影響銷售額嗎
演練:工作時(shí)間與收入有相關(guān)性嗎
演練:話費(fèi)與網(wǎng)齡的相關(guān)分析
Ø 偏相關(guān)分析
² 偏相關(guān)原理:排除不可控因素后的兩變量的相關(guān)性
² 偏相關(guān)系數(shù)的計(jì)算公式
² 偏相關(guān)分析的適用場(chǎng)景
Ø 距離相關(guān)分析
3、 方差分析(衡量類別變量與數(shù)據(jù)變量的相關(guān)性)
問題:哪些才是影響銷量的關(guān)鍵因素?
Ø 方差分析的應(yīng)用場(chǎng)景
Ø 方差分析的三個(gè)種類
² 單因素方差分析
² 多因素方差分析
² 協(xié)方差分析
Ø 方差分析的原理
Ø 方差分析的四個(gè)步驟
Ø 解讀方差分析結(jié)果的兩個(gè)要點(diǎn)
演練:用戶收入對(duì)銀行欠貸的影響分析
演練:家庭人數(shù)對(duì)銀行欠貸的影響分析
演練:年齡大小對(duì)欠貸有影響嗎
演練:尋找影響貸款風(fēng)險(xiǎn)的關(guān)鍵因素
Ø 多因素方差分析原理
Ø 多因素方差分析的作用
Ø 多因素方差結(jié)果的解讀
演練:廣告形式、地區(qū)對(duì)銷量的影響因素分析(多因素)
Ø 協(xié)方差分析原理
Ø 協(xié)方差分析的適用場(chǎng)景
演練:飼料對(duì)生豬體重的影響分析(協(xié)方差分析)
4、 列聯(lián)分析/卡方檢驗(yàn)(兩類別變量的相關(guān)性分析)
Ø 交叉表與列聯(lián)表
Ø 卡方檢驗(yàn)的原理
Ø 卡方檢驗(yàn)的幾個(gè)計(jì)算公式
Ø 列聯(lián)表分析的適用場(chǎng)景
演練:不同的信用卡類型會(huì)有不同欠貸風(fēng)險(xiǎn)嗎
演練:有無住房對(duì)欠貸的影響分析
案例:行業(yè)/規(guī)模對(duì)風(fēng)控的影響分析
5、 相關(guān)性分析各種方法的適用場(chǎng)景
6、 主成份分析(PCA)
Ø 因子分析的原理
Ø 因子個(gè)數(shù)如何選擇
Ø 如何解讀因子含義
案例:提取影響電信客戶流失的主成分分析
第三部分: 回歸預(yù)測(cè)模型篇
問題:如何預(yù)測(cè)產(chǎn)品的銷量/銷售金額?如果產(chǎn)品跟隨季節(jié)性變動(dòng),該如何預(yù)測(cè)?新產(chǎn)品上市,如果評(píng)估銷量上限及銷售增速?1、 常用的數(shù)值預(yù)測(cè)模型
Ø 回歸預(yù)測(cè)
Ø 時(shí)序預(yù)測(cè)
2、 回歸預(yù)測(cè)/回歸分析
問題:如何預(yù)測(cè)未來的銷售量(定量分析)?
Ø 回歸分析的基本原理和應(yīng)用場(chǎng)景
Ø 回歸分析的種類(一元/多元、線性/曲線)
Ø 得到回歸方程的四種常用方法
² Excel函數(shù)
² 散點(diǎn)圖+趨勢(shì)線
² 線性回歸工具
² 規(guī)范求解
Ø 線性回歸分析的五個(gè)步驟
Ø 回歸方程結(jié)果的解讀要點(diǎn)
Ø 評(píng)估回歸模型質(zhì)量的常用指標(biāo)
Ø 評(píng)估預(yù)測(cè)值的準(zhǔn)確度的常用指標(biāo)
演練:散點(diǎn)圖找推廣費(fèi)用與銷售額的關(guān)系(一元線性回歸)
演練:推廣費(fèi)用、辦公費(fèi)用與銷售額的關(guān)系(多元線性回歸)
演練:讓你的營銷費(fèi)用預(yù)算更準(zhǔn)確
演練:如何選擇最佳的回歸預(yù)測(cè)模型(曲線回歸)
Ø 帶分類變量的回歸預(yù)測(cè)
演練:汽車季度銷量預(yù)測(cè)
演練:工齡、性別與終端銷量的關(guān)系
演練:如何評(píng)估銷售目標(biāo)與資源配置(營業(yè)廳)
3、 自動(dòng)篩選不顯著自變量
第四部分: 回歸預(yù)測(cè)模型優(yōu)化篇
1、 回歸分析的基本原理Ø 三個(gè)基本概念:總變差、回歸變差、剩余變差
Ø 方程的顯著性檢驗(yàn):是否可以做回歸分析?
Ø 因素的顯著性檢驗(yàn):自變量是否可用?
Ø 擬合優(yōu)度檢驗(yàn):回歸模型的質(zhì)量評(píng)估?
Ø 理解標(biāo)準(zhǔn)誤差的含義:預(yù)測(cè)的準(zhǔn)確性?
2、 回歸模型優(yōu)化思路:尋找最佳回歸擬合線
Ø 如何處理預(yù)測(cè)離群值(剔除離群值)
Ø 如何剔除非顯著因素(剔除不顯著因素)
Ø 如何進(jìn)行非線性關(guān)系檢驗(yàn)(增加非線性自變量)
Ø 如何進(jìn)行相互作用檢驗(yàn)(增加相互作用自變量)
Ø 如何進(jìn)行多重共線性檢驗(yàn)(剔除共線性自變量)
Ø 如何檢驗(yàn)誤差項(xiàng)(修改因變量)
Ø 如何判斷模型過擬合(模型過擬合判斷)
案例:模型優(yōu)化案例
3、 規(guī)劃求解工具簡介
4、 自定義回歸模型(如何利用規(guī)劃求解進(jìn)行自定義模型)
案例:如何對(duì)餐廳客流量進(jìn)行建模及模型優(yōu)化
5、 好模型都是優(yōu)化出來的
第五部分: 分類預(yù)測(cè)模型
問題:如何評(píng)估客戶購買產(chǎn)品的可能性?或者說,影響客戶購買意向的產(chǎn)品關(guān)鍵特性是什么?1、 分類預(yù)測(cè)模型概述
2、 常見分類預(yù)測(cè)模型
3、 評(píng)估分類模型的常用指標(biāo)
Ø 正確率、查全率/查準(zhǔn)率、特異性等
4、 邏輯回歸分析模型(LR)
問題:如果評(píng)估用戶是否購買產(chǎn)品的概率?
Ø 邏輯回歸模型原理及適用場(chǎng)景
Ø 邏輯回歸的種類
² 二項(xiàng)邏輯回歸
² 多項(xiàng)邏輯回歸
Ø 如何解讀邏輯回歸方程
Ø 帶分類自變量的邏輯回歸分析
Ø 多項(xiàng)邏輯回歸
案例:如何評(píng)估用戶是否會(huì)有違約風(fēng)險(xiǎn)(二項(xiàng)邏輯回歸)
案例:多品牌選擇模型分析(多項(xiàng)邏輯回歸)
5、 決策樹分類(DT)
問題:如何提取客戶流失者、拖欠貨款者的特征?如何預(yù)測(cè)其流失的概率?
Ø 決策樹分類的原理
Ø 決策樹的三個(gè)關(guān)鍵問題
² 如何選擇最佳屬性來構(gòu)建節(jié)點(diǎn)
² 如何分裂變量
² 如何修剪決策樹
Ø 選擇最優(yōu)屬性
² 熵、基尼索引、分類錯(cuò)誤
² 屬性劃分增益
Ø 如何分裂變量
² 多元?jiǎng)澐峙c二元?jiǎng)澐?br /> ² 連續(xù)變量離散化(最優(yōu)劃分點(diǎn))
Ø 修剪決策樹
² 剪枝原則
² 預(yù)剪枝與后剪枝
Ø 構(gòu)建決策樹的四個(gè)算法
² C5.0、CHAID、CART、QUEST
² 各種算法的比較
Ø 如何選擇最優(yōu)分類模型?
案例:識(shí)別銀行欠貨風(fēng)險(xiǎn),提取欠貨者的特征
案例:客戶流失預(yù)警與客戶挽留模型
6、 人工神經(jīng)網(wǎng)絡(luò)(ANN)
Ø 神經(jīng)網(wǎng)絡(luò)概述
Ø 神經(jīng)網(wǎng)絡(luò)基本原理
Ø 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
Ø 神經(jīng)網(wǎng)絡(luò)的建立步驟
Ø 神經(jīng)網(wǎng)絡(luò)的關(guān)鍵問題
Ø BP反向傳播網(wǎng)絡(luò)(MLP)
Ø 徑向基網(wǎng)絡(luò)(RBF)
案例:評(píng)估銀行用戶拖欠貨款的概率
7、 判別分析(DA)
Ø 判別分析原理
Ø 距離判別法
Ø 典型判別法
Ø 貝葉斯判別法
案例:MBA學(xué)生錄取判別分析
案例:上市公司類別評(píng)估
8、 最近鄰分類(KNN)
Ø 基本原理
Ø 關(guān)鍵問題
9、 貝葉斯分類(NBN)
Ø 貝葉斯分類原理
Ø 計(jì)算類別屬性的條件概率
Ø 估計(jì)連續(xù)屬性的條件概率
Ø 貝葉斯網(wǎng)絡(luò)種類:TAN/馬爾科夫毯
Ø 預(yù)測(cè)分類概率(計(jì)算概率)
案例:評(píng)估銀行用戶拖欠貨款的概率
10、 支持向量機(jī)(SVM)
Ø SVM基本原理
Ø 線性可分問題:最大邊界超平面
Ø 線性不可分問題:特征空間的轉(zhuǎn)換
Ø 維空難與核函數(shù)
第六部分: 分類模型優(yōu)化篇(集成方法)
1、 分類模型的優(yōu)化思路:利用弱分類器構(gòu)建強(qiáng)分類模型2、 集成方法的基本原理
Ø 選取多個(gè)數(shù)據(jù)集,構(gòu)建多個(gè)弱分類器
Ø 多個(gè)弱分類器投票決定
3、 集成方法/元算法的種類
Ø Bagging算法
Ø Boosting算法
4、 Bagging原理
Ø 如何選擇數(shù)據(jù)集
Ø 如何進(jìn)行投票
Ø 隨機(jī)森林
5、 Boosting的原理
Ø AdaBoost算法流程
Ø 樣本選擇權(quán)重計(jì)算公式
Ø 分類器投票權(quán)重計(jì)算公式
第七部分: 銀行信用評(píng)分卡模型
1、 信用評(píng)分卡模型簡介2、 評(píng)分卡的關(guān)鍵問題
3、 信用評(píng)分卡建立過程
Ø 篩選重要屬性
Ø 數(shù)據(jù)集轉(zhuǎn)化
Ø 建立分類模型
Ø 計(jì)算屬性分值
Ø 確定審批閾值
4、 篩選重要屬性
Ø 屬性分段
Ø 基本概念:WOE、IV
Ø 屬性重要性評(píng)估
5、 數(shù)據(jù)集轉(zhuǎn)化
Ø 連續(xù)屬性最優(yōu)分段
Ø 計(jì)算屬性取值的WOE
6、 建立分類模型
Ø 訓(xùn)練邏輯回歸模型
Ø 評(píng)估模型
Ø 得到字段系數(shù)
7、 計(jì)算屬性分值
Ø 計(jì)算補(bǔ)償與刻度值
Ø 計(jì)算各字段得分
Ø 生成評(píng)分卡
8、 確定審批閾值
Ø 畫K-S曲線
Ø 計(jì)算K-S值
Ø 獲取最優(yōu)閾值
案例:構(gòu)建銀行小額貸款的用戶信用模型
第八部分: 數(shù)據(jù)預(yù)處理篇(了解你的數(shù)據(jù)集)
1、數(shù)據(jù)預(yù)處理的主要任務(wù)Ø 數(shù)據(jù)集成:多個(gè)數(shù)據(jù)集的合并
Ø 數(shù)據(jù)清理:異常值的處理
Ø 數(shù)據(jù)處理:數(shù)據(jù)篩選、數(shù)據(jù)精簡、數(shù)據(jù)平衡
Ø 變量處理:變量變換、變量派生、變量精簡
Ø 數(shù)據(jù)歸約:實(shí)現(xiàn)降維,避免維災(zāi)難
2、數(shù)據(jù)集成
Ø 外部數(shù)據(jù)讀入:Txt/Excel/SPSS/Database
Ø 數(shù)據(jù)追加(添加數(shù)據(jù))
Ø 變量合并(添加變量)
3、數(shù)據(jù)理解(異常數(shù)據(jù)處理)
Ø 取值范圍限定
Ø 重復(fù)值處理
Ø 無效值/錯(cuò)誤值處理
Ø 缺失值處理
Ø 離群值/極端值處理
Ø 數(shù)據(jù)質(zhì)量評(píng)估
4、數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)處理
Ø 數(shù)據(jù)篩選:數(shù)據(jù)抽樣/選擇(減少樣本數(shù)量)
Ø 數(shù)據(jù)精簡:數(shù)據(jù)分段/離散化(減少變量的取值個(gè)數(shù))
Ø 數(shù)據(jù)平衡:正反樣本比例均衡
5、數(shù)據(jù)準(zhǔn)備:變量處理
Ø 變量變換:原變量取值更新,比如標(biāo)準(zhǔn)化
Ø 變量派生:根據(jù)舊變量生成新的變量
Ø 變量精簡:降維,減少變量個(gè)數(shù)
6、數(shù)據(jù)降維
Ø 常用降維的方法
Ø 如何確定變量個(gè)數(shù)
Ø 特征選擇:選擇重要變量,剔除不重要的變量
² 從變量本身考慮
² 從輸入變量與目標(biāo)變量的相關(guān)性考慮
² 對(duì)輸入變量進(jìn)行合并
Ø 因子分析(主成分分析)
² 因子分析的原理
² 因子個(gè)數(shù)如何選擇
² 如何解讀因子含義
案例:提取影響電信客戶流失的主成分分析
7、數(shù)據(jù)探索性分析
Ø 常用統(tǒng)計(jì)指標(biāo)分析
Ø 單變量:數(shù)值變量/分類變量
Ø 雙變量:交叉分析/相關(guān)性分析
Ø 多變量:特征選擇、因子分析
演練:描述性分析(頻數(shù)、描述、探索、分類匯總)
8、數(shù)據(jù)可視化
Ø 數(shù)據(jù)可視化:柱狀圖、條形圖、餅圖、折線圖、箱圖、散點(diǎn)圖等
Ø 圖形的表達(dá)及適用場(chǎng)景
演練:各種圖形繪制
第九部分: 數(shù)據(jù)建模實(shí)戰(zhàn)篇
1、電信業(yè)客戶流失預(yù)警和客戶挽留模型實(shí)戰(zhàn)2、銀行欠貸風(fēng)險(xiǎn)預(yù)測(cè)模型實(shí)戰(zhàn)
3、銀行信用卡評(píng)分模型實(shí)戰(zhàn)
結(jié)束:課程總結(jié)與問題答疑。
上一篇:大數(shù)據(jù)時(shí)代的精準(zhǔn)營銷
下一篇:大數(shù)據(jù)變革與商業(yè)模式創(chuàng)新(1天)

考察研學(xué)聯(lián)系方式/參觀預(yù)約申請(qǐng)
- 聯(lián)系電話:010-52463211
- 聯(lián)系手機(jī):13661395399
- 聯(lián)系人:萬斌老師
考察公開課推薦
- 2025年公開課考察計(jì)劃
- 2025年11月24-25日 對(duì)標(biāo)阿里巴巴&抖音&網(wǎng)易 學(xué)企業(yè)出海營銷實(shí)戰(zhàn)
- 2025年8月21-22日 考察領(lǐng)軍企業(yè)出海秘籍 對(duì)標(biāo)華為、聯(lián)想、傳音 出海實(shí)戰(zhàn)案例
- 2025年5月12-13日 中國企業(yè)出海營銷的制勝之道 考察美的、名創(chuàng)優(yōu)品、希音
- 2025年7月12-13日 北京專場(chǎng) 對(duì)標(biāo)華為、騰訊、京東 學(xué)HRBP如何為業(yè)務(wù)創(chuàng)造價(jià)值
- 2025年3月28-29日 上海專場(chǎng) 對(duì)標(biāo)華為、騰訊學(xué)HRBP如何為業(yè)務(wù)創(chuàng)造價(jià)值
- 2025年2月21-22日 深圳專場(chǎng) 對(duì)標(biāo)華為、騰訊學(xué)HRBP如何為業(yè)務(wù)創(chuàng)造價(jià)值
- 2025年4月21-22日 揭秘品牌背后的創(chuàng)新營銷密碼 對(duì)標(biāo)小紅書、抖音、瑞幸咖啡、東鵬特飲
- 5月19-20日 對(duì)標(biāo)上海星巴克、東鵬特飲、霸王茶姬、泰山原漿 學(xué)習(xí)智慧零售打造
- 2025年4月28-29日 走進(jìn)北京阿里&智譜&京東&華為 對(duì)標(biāo)AI賦能企業(yè)增長的新紀(jì)元