数据分析理论-笔记

数据分析的作用

  • 现状分析,查看整体状况和构成,对指标进行同比环比评判好差。通过日报、周报、月报等报表实现。
  • 原因分析,指标为什好,为什么差,一般通过专题分析完成。
  • 预测分析,预测未来发生什么,指标变大还是小,具体多少,一般通过专题分析完成,用于制定计划。

数据分析分析什么

  • 总体概览指标,也成关键性指标,反映某时间段内某项业务某指标的绝对量。如销售额、购买人数。
  • 对比性指标,说明现象之间数量对比关系,常见如同比、环比、差。
  • 集中趋势指标,反映某一现象在一定时间内所达到的一般水平。通常用平均指标表示,包括数值平均、位置平均、众数、中位数。
  • 离散程度指标,是表示分布波动情况的指标,包括极差、方差、标准差。
  • 相关性指标,反映两个变量之间的关系,通常用相关系数r表示。r = 协方差 / 标准差之积。相关不代表因果。

数据分析常规流程

  • 熟悉工具,工欲善其事必先利其器。
  • 明确目的,明确诉求,有的放矢,提出问题。
  • 获取数据,明确需要的指标、数据时间段范围等。
  • 熟悉数据,有多少数据,指标有哪些值,是否可满足需求。
  • 处理数据,处理特殊数据,如重复值、缺失值、测试数据、异常数据等。
  • 分析数据,通常采用下钻法。如发现销量上涨/下滑,可以看哪个地区销量上涨/下滑,进而查看哪个品类、哪个产品销量上涨/下滑,层层下钻找到问题原因。
  • 得出结论,既分析数据的结果。
  • 验证结论,验证结论是否正确。
  • 展示结论,通常用到数据可视化。

数据探索

数据质量分析

缺失值分析
异常值分析

  • 简单统计量分析:最大值最小值是否超出合理范围
  • 3σ原则:超出3倍标准差
  • 箱形图:< Ql-1.5IQR,>Qu +1.5IQR
    一致性分析
    同实体,多来源或重复存储数据不一致。
    重复数据

    数据特征分析

    分布分析

  • 定量数据分布分析:分组后计算频数
  • 定性数据分布分析:分别计算频数
    对比分析
  • 绝对数比较
  • 相对数比较
    结构相对数:同一总体部分值与全部值之比,研究事物的性质、结构、质量,如产品合格率、居民食品支出占消费支出总额比重
    比例相对数:同总体不同部分数值对比,研究各部分比例关系,如人口性别比例、投资与消费比例
    比较相对数:同一时期两个性质相同指标数值进行对比,研究同类现象在不同空间条件下的数量对比关系,如不同地区价格对比
    强度相对数:性质不同但有一定联系的总量指标对比,研究现象的强度、密度和普遍程度,如人均GDP
    计划完成程度相对数:实际完成数与计划数对比
    动态相对数:同一现象在不同时期指标数值对比,研究发展方向和变化速度
    统计量分析
  • 集中趋势度量
    均值、中位数、众数
  • 离散趋势度量
    标准差、变异系数(标准差/均值)、四分位间距
    周期性分析
    探索某变量是否随时间变化呈现某种周期变化趋势
    贡献度分析
    帕累托分析,逆序排列,找出占比80%的因素
    相关性分析
    分析连续型变量之间的线性相关强弱
  • 直接绘制散点图
  • 绘制散点图矩阵
  • 计算相关系数
    Pearson相关系数:协方差/标准差积,线性关系时才完全相关
    Spearman秩相关系数:严格单调函数关系,即完全相关
    判定系数:r2 相关系数平方

数据预处理

数据清洗

缺失值处理

  • 不处理
  • 删除处理
  • 数据插补
    均值、中位数、众数插补:不解释
    使用固定值:例如,工资缺失,采用最低工资标准
    最近临插补:用最接近样本属性值插补
    回归方法:根据已有数据建立回归模型,预测确实值
    插值法:利用已知点建立合适的f(x),未知点由对应的xi求出f(xi)。拉格朗日插值、牛顿插值、Hermite插值、分段插值、样条插值。
    异常值处理
  • 删除含有异常值记录
  • 视为缺失值
  • 平均值修正
  • 不处理

    数据集成

    实体识别

  • 同名异义
  • 异名同义
  • 单位不统一
    冗余属性识别
  • 同一属性多次出现
  • 同一属性命名不一致导致重复

    数据变换

    简单函数变换
    平方、开方、对数、差分运算等
    规范化

  • 最小-最大规范化
    x-min / max-min
  • 零-均值规范化
    x-min / σ
  • 小数定标规范化
    x / 10^k
    连续属性离散化
  • 离散化过程
    确定分类数,将连续属性映射到分类值。
  • 常用离散化方法
    等宽法:值域分成相同宽度区间,区间个数由数据本身特点决定,类似于制作频率分布表。
    等频法:频数相同,宽度不同。
    基于聚类分析的方法:指定簇的个数,用聚类算法,如Kmeans进行聚类。
    属性构造
    创造新的属性,如防窃电诊断模型,根据供入电量、供出电量(用户用电量之和),构造线损率指标:供入电量-供出电量 / 供入电量

    数据规约

    降低数据的复杂性同时,保持原数据的完整性。
    **属性规约
    实际上是降维。

  • 属性合并
  • 逐步向前原则
  • 逐步向后删除
  • 决策树归纳
  • 主成分分析
    数值规约
    选择替代的、较小的数据来减少数据量。有参数方法:使用模型评估数据,保留模型参数,不保留实际数据。无参数方法:保留实际数据。
  • 直方图
    无参数方法,将数据分布划分成不相交子集或桶,计算频数。
  • 聚类
    无参数方法,相似数据组成簇,用簇替代实际数据。
  • 抽样
    无放回简单随机抽样:没一个样本被抽取概率是等可能。
    有放回简单随机抽样:类似上一种。
    聚类抽样:聚类成簇,从每个簇中随机抽样。
    分层抽样:总体划分成不相交部分,即层,每层中随机抽样
  • 参数回归
    线性回归:将已知点规约位线性函数。
    对数线性模型:y取对数。用于近似离散多维概率分布。也可用于维规约和数据光滑。

挖掘建模

分类与预测

实现过程

  • 分类,定义类别,将每个样本映射到相应类别
  • 预测,建立变量间依赖的函数模型
    常用分类与预测算法
  • 回归分析,预测数值型变量间依赖的定量关系,包括线性回归、非线性回归、逻辑回归、岭回归、主成分回归、偏最小二乘回归等。
  • 决策树,自顶向下递归,在内部节点进行属性值比较,向下分支,最终叶节点是划分的类。
  • 神经网络,仿大脑神经网络结构,构建输入输出变量之间模型。
  • 贝叶斯网络,又称信度网络,是贝叶斯方法扩展,是不确定知识表达和推理领域最有效理论模型之一。
  • 支持向量机,通过非线性映射,把低维非线性转为高维线性可分,在高维空间进行线性分析的算法。
    回归分析
  • 线性回归,变量之间是线性关系
  • 非线性回归,同上,反之
  • 逻辑回归,因变量只有两用取值
  • 岭回归,自变量之间有多重共线
  • 主成分回归,同上
    决策树
  • ID3算法,使用信息增益作为属性选择标准,只适用离散描述属性
  • C4.5算法,使用信息增益率作为属性选择标准,克服了ID3不足,可用于连续描述属性
  • CART算法,非参数分类和回归方法,通过构建、修剪、评估构建二叉树。终结点是连续变量,该树为回归树,否则为分类树。
    信息熵:-∑Pi㏒Pi
    神经网络
    输入信号求和,超过激活函数阈值,输出
    神经网络常用激活函数
  • 域值函数,阶梯函数,自变量小于0输出0,大于0输出1
  • 分段线性函数,大于1输出1,小于-1输出-1,否则输出自变量v
  • 非线性转移函数,1/1+e^-v
  • Relu函数,小于0输出0,否则输出自变量v
    神经网络算法
  • BP神经网络,按误差逆传播算法训练多层前馈网络
  • LM神经网络,梯度下降法和牛顿法结合的多层前馈网络
  • RBF径向基神经网络,能够以任意精度逼近连续函数,输入层到隐含层变换费线性,隐含层到输出层变换是线性
  • FNN模糊神经网络,模糊权系数或输入信号是模糊量
  • GMDH神经网络,多项式网络,网络结构不固定,训练过程中不断改变
  • ANFIS自适应神经网络,镶嵌在一个全部模糊的结构中
    分类与预测算法评价
  • 绝对误差与相对误差
  • 平均绝对误差
  • 均方误差
  • 均方根误差
  • 平均绝对百分误差
  • Kappa统计,说明多个观测是否一致,取值在-1到+1之间
  • 识别准确度,Accuracy,TP+FN / TP+TN+FP+FN
  • 识别精确度,Precision,TP/TP+FP
  • 反馈率,Recall,TP/TP+TN
  • ROC曲线,Receiver Operating Characteristic
  • 混淆矩阵,Confusion Matrix

    聚类分析

    常用聚类分析算法

  • K-Means,快速聚类方法,将数据划分为预定的k类
  • K-中心点,上述算法对孤立点敏感,K-Means不采用簇均值,采用离均值最近的对象作为簇中心
  • 系统聚类,多层次聚类

    关联规则

    常用算法

  • Apriori,最常用最经典,通过连接产生候选项及其支持度然后通过剪枝生成频繁项集
  • FP-Tree,针对上述算法多次扫描数据集缺陷,不频繁产生候选集
  • Eclat,深度优先算法
  • 灰色关联法,分析各因素间影响程度或若干子因素对主因素贡献度进行分析

    时序模式

    时间序列算法

  • 平滑法,用于趋势分析和预测,具体有移动平均法和指数平滑法
  • 趋势拟合法,时间作为自变量,建立回归模型
  • 组合模型,长趋势T,季节变动S,周期变动C,不规则变动ε
    加法模型:T+S+C+ε
    乘法模型:T×S×C×ε
    AR模型:前p期序列值作为自变量建立线性回归模型
    MA模型:以前q期随机扰动建立线性回归模型
    ARMA模型:不仅与序列值相关,还和随机扰动相关ARIMA:差分序列拟合,差分后平稳序列
    ARCH模型:模拟时间序列变量波动性变化,适用于序列具有异方差性且异方差函数短期相关
    GARCH模型及其衍生模型:广义ARCH,相比ARCH,能反映长期记忆性和信息非对称性等
    时间序列预处理
    纯随机序列:又称白噪声序列,序列各项之间没任何相关关系,无分析价值。
    平稳序列:非白噪声序列,均值和方差是常数,可建立线性模型拟合,ARMA模型最常用。
    非平稳序列:均值和方差不稳定,可转为平稳序列后研究,如ARIMA。

    离群点检测

    离群点检测方法

  • 基于统计,低概率对象视为离群点
  • 基于临近度,远离大部分点对象视为离群点
  • 基于密度,低密度区域的对象
  • 基于聚类,丢弃远离其他簇的小簇

Leave a Reply

Your email address will not be published. Required fields are marked *