统计学知识点汇总

2022-10-22 06:23:23 第一文档网 [ 字体：小中大 ] [ 阅读： ] [

【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《统计学知识点汇总》，欢迎阅读！
统计学,知识点,汇总
统计学知识点汇总

第一章：

统计学是收集、处理、分析、解析数据并从数据中得出结论的科学. 分类：描述统计、推断统计.

描述统计是研究数据收集、处理和描述的统计学方法. 推断统计是研究如何利用样本数据来推断总体特征的统计学方法（内容包括参数估计和假设检验)。

变量：每次观察都会得到不同结果的某种特征。分类变量:又称无序分类变量，观测结果表现为某种类别的变量。顺序变量：又称有序分类变量，观测结果表现为某种有序类别的变量. 数值变量：又称定量变量,观测结果表现为数字的变量。数据：1、分类数据2、顺序数据3、数值型数据总体：包含所研究的全部个体（数据）的集合. 样本:从总体中抽取的一部分元素的集合. 样本量：构成样本元素的数目。

抽样方法：1、简单随机抽样2、分层抽样3、系统抽样4、整群抽样

简单随机抽样：从含有N个元素的总体中，抽取n个元素组成一个样本，使得总体中的每一个元素都有相同的机会（概率）被抽中。

分层抽样：也称分类抽样,在抽样之前先将总体的元素划分为若干层（类），然后从各个层中抽取一定数量的元素组成一个样本.

软件应用：用Excel抽取简单随机样本。

第二章：

一、定性数据的图示：1、条形图2、帕累托图3、饼图4、环形图

条形图：是用宽度相同的条形来表示数据多少的图形，用于观察不同类别的多少或分布状况。

帕累托图：是按各类别出现的频数多少排序后绘制的条形图.通过对条形的排序,容易看出哪类频数出现的多,哪类出现的少.

饼图：主要用于表示一个样本（或总体）中各类别的频数占全部频数的比例. 用图表展示定量数据：

生成定量数据的频数分布表时,需要先将原始数据按照某种标准分成不同的组别，然后统计出各组别的数据频数即可。

一组数据所分的组数K应不少于5组且不多于15组. 组距=（最大值-最小值）/组数组数=全距 /组距

每组组距均相等称为等距数列，反之则为异距数列在比较等距数列与异距数列的次数分布时常用：次数密度=本组次数/本组组距 2。组中值 class midpoint

组中值=(本组上限+本组下限）/2或组中值=（本组假定上限+本组假定下限)/2

二、定量数据的图示：1、分组数据看分布:直方图2、未分组数据看分布:茎叶图和箱线图、垂线图和误差图

最小值 25％四分位数中位数 75％四分位数最大值箱线图的示意图：

3、两个变量间的关系：散点图是用二维

坐标展示两个变量之间关系的一种图形。

4、比较多个样本的相似性：雷达图和轮廓图

雷达图是从一个点出发，用每一条射线代表一个变量，多个变量的数据点连接起来成线,即围成一个区域，多个样本围成多个区域，就是雷达图，利用它也可以研究多个样本之间的相似程度. 5、掌握各种图标的绘制,直方图与条形图的区别、茎叶图与直方图的区别。三、合理使用图表

Excel应用：生成定性/定量数据的频数分布表(操作步骤）.

第三章：用统计量描述数据

一、水平的度量:平均数：计算形式: =总体标志总量/总体单位总量（一）简单均数 (二)加权均数中位数：是一组数据排序后处于中间位置的数值,用Me表示。

众数：是一组数据中频数最大的变量值,直观地反映了数据的集中趋势。是度量定类数据集中趋势的测度。一般用Mo表示.

四分位数：是一组数据排序后处于25%和75％位置上的值。它是通过3个点将全部数据等分为四部分，其中每部分包含25％的数据。显然，中间的四分位数就是中位数，因此通常所说的四分位数是指处在25％位置上和处在75％位置上的数值。

二、差异的度量:1、极差是一组数据的最大值与最小值之差，也称全距，用R表示。由于极差只是利用了一组数据两端的信息,因而容易受极值端的影响，不能全面反映差异状况。

2、四分位差是一组数据75%位置上的四分位数与25％位置上的四分位数之差，也称为内距或四分间距，用Qd表示，反映了中间50%数据的离散程度，其数值越小说明中间的数值越集中,数值越大说明中间的数值越分散,四分位差不受极值的影响。 3、样本方差和标准差：

方差是度量数值变量离散程度的基本测度。n个同性质独立变量和的方差等于各个变量方差之和。 n个同性质独立变量平均数的方差等于各变量方差平均数的1/n。

4、标准分数：测度每个数值在该组数据中的相对位置，并可以用它来判断一组数据中是否有离群点,它是某个数据与其平均数的离差除以标准差后的值.

三、比较几组数据的离散程度:离散系数是一组数据的标准差与其相应的平均数之比，它消除了数据水平高低和计量单位对标准差大小的影响。主要用于比较不同样本数据的离散程度,离散系数越大说明数据的离散程度也越大,离散系数越小说明数据的离散程度也越小. 计算公式是: Vs=S/x 四、分布形状的度量

偏态系数

偏态系数为0时，数据是对称分布；偏态系数为负数时,数据是左偏分布，也称为负偏态；偏态系数为正数时,数据是右偏分布,也称为正偏态。偏态系数越大表明偏离程度越大. 峰态系数

峰度系数为3时，数据是对称分布；峰度系数大于3时,数据是尖峰分布；峰度系数小于3时，数据是平峰分布.

软件应用：用Excel计算描述统计量。

第一步：选择【工具】-【数据分析】.在分析工具中选择【描述统计】。单击【确定】。

第二部：将原始数据所在的区域输入【输入区域】;在【输出选项】中选择结果的输出位置；选择【汇总统计】。单击【确定】

第四章：概率分布

事件发生可能性大小的度量就是概率.

随机变量的概率分布1、有些随机变量只能取有限个值，称为离散型随机变量。2、有些则可以取一个或多个区间中的任何值,称为连续性随机变量。描述随机变量集中程度的统计量称为期望值.

一、离散型随机变量的概率分布（二项分布、超几何分布、泊松分布）

1、二项分布(binomial distribution）:互斥现象；独立事件；每次成功概率为p（不成功概率为q）。n次试验,成功x次，每次成功的概率p,则成功x次的概率P为 2、超几何分布

(hyper geometric distribution）样本抽取后不放回时的离散型概率分布.N个总体有T次成功次数,则抽取n次中有x次成功的概率。例:6名业务骨干中的3人在职时间超过了5年。随机抽取这6人中的4人，恰好有2人在职时间超过了5年的概率。 3、泊松分布（Poisson distribution）

事件在一段时（空）间内连续发生时指定次数事件的概率。