1.1 什么是统计学:
用以搜集数据、分析数据和由数据得出结论的一组概念、原则和方法。
4个要素:问题、数据、方法、结论
(定义——》变量——》分析——》建议)
描述统计、
推断统计,参数估计——》假设检验
数据的欺骗性,幽灵数据
对数据要有敬畏之心。
SPSS、EXCEL
1.2什么是数据
变量的取值即为数据
计量尺度:
定量变量——》数值型数据
分类变量、顺序变量——》定性变量/数据
时间:
截面数据、时序数据
2.1 抽样与调查知识点
why省时、省钱;不能采用全面调查,如破坏性试验;设计科学,结果比全面调查可靠
什么是好的抽样?符合研究目的;能从样本计算出有效的估计值及其变动;可实践性
样本量大小与好坏无关,作用是决定统计分析结果的误差。
样本结构也无关,随机样本结构往往和总体不一致。
样本指标与其他调查的数值一致,只能说明这个样本不差,而不能证明它是一个好样本。
概率抽样方式:简单、分层、pps、整群、系统、多阶、多相
概率抽样基本准则:单元是从总体中按一定的概率随机抽取的。
随机:调查总体中的每个单元都以非零的概率入样。
不等于随意,
随意等于随机的条件:
1)总体元素一致
2)总体自动随机,如天文、物理、化学
社会科学领域往往不满足
等概率一定是随机的,随机不局限于等概率。
How随机:
1)一定要通过随机化程序实现
怎么判断?
1)多次抽样,频率/变化异常
2)一次性,抽样程序是否满足随机化
非概率抽样是用主观的方法从总体中抽选单元,方式:方便、判断、配额、自愿、滚雪球;
优点:快速简便、费用低、不需要抽样框;
缺点:对总体的假定一般不成立不能推断总体、不能得到可靠的估计值及误差估计值、样本一般有倾向性与偏差。
应用:
1)形成一种想法
2)设计开发概率抽样调查的初始步骤
3)解释概率抽样的调查结果
4)抽选参加访谈的个人
误差(抽样/非抽样)
非抽样误差:抽样框误差、回答误差、无回答误差(没有获得该单元的数据)
无回答大于30%的调查结果一般是不可信的。(无回答率;回答与无回答的样本差异)
降低无回答的方法:
1、改进调查组织(匿名、激励、选择合适的时间)
2、多次访问(3次还低于85%,继续)
3、替换样本单元(替换规则须在调查实施之前确定)
4、对敏感性问题采用技术展开