首页 > 自考本科 > 自考医学统计学知识点总结大全

自考医学统计学知识点总结大全

发布时间:

自考医学统计学知识点总结大全

统计学基础知识之基础概念与知识点

统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。下面是我为大家带来的统计学基础知识,欢迎阅读。

统计学基础知识

总体:是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。

样本:从总体中随机抽取部分观察单位,其实测值的集合称为样本。

随机抽样:是指按照随机化的原则,从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。

随机化原则:总体中每一个观察单位都有同等的机会被选入到样本中。

抽样误差:由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误差。

同质:一个总体中有许多个体,它们之所以共同成为人们研究的对象,必定存在共性,所谓一些个体处于同一总体,就是指他们大同小异,具有同质性。

变异:在自然状态下,个体间测量结果的差异称为变异。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,表现为各种生理测量值的参差不齐。

变量:确定总体之后,研究者对每个观察单位的某项特征进行测量和观察,这种特征称为变量。

变量值:对变量的测得值称为变量值,或者观察值。它可以是定量的,也可以是定性的。

定量资料:又称数值变量。其变量值是定量的,表现为数值的大小,一般有度量衡单位。

分类资料:也称定性资料,其观察值是定性的,表现为互不相容的类别或者属性。有无序分类和有序分类两种情况。

统计描述:用统计指标、统计图、统计表等方法,对资料的数量特征及分布规律进行客观的描述和表达。

统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征:①参数

估计:用样本的指标去推断总体相应的指标;②假设检验:由样本的差异推断总体之间是否可能存在的差异。

计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料。计量资料亦称定量资料、测量资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。

计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。

等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料。

概率:又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。

频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率。当试验重复很多次时P(A)=m/n。

随机误差:又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。

系统误差:是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。

随机变量:指变量的值无法预先确定仅以一定的可能性(概率)取值的量。随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。

参数:是指总体的统计指标,如:总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。

统计量:是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。

算术均数:描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用X表示。

几何均数:用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。

中位数:将一组观察值由小到大排列,n为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。

极差:亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。

百分位数:是将n个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。

四分位数间距:是由第三四分位数和第一四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。

方差:方差表示一组数据的平均离散水平,由离均差的平方和除以样本个数得到。

标准差:是样本平均数的平均距离,用来考察样本数据分散程度的大小。

变异系数:用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV表示。计算:CV=标准差/均数×100%

可信区间:是按预先给定的概率1-α所确定的包含未知总体参数的一个范围。从固定样本含量的已知总体中进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1-α的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1-α。

参数估计:指用样本指标值(统计量)估计总体指标值(参数)。

假设检验中P的含义:指从H0规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。

假设检验:亦称显著性检验,其基本思想是先对总体的参数或分布做出某种假设,如设总体均数为一定值,两总体均数相等,总体服从正态分布或两分布相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。

I型错误:指拒绝了实际上成立的H0,这类“弃真”的错误称为I型错误,其概率大小用α表示。

II型错误:指接受了实际上不成立的H0,这类“存伪”的误称为II型错误,其概率大小用β表示。

正态性检验:用均数和标准差描述资料的分布特征,对例数n较小的样本进行t检验时,首先要求样本取自正态分布的总体。

检验效能:1-β称为检验效能,它是指当两总体确有差别,按规定的检验水准α所能发现该差异的能力。

率:又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:率=发生某现象的观察单位数/可能发生某现象的观察单位总数×100%,表示方式有:百分率(%)、千分率(‰)等。

构成比:又称构成指标,说明某一事物内部各组成部分所占的比重或分布。计算公式为:构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数×100%,表示方式有:百分数等。

比:又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分之几。计算公式为:A/B,表示方式有:倍数或分数等。

非参数统计:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。

参数统计:通常要求样本来自总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数(如总体均数)进行估计和检验,称为参数统计。

秩次:变量值按照从小到大顺序所编的秩序号称为秩次。

秩和:各组秩次的合计称为秩和,是非参数检验的基本统计量。

直线回归:建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归。

回归系数:即直线的斜率,在直线回归方程中用b表示,b的统计意义为X每增(或减)一个单位时,Y平均改变b个单位。

相关系数r:用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。

t检验:常用于整体标准差未知且样本含量较小时样本均数与总体均数的比较,应用条件为n≤50,样本来自正态分布的总体,两样本均数比较时要求两样本总体方差相等。

u检验:用检验统计量u来命名的,用于样本含量n足够大,或n虽小但总体标准差已知的样本均数与总体均数的比较、成组设计两样本均数的比较。

观察性研究:是指在没有任何干预措施的条件下,客观的观察和记录研究对象的现状及其相关特征。

病例对照研究:是一种分析流行病学研究方法,主要应用于探索疾病的危险因素和病因。病例对照研究方法是对临床医疗和各种基础研究中形成的病因假设,进行初步验证。是选择一组患某病的病人,再选择一组不患该病的对象,比较两组人群之间在疾病发生之前有关可疑因素的暴露情况,如果两组的暴露率却有差别,则可认为所研究疾病与因素之间存在着关联。

队列研究:又称前瞻性研究,是将特定的人群分为暴露于某因素与非暴露于某因素的'两种人群或不同暴露水平的几个亚群,追踪观察其各自的结局,比较两组或各组某结局的发生率,从而判定暴露因素与结局有无因果关联及关联程度大小的一种观察性研究方法。

完全随机设计:又称简单随机分组设计,是采用完全随机化分组方法将同质的实验单位分配到各处理组,各组分别接受不同的处理。各组样本含量可以相等,称平衡设计;也可不等,称非平衡设计。

配对设计:是将实验单位按一定条件配成对子,再将每对中的两个实验单位随机分配到不同处理组。

随机区组设计:是将实验单位组设计或配伍组设计,实际上是配对设计的扩展,是先将实验单位按性质相同或相近者组成区组,再分别将各区组内的实验单位随机分配到各处理组或对照组。

析因设计:为安排析因实验的设计,是将两个或两个以上处理因素的各水平进行组合,对各种可能的组合都进行实验,又称完全交叉分组实验设计。

方差分析:也叫F检验,是统计检验的一种,其基本思想是:按研究目的和设计类型,将总变异中的离均差平方和和自由度分别分解成相应的若干部分,然后求得各相应部分的变异;由于其中的组内变异主要反应个体差异或抽样误差,其他各部分的变异与之比较得出统计量F值,根据F值得大小确定P值,并作出推断。

秩和检验:即先将数值变量从小到大,或等级从弱到强转换成秩后,再计算检验统计量的一种方法。

流行病学:研究人群中疾病与健康状况的分布及其影响因素,并研究防制疾病及促进健康的策略和措施的科学,是研究人群中事件或者结局的分布及其影响因素,并研究防止或者促进其发生的策略和措施的科学。

暴露:暴露是指研究对象(人)曾经接触(或不接触)某因素,或者具备某些特征,或者处于某种状态,这些研究者所关心的因素、特征、或状态即为暴露因素;暴露是指可能影响研究对象最后成为(病例或非病例研究者关心的结局=)某种结局的机会。

临床试验:以临床患者的为研究对象,采用随机原则将其分为试验组与对照组,试验组人为地给予某种干预措施,即某种新药或某种疗法,而对照组不给予研究的新药或给传统的医疗措施或给安慰剂,经过一段时间的观察后,评价实验药物的效果或不良反应。

病因:那些能使人群发病概率增加的因素,就可以认为是疾病的病因,其中某个或多个不存在时,人群疾病发生频率就会下降。

危险因素:在复杂病因所致疾病或未明确病因时,相关致病因素常被称为危险因素。

诊断试验:是指运用物理学的、生物化学的、血清免疫学的检查,临床检查和医疗器械检查对病人的疾病和健康状况做出诊断的试验。

机遇:又称随机误差,是由于多种不能控制及不能预测的因素引起的一类表现不恒定、随机变化的误差。

偏倚:又称系统误差,是指研究过程中,一些已知活可控制的因素引起的使研究结果或理论系统抵偏离真实情况。

我是厦门大学一名大二的学生,在修WISE(厦门大学王亚南经济学院)的统计双学位,希望我的回答能帮助到你。

与其说学统计需要学习哪些知识点,不如说说统计在本科阶段主要涵盖了哪些课程吧。

必须要说明的是,此处谈论的是统计(经济)而非统计(数学)。前者与经济金融的关系更加紧密,是放在经济学院的,后者更加学术,是放在数学学院的。

本校的统计双学位课程主要有商务沟通与文化交流,经济学原理,概率论,数理统计,金融经济学/资产定价,随机过程,计算数据分析——使用统计软件,时间序列分析,微观经济学及其应用,回归分析,保险与精算,应用金融计量,多元统计分析,数据挖掘,金融衍生品分析,属性数据分析,金融风险管理,数理金融学,公司金融,实验设计与方差分析。

以上学科一部分是选修,一部分是必修,按照时间先后排序。可以看出来,因为经济学院的原因,里面很多选修课程都与经济关系相当之大,事实上,很多经济学科就是需要运用到统计的知识。

必修的基础课程莫过于概率论和数理统计两门,别的理工学科4个课时上完的概率论与数理统计,统计学的孩子们要花两个学期各4个课时。主要涵盖了概率论(各种概型与分布),抽样分布,参数估计,假设检验等等。

希望我的回答能够对你有所帮助。

统计学如今是与数学平行的一级学科,那么统计学要掌握哪些知识点呢?让我这个统计学专业的大四老学长告诉你楼主自己的学习经验吧!

统计学听上去是与数据打交道,实际上大部分的统计方向也确实如此。所以要与数据打交道我们首先要有扎实的数学基础,那么想打好数学基础,楼主推荐大家要掌握好数学分析与高等代数的知识!

推荐华东师范大学的《数学分析》与北京大学的《高等代数》。

打好了基础,接下来我们就要正式步入统计学的殿堂!

茆诗松老师的《概率论与数理统计》是非常经典的统计学基础教材,很多高校也都使用这本书作为统计学教材。

如果你能熟练掌握这本教材上的知识点,那么你就打下了非常扎实的统计学的基础,这对你以后继续统计学方向的研究绝对是一大助力!所以非常有必要仔细认真的学习这本书,把这本书读熟读透你以后的统计学路途会顺利很多。这本书也有对应的课后答案详解,对学习这本书有很大的帮助!

再进一步的学习统计学知识,我们就会来到统计学方向的分水岭。这时候就需要看你的兴趣方向何在了。这以后统计就可被划分为理论统计与应用统计。比如,应用统计就可分为金融统计,生物统计等等!所以接下来的知识点就看你的方向来决定往哪边倾向了!

最后,统计学方向掌握程序软件也是必不可少的一项。在经济统计方向,大部分用的是SPSS。而在偏数学的统计上大部分用的是R语言或者是Python。

所以熟练掌握一门程序语言也是必不可少的一项统计学知识,而要想熟练掌握,只有自己平常多学多做多练才能达到要求!

以上就是楼主的建议,如果觉得好的话欢迎采纳!

除了熟悉业务、掌握业务分析思维和工具外,数据分析专家必备技能堆栈还有一个特别重要的知识点:统计学。 无论是简历的技能描述还是实际面试中,统计学都是必须的基础知识。为什么统计学对数据分析师来说那么重要? 其实答案很明显。 数据分析的价值在于,通过数据洞察业务背后的信息,避免以往“决定拍脑袋,保证拍胸部,拍屁股就走人”的主观误判,一切用数据说话。 数据怎么能说话? 算出一个数据,怎么知道那个数据好不好? 有多好? 两组数据出现在你面前,如何判断这两组数据是否有明显的差异? 要回答这些问题,你需要运用统计学知识,而不是相信自己的眼睛。 因为眼睛有时会说谎,所以你看到的“好”不一定都是好的。 你看到的“没有区别”并不意味着没有区别。但是,许多刚入门的数据分析师在学习统计学知识时都很头疼。 统计学的书籍里写了很难理解的公式,不是一般人能理解的。其实,对大多数数据分析师来说,我们不需要掌握得那么全面和深入。 我们只能掌握一部分知识,理解不了理论。 但是,你只要知道在什么场合使用就可以了。 用了之后,慢慢就能理解了。因此,为了便于学习统计学的基础知识,这里整理一下数据分析工作中最常见的统计学基础知识,并尽量以简单的白字形式进行讲解,以便在面试和以后的工作中都能运用统计学知识。数据分析中的统计学问题1、辛普森悖论是什么? 细分后的结果与整体结果相矛盾,人们常说这就是辛普森的悖论。辛普森悖论主要是因为两组样本不平衡,采样不合理。在正确的实验实施方案中,除被测试变量外,可能影响结果的变量比例必须一致,流量必须均匀合理划分。例如:如果原来的男性是20人,点击1人; 点击女性100人、99人,总点击率为100/120。现在男性100人,点击6人; 女性20人,点击量20人,总点击率26/120。男女点击率都有所提高,但点击率更高的女性所占比例太小,无法提高整体点击率。Q2、协方差与相关系数的差异和联系协方差:协方差表示两个变量的整体误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,即一个大于自己的期望值,另一个也大于自己的期望值,则两个变量之间的协方差为正值。如果两个变量的变化趋势相反,一个大于自己的期望值,另一个小于自己的期望值,则两个变量之间的协方差为负值。相关系数:研究变量之间的线性相关程度的量,取值的范围为[-1,1 ]。相关系数也可以认为是协方差。 消除了两个变量维数的影响的标准化特殊协方差。Q3、AB测试的统计很显眼,实际上不显眼是什么原因? 这可能是因为我们在AB测试中选择的样本量太大,与总体数据量的差距很小。 这样的话,即使我们发现了微小的差异,这在统计上也是明显的,在实际案例中可能会变得不明显。举个例子,为了应对我们互联网产品的实践,我们做了改变。 APP启动时间优化为0.001秒。 这个数字在统计学上对应的p值可能很小。 也就是说,虽然在统计学上很显著,但实际上无法感知用户0.01秒的差异。这样显著的统计差异,其实对我们来说没有什么实际意义。因此,统计学显著性并不意味着实际效果的显著性。Q4、如何理解中心极限定理? 中心定理的定义:(1)任一样本的平均值与其所在整体的平均值大致相等。)无论总体是什么样的分布,任一总体的样本平均值都围绕在总体平均值的周围,呈正态分布。中心定理的作用:)1)在无法获得总体数据的情况下,可以用样本来估计总体。)根据总体均值和标准差,判断某个样本是否属于总体。Q5、如何向孩子解释正态分布? 拿出孩子班级的成绩单,按每2分统计人数,画出钟的形状。然后说这是正态分布,很多人都集中在中间。 只有少数非常好的人和坏的人。 拿出隔壁班的成绩单,让孩子们自己画画,发现是这样的现象,拿出班级的身高表一看,是这样的。大多数人之间差别不大,但只有少数人有特别好的人和特别坏的人。 这是生活中普遍出现的现象,这就是正态分布。Q6、什么是聚类? 聚类算法有几种? 选择一个详细介绍(1)聚类分析是一种无监督学习方法,在一定条件下将比较同质的样品归为一类(俗称人在班里聚会,物在班里分组)。正式地说,集群就是对点集合进行考察,根据一定的距离测度将他们归纳成多个“集群”的过程。聚类的目标是缩短同一个集群中点之间的距离并增加不同集群中点之间的距离。)2)聚类方法主要有:a .分层聚类分层法( hierarchical methods )是在满足某些条件之前对给定数据集进行分层分解的方法。具体分为“自下而上”和“自上而下”两个方案。b .聚类划分:(经典算法为k均值) ) )。分区给出具有n个组或记录的数据集。 分裂法构建k个组,每个组表示一个集群。c .密度聚类基于密度的方法( density-based methods ) (基于密度的方法与其他方法的一个根本区别在于基于密度,而不是基于各种距离。这样,可以克服基于距离的算法只能发现“类圆形”聚类的缺点。经典算法: DBSCAN:DBSCAN算法是典型的基于密度的聚类算法。 该算法利用空间索引技术搜索对象邻域,引入“核心对象”和“密度可达”等概念,从核心对象中将所有密度可达对象聚集成一个簇。d .网格聚类基于网格的方法( grid-based methods )首先将数据空间分割为有限个单元( cell )的网格结构,所有处理都以单个单元为对象。此类处理的一大优点是处理速度快。 通常,这与将数据空间划分为多少个单元无关,与目标数据库中记录的数量无关。经典算法: STING :利用网格单元存储数据统计信息,实现多分辨率聚类。)3) k-means容易介绍,开始选取k个点作为聚类中心,剩下的点根据距离分类为类,找到新的类中心,重新分配点; 重复直到达到收敛条件或重复次数。优点是快; 缺点是先指定k,同时对异常值敏感。Q7、线性回归和逻辑回归的区别是什么? 以线性回归为对象的目标变量为区间型,逻辑回归为对象的目标变量为类别型,假定线性回归模型的目标变量和自变量之间的关系是线性相关的,逻辑回归模型的目标变量和自变量是非线性的。线性回归中通常使用假设,对应自变量x的某个值,目标变量y的观测值服从正太分布。逻辑回归中的目标变量y服从二项分布的0和1或多项分布逻辑回归中不存在线性回归中常见的残差。参数评估采用线性回归最小二乘法,逻辑回归采用最大似然法。Q8、为什么朴素的贝叶斯是“朴素”的? 朴素贝叶斯是一种简单但非常强大的预测建模算法。之所以称为朴素贝叶斯是因为它假定每个输入变量都是独立的。这是一个强硬的假设,实际上并不一定,但这项技术对大多数复杂问题仍然非常有效。Q9、k均值和KNN的区别是什么? 首先,这两种算法解决了数据挖掘中的两类问题。k均值是聚类算法,KNN是分类算法。其次,这两种算法分别是两种不同的学习方式。k均值是非监督学习,即不需要提前进行分类标记,而KNN有监督学习,需要对训练数据进行分类标记。最后,k值的含义不同。K-Means的k值表示k类。KNN的k值表示最近的k个邻居。Q10、逻辑回归和线性回归的区别? 线性回归要求因变量必须是连续性数据变量; 逻辑回归需求因变量必须为分类变量、二分类或多分类; 例如,要分析性别、年龄、身高和饮食习惯对体重的影响,请通过线性回归来分析体重是实际重量,还是连续性数据变量。 对体重进行分类,作为因变量分为高、中、低3种体重类型时,采用logistic回归。两者的不同还体现在以下几点。一、性质不同1、逻辑回归:是一个广义线性回归分析模型。2、线性回归:一种利用数理统计中的回归分析,确定两个或多个变量之间相互依存的定量关系的统计分析方法。二、应用不同1、逻辑回归:常用于数据挖掘、疾病自动诊断、经济预测等领域。2、线性回归:常用于数学、金融、趋势线、经济学等领域。以上是【几分面试宝典】系列——统计学基础知识第一篇文章的内容。 历史文章的一部分请恢复为公众号。 更多数据分析面试笔试文章持续更新,敬请期待。 觉得好的话,就分享,点赞,也欢迎收藏~自考/成考有疑问、不知道自考/成考考点内容、不清楚当地自考/成考政策,点击底部咨询官网老师,免费领取复习资料:

自考医学统计学知识点总结

医学统计学重点知识归纳u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。

1)求极差(Range)R=Xmax-Xmin (29.64-7.42=22.22)。

2)确定组数和组距、划分组段组数确定需根据样本大小决定,一般取10组左右。(22.22/12=1.85)。

3)频数统计,列频数表。

图形特征:

集中性:正态曲线的高峰位于正中央,即均数所在的位置。

对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。

均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。

关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。

1.u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。2.单样本或两样本时用t检验,3样本或者3组以上用方差分析。两样本t检验与方差分析等效,F=t^2。3.卡方检验一般有2*2,2*C,R*C和配对资料卡方检验。注意理论频数不能太小,如有小于1或者1/5以上的格子小于5,则要考虑合并,或者采用fisher确切概率检验。配对资料b+c>40时,卡方=(b-c)^2/(b+c),当b+c<=40时,用(|b-c|-1)^2/(b+c)。4.非参数检验对数据的分布没有要求5.假设检验基本思想就是小概率事件在一次抽样中不会发生。建议你还是参考相关的书籍吧,回答的不够准确

医学统计学基础概念整理2017

统计学是研究数据的收集、整理和分析的一门科学。其工作流程为设计、搜集、整理、分析与结果报告。打个通俗的比喻,统计学就好比“打牌”,抓牌就是搜集数据,牌抓好后要整理一下,然后研究怎么打就是分析,打的输赢就是结果报告。下面是我为大家带来的关于医学统计学基础概念整理的知识,欢迎阅读。

一.总体与样本

总体:是指根据研究目的所确定的观察单位某项特征的集合。比如说我想研究山西医科大学所有在校生的平均体重,那根据此目的,我们研究的总体就是:山西医科大学所有在校生的体重数据的集合。但是需要注明一点:总体分为有限总体和无限总体,上面的例子就是有限总体,毕竟山西医科大学学生还是有限的,然而科研过程中面临的大多数是无限的总体,我们是无法取得其总体进行研究的。那我们面对无限总体怎么办呢?

我们为了研究无限总体,发明了抽样的方法。就像我们想知道一锅老母鸡汤的咸淡,不需要喝完所有的汤,只要摇匀,尝其一勺就可以了,这种思想就叫“抽样”。

样本:就是从总体中抽出的部分观察单位某项特征的集合。但是在抽样过程中必须遵守随机化的原则。

随机化原则:是指总体中的任何一个观察单位都要有同等的机会被抽到作为样本进行研究。那么如何保证随机化抽样呢,一般包括单纯随机抽样、系统抽样、分层抽样、整群抽样和多级抽样等方法。

二.参数与统计量

参数:用于描述总体特征的指标;

统计量:用于描述样本特征的指标;

总体、样本、参数与统计量的关系如下图。

统计学就是通过描述样本的统计量去推断描述总体的参数。这是通过偶然去发现必然的过程,通过一般去发现普遍的过程,是以小见大的过程。

三.误差

误差:观察值与真知之差。即我们通过一次试验得到的结果与事件真实结果之间的差值。误差根据其产生的原因,分为四种:

(1)系统误差:因为试剂未校正或仪器没有调零等因素造成的研究结果倾向性的增大或减小。如我们路过药房,门口放个一个体重计,请问我们在称自己的体重之前,首先要干的第一件事情是什么呢?从统计学角度,我们应该看看体重计上的指针是不是对准零,如果本身就有5Kg底重,那我们所有的同学去称,都将会重5Kg,即发生倾向性的偏大。其特点:倾向性的增大或减小,如果我们就行调零,就可以避免。

(2)随机误差(random error):是由各种偶然因素造成的观察值与真值之差。比如班级所有同学用同一把尺子测量我的身高,结果发现我的身高值是不一样的。其特点为:不可以避免,但可以减少。统计学有一定律叫做“测不准定律”,不管你怎么测,就是测不准,因此我们通常多次测量后取平均。

(3)抽样误差(sampling error):因为抽样造成的样本统计量与总体参数之间的差异。有人会说,刚才那一勺老母鸡汤的咸淡应该和锅里汤的咸淡是完全一样的啊,是的,但上面的例子是在讲抽样的原理,而我们科学研究和喝老母鸡汤是不一样的,因为汤里的氯化钠是均匀分布的,而我们科学研究的目标事件是不均匀分布的。比如某个班级120名同学的近视眼患病率为50%,我按照随机化原则随机抽取50名同学,则50名同学的近视眼患病率绝对不等于50%,因为近视眼同学在班级中的`分布是不均匀的。因此抽样误差的特点为:不可以避免,但可以减少。我们可以通过增大样本量进行减少。

(4)过失误差(gross error):

由于观察过程中的不仔细造成的错误判断或记录。过失误差可以通过仔细核对进行避免。

那我们统计学的存在主要是解决那种误差呢?我们通过统计设计减少系统误差、通过统计学检验去排除抽样误差的。

四.概率与频率

概率(P):用于反映某一事物发生可能性大小的一种量度。一般用大写的斜体P表示。

我们根据事物发生概率的大小,把事件分为3类:P=1为必然事件,发生率为100%;P=0为不可能事件,发生率为0;0

频率(f):是指我们进行了N次试验,其中一个事件出现的次数m与总的试验次数N的比值。

问题是:我们到底如何能够得到某一事件发生的概率呢,比如说谁能够告诉我一个半截粉笔从讲台上掉下摔断的概率P=?。我们至今的科学发展也没有办法通过公式去计算该值。那我们是怎么做的呢?有句话叫做“有些事情越想越烦,做起来却极其简单”。我们只需要那两盒同样的粉笔进行重复摔就可以了,如果总共100支粉笔,断了98只,那断的频率就等于f=98/100=0.98。而统计学上证实,当某事件发生次数较多时,频率就会接近于概率。意即f=P。因此,其实我们就是通过频率去估计概率的。

五.同质与变异

同质:是指观察单位所受的影响因素相同。而我们科研的观察单位所受的影响因素只可能相对的相同,不可能绝对的相同,因此,同质是相对的。

变异:是指观察单位在同质的基础上的个体差异。天底下没有两个完全一样的事物,唯一不变的就是变化。因此,变异是绝对的。

这一对概念对我们研究统计的意义:如果没有同质的话,就没有我们研究的总体或者样本。因为如果不同质,我们是不可能把他们放在一起进行研究的。如果没有变异,就根本没有统计学产生的必要,因为如果没有变异,我们拿一种药物治疗某病的一个病人,如果有效,该药对所有该病病人都应该有效,这是不可能的。

六.试验vs实验

试验——对已知事物结果的探索过程:为了查看某事的结果或某物的性能而从事某种活动。

实验——已有明确的结论/假说后的验证过程:为了检验某种科学理论或假设而进行某种操作或从事某种活动。

从上述来自《现代汉语词典》的两个解释,可以看出:实验中被检验的是某种科学理论或假设,通过实践操作来进行;而试验中用来检验的是已经存在的事物,是为了察看某事的结果或某物的性能,通过使用、试用来进行。

在我们实际应用中,很多词汇中到底是用“试验”还是“实验”是已经根据前人的经验明确了的。比如RCT(Randomized Controlled Trial),我们会叫“随机对照试验”,我想多半是因为翻译的过程中Trial翻译为“试验”更为合适。而RCT中,患者被分为两组时,则被称为“实验组”(Treatment Group)和对照组(Control Group)。

七.病人/患者vs受试者/研究对象

这两组词,也许没有必要把定义在贴上来了,因为他们的区别显而易见。病人/患者的称法,当然应该用于病人和患者的身上。如果研究是在健康人或者潜在患者人群中开展的,此时研究对象还不能确定为病人/患者,那么只能称其为受试者或研究对象。相似的,在产科的研究中,如果研究对象为一般的产妇,我们通常也不应该用“患者”或“病人”这样的称谓。

研究对象可以说是一个万金油,什么时候用都是可以的。而受试者我们又要说一下了,“受试者”常与某种干预联系在一起,通常仅在干预性研究(RCT、类实验)和诊断试验中才会使用。

八.终点vs结局

结局(Outcome)——研究中患者可能出现的一种结果:某种疾病或某种状态影响下的(人的)最终(健康)状态。

终点(Endpoint)——研究中患者某一结果的替代指标:用于在研究中判断干预或因素作用效果的某种“结局”。

在临床研究中,结局通常是指患者的某种转归,比如肿瘤患者中,痊愈、死亡、复发、转移这些都可以作为结局。当然,干预或某种因素暴露下短期的改变也可以成为结局,比如红细胞的升高、体温降低等等。而终点,则是临床研究中的效应评价点,比如主要终点、次要终点,此时用“结局”就不合适了。

上面这些看起来很头疼吧,那就记个最简单的。一般在试验性研究中(比如在RCT)我们一般使用“终点”,生存分析是有时也会用观察终点这一说法;而在其他类型的研究中,常使用“结局”。

九.排除vs剔除

所谓的排除标准就是考虑到研究的可行性和研究对象的安全,将一部分无法保证研究对象安全及不可行的符合入选条件的研究对象排除在研究之外。针对研究对象开始进行研究前,不将符合排除标准的对象作为研究对象纳入,这就是排除。

在临床研究中,根据入选排除标准确定研究对象之后,在研究中我们还会发现一些患者无法接受进一步干预或观察,或者在研究期间才能发现研究对象的某些特征不属于我们将要外推的范围。此时虽然这些对象在研究初期被确定为“研究对象”,认为他们属于研究结果将要外推到的人群,但实际上他们并不属于该类人群。这时我们就要将该类研究对象“剔除”出研究,相应的标准就是剔除标准。

简而言之,排除是在研究初期用于选择研究对象的;剔除是在研究中期用于去除随时发现的非外推人群的研究对象。

自考医学统计学知识点汇总总结

我感觉好多人学统计学啊,关于统计,你可以把它理解成是一个工具。所以首先你得会用这门工具。问题是大部分老师上统计学课程的时候,往往一到统计学关键的地方重视就不够,而关于不那么重要的计算和证明倒是很重视……

首先一定是要多思考,多用脑。比如统计里的思想方面,为什么要这么假设?出现钟形曲线就是正态吗?理论研究的往往是有放回的抽样,而现实中我们应用于无放回抽样,这样可行吗?多元统计中那么多方法都是有用的吗,有些是可以等价的吗?虚拟变量的引入合理吗?…………我们学习的时候不要只是被动的看每个新的知识点,有可能课本上简简单单的一句话,在统计史上就是几十年的发展,一定要从本质上想明白新的知识引入的必要性和连续性。

其次是学会了一定要注重操作。所以一定要熟练一门统计软件,目前主流的软件有SAS、SPSS、R和matlab等,其中R是完全开源的免费软件,更新快,功能强大,应用面逐渐扩大,尤其利于画图,相对比较易学,是目前热门的新软件。一般来讲,统计的知识理解不好,软件基本上就不太能用好,相辅相成,希望同步提高。

然后就是要多看书了,看经济中计量经济学、医学统计、数据挖掘、生物统计、农业统计等等等等一类有用的书籍,会对你有很大的帮助的。

说到底,学这个一定要具备钻研能力,数学底子要比较好咯!统计也只是一个工具,统计学的发展也是各个知识点的交融,所以一定要运用统计知识去用于其他领域,希望统计学学子可以努力扩大自己的知识面!

如果你选择了统计学,那么一个好的数学基础对你职业生涯的提升帮助很大,但方向不要搞偏了,你不是要当陈景润的,所以抽象代数、拓扑、偏微分方程、微分几何之类的课,不是必修就不必上了。哪些课有用,哪些课没用,哪些老师讲得好,哪些老师不行,平时多问问学哥学姐,自然一清二楚。

编程对学统计的人来说太重要了,必须熟练掌握R,强烈推荐再精通Matlab,,Python,C++科学计算库中至少一门。我说的精通并不是说你要什么都会,时间上也不允许。什么该学什么不该学,你到了用的时候自然知道,但是基本操作/数据类型/各种loop之类/函数定义/函数和文件的输入输出...这些基础可以先打好。

另外我还是想说三遍:不要学精算,不要学精算,不要学精算。我坚定地相信,人工智能什么deep learning在统计学方向首先机器替代人的,就是精算师这种既不需要什么创造力和综合能力,工作流程死板,人工还贵得不得了的职业。

比较推荐先在数学系或数学方向先呆一年半到两年再正式转入统计,甚至本科以数学专业毕业都没关系。个人强烈推荐的数学课有:数值分析/数值代数,最优化方法如果这个没有的话就学运筹学,数学实验(一般教你一门符号计算课程比如Mathematica,教你用计算机帮助自己打草稿,非常有用),信息论。

另外高等代数,数学分析,概率论与数理统计这种基础科目就不必多说了,到什么时候都有用。

本人是中央财经大学2015级的学生,今年6月毕业,本科学的统计学,在中财的统计与数学学院待了四年,下面简单谈一下统计学必须掌握的知识~

1. 数学分析(最重要的是掌握微积分的相关知识)。本科统计学不学高等代数(至少中财是)学的是数学分析,数学分析注重理论推导过程,对于很多数学原理的理解很有帮助。虽然统计和数学不一样,但是统计需要数学。微积分知识是后续学习概率论的基础,概率论是整个统计学专业学习的基石,对于微积分的要求比较高,一定要熟练掌握(包括原理和计算)!!

2.高等代数(或者线性代数)。高等代数比线性代数难,内容更多,线性代数较为简单,本人本科学的是高等代数,涉及到的原理推导和知识更多,线性代数只是涉及到代数最基础的知识,对于后续学习概率论与数理统计课程的帮助不如高等代数明显。(下图为本人本科学习高等代数的教材)

3.概率论与数理统计(最最最基础)。统计学必须学习的课程,各个高校选取的教材不一样,本人本科学的是卯时松版的课本,同时参考过浙江大学版的教材,卯时松版教材较难,对于深入理解概率论与数理统计帮助很大,很多原理性的东西可以掌握,课后习题难度较大。浙江大学版本的较为基础,可以两本教材结合使用,不同人撰写的教材差别较大,虽然很多原理共通但还是对思维有较大影响。概率论与数理统计的知识都要熟练掌握!不要遗漏任何知识点!对于后续学习非参数统计等专业课程很重要!(图1为卯时松版教材)

(下图为浙大版教材)

4.另外,随着网络的发展,对于软件的使用也有要求,统计学一般都会接触到R语言这个APP(搜索引擎搜索“R”就出现官网,点击下载安装即可),本科课程都会涉及到软件教学,这是最实用的一门课,一定要熟悉使用软件!

以上就是关于统计学基础知识的回答啦,希望可以帮助到你~

1.u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。2.单样本或两样本时用t检验,3样本或者3组以上用方差分析。两样本t检验与方差分析等效,F=t^2。3.卡方检验一般有2*2,2*C,R*C和配对资料卡方检验。注意理论频数不能太小,如有小于1或者1/5以上的格子小于5,则要考虑合并,或者采用fisher确切概率检验。配对资料b+c>40时,卡方=(b-c)^2/(b+c),当b+c<=40时,用(|b-c|-1)^2/(b+c)。4.非参数检验对数据的分布没有要求5.假设检验基本思想就是小概率事件在一次抽样中不会发生。建议你还是参考相关的书籍吧,回答的不够准确

医学统计学自考重点总结知识点

医学统计学重点知识如下:

1、医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。

2、医学多元统计方法:多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。

3、变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。

4、截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/终止(研究时限已到而终止观察)。

5、总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。

医学统计学重点知识归纳u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。

1)求极差(Range)R=Xmax-Xmin (29.64-7.42=22.22)。

2)确定组数和组距、划分组段组数确定需根据样本大小决定,一般取10组左右。(22.22/12=1.85)。

3)频数统计,列频数表。

图形特征:

集中性:正态曲线的高峰位于正中央,即均数所在的位置。

对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。

均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。

关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。

1.u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。2.单样本或两样本时用t检验,3样本或者3组以上用方差分析。两样本t检验与方差分析等效,F=t^2。3.卡方检验一般有2*2,2*C,R*C和配对资料卡方检验。注意理论频数不能太小,如有小于1或者1/5以上的格子小于5,则要考虑合并,或者采用fisher确切概率检验。配对资料b+c>40时,卡方=(b-c)^2/(b+c),当b+c<=40时,用(|b-c|-1)^2/(b+c)。4.非参数检验对数据的分布没有要求5.假设检验基本思想就是小概率事件在一次抽样中不会发生。建议你还是参考相关的书籍吧,回答的不够准确

自考医学统计学知识点归纳总结

1.u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。2.单样本或两样本时用t检验,3样本或者3组以上用方差分析。两样本t检验与方差分析等效,F=t^2。3.卡方检验一般有2*2,2*C,R*C和配对资料卡方检验。注意理论频数不能太小,如有小于1或者1/5以上的格子小于5,则要考虑合并,或者采用fisher确切概率检验。配对资料b+c>40时,卡方=(b-c)^2/(b+c),当b+c<=40时,用(|b-c|-1)^2/(b+c)。4.非参数检验对数据的分布没有要求5.假设检验基本思想就是小概率事件在一次抽样中不会发生。建议你还是参考相关的书籍吧,回答的不够准确

医学统计学重点知识归纳u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。

1)求极差(Range)R=Xmax-Xmin (29.64-7.42=22.22)。

2)确定组数和组距、划分组段组数确定需根据样本大小决定,一般取10组左右。(22.22/12=1.85)。

3)频数统计,列频数表。

图形特征:

集中性:正态曲线的高峰位于正中央,即均数所在的位置。

对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。

均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。

关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。

  • 索引序列
  • 自考医学统计学知识点总结大全
  • 自考医学统计学知识点总结
  • 自考医学统计学知识点汇总总结
  • 医学统计学自考重点总结知识点
  • 自考医学统计学知识点归纳总结
  • 返回顶部