stu眼视光吧 关注:3贴子:9
  • 0回复贴,共1

MERSQI评分所需知识

只看楼主收藏回复

MERSQI评分集合
October 9, 2024
目录
1 数据分析(Data Analysis)
1.1 统计学基础
1.1.1 第一类错误(Type I error)
1.1.2 显著性水平(Significance Level)
1.1.3 P 值
1.1.4 多重比较问题
1.1.5 校正方法
1.1.6 统计功效(Statistical Power)
1.2 统计分析方法
1.2.1 参数统计检验
1.2.2 非参数统计检验方法
1.3数据描述方法
2 效度验证(Validity of Instrument)
2.1 效度评估
2.1.1 收敛效度(Convergent Validity)
2.1.2 区分效度(Discriminant Validity)
2.1.3 增量效度(Incremental Validity)
2.2 MERSQI 评分与研究质量
2.2.1 Internal Structure
2.3 最佳实践标准
2.3.1 研究设计
2.3.2 适当的样本选择
2.3.3 透明度
2.3.4 数据的可靠性和效度
2.3.5 适当的数据分析
2.3.6 结果的解释
2.3.7 伦理标准
2.3.8 持续改进
3 研究领域和类型
3.1 主要研究领域
3.2 常见的研究类型
4 临床试验标准
4.1 CONSORT (Consolidated Standards of Reporting Trials)
4.2 ICH-GCP (International Council for Harmonisation of Technical Requirements for
Pharmaceuticals for Human Use - Good Clinical Practice)
4.3 World Health Organization (WHO)
4.4 National Institutes of Health (NIH)
4.5 Good Clinical Practice (GCP)
4.6 STROBE (Strengthening the Reporting of Observational Studies in Epidemiology) .
4.7 SAMPL (Standards for Reporting Diagnostic Accuracy Studies)
4.8 Transparent Reporting of Evaluations with Nonrandomized Designs (TREND)
4.9 ClinicalTrials.gov
5 响应率计算
1 数据分析(Data Analysis)
在统计分析中,“调整多重比较后”指的是在进行多重假设检验时,为了控制第一类错误(Type I error,即错误地拒绝了真实的零假设)的总概率,采取的某种校正方法。在文章中提到的统计分析 部分,研究者使用了 Mann-Whitney-U tests 来探索不同组之间的潜在差异,并在分析过程中合并 了“同意”和“非常同意”的回应,以及“不同意”和“非常不同意”的回应。
1.1 统计学基础
1.1.1 第一类错误(Type I error)
第一类错误,也称为 Type I error,是指在假设检验中错误地拒绝了一个真实的零假设(null hypothesis)。零假设通常表示没有效应或者没有差异的状态,而备择假设(alternative hypothesis) 则表示有效应或者存在差异。
1.1.2 显著性水平(Significance Level)
显著性水平(α) 是研究中用来决定是否拒绝零假设的标准。它通常被设置为 0.05 或 5%,意味 着有 5% 的概率错误地拒绝了真实的零假设。
1.1.3 P 值
P 值是在给定的零假设为真的情况下,观察到当前样本或更极端样本的概率。P 值越小,拒绝 零假设的证据就越强。
1.1.4 多重比较问题
当在一项研究中进行多个假设检验时,犯第一类错误的风险增加。这称为多重比较问题,需要 通过校正方法来控制。
1.1.5 校正方法
调整多重比较的常用方法包括:
• Bonferroni 校正:这是最保守的校正方法之一。它根据所进行的检验次数来调整显著性水平。
• Holm-Bonferroni 方法:这是一种较为实用的校正方法,它对 p 值进行排序并逐一进行比较, 每一步都使用调整后的显著性水平。
• Benjamini-Hochberg 过程:这种方法控制了假阳性发现的比例,相对于 Bonferroni 方法而言, 它对假阳性率采取了更加灵活的控制,因此通常拥有更高的统计功效。
1.1.6 统计功效(Statistical Power)
统计功效是指在零假设为假的情况下,正确拒绝零假设的概率。它与样本量、效应大小和显著 性水平有关。
1.2 统计分析方法
1.2.1 参数统计检验
• Z 检验:用于大样本均值检验。
• t 检验(Student’s t-test):
– 单样本 t 检验:检验一个样本均值是否等于总体均值。
– 独立样本 t 检验:比较两个独立样本的均值差异。
– 配对样本 t 检验(依赖样本 t 检验):比较同一组受试者在不同条件下的均值差异。
• 方差分析(ANOVA):用于三个或更多组数据均值差异的检验。
• 线性回归分析:分析一个或多个自变量与因变量之间的关系。
• 协方差分析(ANCOVA):是 ANOVA 的扩展,用于比较不同组在控制了一个或多个连续协变 量影响后的均值差异。
• 卡方检验:适用于分类变量数据的拟合优度检验。
• F 检验:用于比较两个样本方差是否相等。
• 协方差矩阵的检验:在多元统计分析中,通常需要检验变量间协方差矩阵的一些假设。
• 正态性检验:如 Kolmogorov-Smirnov 检验、Shapiro-Wilk 检验,用于检验数据是否服从正态 分布。
• 贝叶斯统计:可以放宽正态分布的假设。
1.2.2 非参数统计检验方法
• Mann-Whitney U 检验:用于比较两个独立样本是否可能来自同一个总体。
• Wilcoxon 符号秩检验:用于两个配对样本的差异是否显著。
• Kruskal-Wallis 检验:用于多个独立样本比较。
• 中位数检验:用于比较两个独立样本的中位数是否有显著差异。
• 游程检验:用于检验一系列数据点是否随机分布。
• 柯尔莫哥洛夫检验:用于检验一个样本是否服从某一特定分布。
• 单样本游程检验:用于检验单个样本的随机性。
• 费里德曼双向评秩方差分析:用于多个相关样本的比较。
• 柯克伦 Q 检验:用于多个相关样本的比较。
• 斯米尔诺夫检验:用于比较两个独立样本的累积分布函数是否相同。
• 二项分布检验:用于检验观测频数与期望频数是否一致。
• 卡方拟合优度检验:用于检验观测频数与期望频数是否一致。
• 麦克勒玛检验:用于两个相关样本的比较。
• 推广中位数检验:用于比较两个独立样本的中位数。
• 肯德尔协和系数检验:用于多个相关样本的一致性检验。
1.3 统计描述方法
1. 描述性分析(Descriptive analysis only):
- 平均值(Mean): 计算数据集的中心点或平均值。
- 百分比(Percentages): 将数值转换为百分比形式,以便于理解数据在总体中的占比。
- 频率(Frequency): 计算数据集中特定值或值的范围内出现的次数。
- 众数(Mode): 确定数据集中出现次数最多的值。
- 标准差(Standard Deviation): 衡量数据集中的数值与平均值的偏离程度。
2. 超越描述性分析(Beyond descriptive analysis):
- 推断性统计( Inferential Statistics):
- t检验(t-tests): 比较两组数据的均值差异是否具有统计学意义。
- 方差分析(ANOVA): 比较三个或更多组别的均值差异。
- 卡方检验(Chi-square tests): 评估两个分类变量之间是否存在关系。
- 相关性分析(Correlation Analysis):
- 皮尔逊相关系数(Pearson's correlation coefficient): 评估两个连续变量之间的线性关系。
- 斯皮尔曼等级相关系数(Spearman's rank correlation coefficient): 评估两个变量的等级或顺序之间的相关性。
- 回归分析(Regression Analysis):
- 简单线性回归(Simple linear regression): 预测一个变量(因变量)基于另一个变量(自变量)。
- 多元回归分析(Multiple regression analysis): 预测一个变量基于多个其他变量。
- 多变量分析(Multivariate Analysis):
- 因子分析(Factor analysis): 识别变量之间的潜在关系,减少数据的复杂性。
- 聚类分析(Cluster analysis): 将数据点分组,使组内相似度高,组间差异大。
- 项目反应理论分析(Item Response Theory Analysis):
- 评估问卷或测试题目的性能,了解题目对测量变量的敏感性。
- 结构方程模型(Structural Equation Modeling, SEM):
- 评估多个变量之间的复杂关系,包括潜在变量的影响。
2 效度验证(Validity of Instrument)
”Relationship to other variables” 在评价工具的效度(validity) 中指的是评估工具的结果是否 能与理论预期或实际观察到的其他变量之间存在一致的关系。这通常涉及到以下几个方面:
2.1 效度评估
2.1.1 收敛效度(Convergent Validity)
评估工具的结果与理论上预期相关的其他测量结果是否具有一致性。
2.1.2 区分效度(Discriminant Validity)
评估工具的结果是否与理论上不相关的测量结果表现出差异。
2.1.3 增量效度(Incremental Validity)
评估工具是否提供了超越其他变量的额外预测价值。
2.2 MERSQI 评分与研究质量
2.2.1 Internal Structure
• 直接报告:如果研究直接报告了内部结构的检验结果,如 Cronbach’s alpha 值或其他相关统计 数据,这显示了研究者对评估工具内部结构的考量。
• 间接证据:即使研究没有直接报告内部结构的检验,如果研究者使用了适当的数据分析方法, 并且这些方法能够间接反映工具的内部结构,这也可以作为评估工具内部结构合理性的间接证 据。
• 符合标准:如果研究者的方法和报告符合《公共政策指南:教育和心理测试标准》等文献提到 的最佳实践,那么这通常可以认为他们已经充分考虑了评估工具的内部结构。
2.3 最佳实践标准
2.3.1 研究设计
研究应该有清晰的研究问题和目标,选择与研究问题相匹配的研究设计,如随机对照试验、准 实验设计或定性研究方法。
2.3.2 适当的样本选择
确保样本具有代表性,以便研究结果可以推广到更广泛的群体。
2.3.3 透明度
在报告研究时,应该提供足够的信息,包括研究方法、数据收集和分析过程,以便其他研究者 可以复制研究。
2.3.4 数据的可靠性和效度
使用经过验证的工具和程序来收集和分析数据,确保数据的可靠性和效度。
2.3.5 适当的数据分析
使用适合数据类型和研究设计的统计方法进行数据分析。
2.3.6 结果的解释
客观地解释研究结果,考虑可能的局限性和偏差。
2.3.7 伦理标准
遵守研究伦理标准,包括获取知情同意、保护参与者隐私和确保数据安全。
2.3.8 持续改进
基于反馈和新的研究成果,不断改进研究方法和实践。
《公共政策指南:教育和心理测试标准》(American Educational Research Association, American
Psychological Association, & National Council on Measurement in Education, 1999)是评估教育和 心理测量工具的权威指南,它提供了关于测试设计、实施和评分的详细建议。
3 研究领域和类型
3.1 主要研究领域
医学研究:包括临床试验、流行病学研究等。生物科学研究:涵盖遗传学、生物化学、生态学 等。物理科学:包括物理学、化学、天文学等。工程与技术:涉及机械工程、电子工程、计算机科 学等。社会科学: 包括心理学、社会学、经济学、政治学等。教育研究: 关注教学方法、学习理论、 教育政策等。人文学科:如历史学、文学、哲学
3.2 常见的研究类型
定量研究:侧重于通过数字和统计分析来量化研究问题。定性研究:侧重于理解社会现象的深 入描述和解释。实验研究:通过控制和操纵变量来测试因果关系。观察性研究:在自然环境中观察 和记录现象,不操纵变量。回顾性研究: 分析过去的数据或事件。前瞻性研究: 向前看,收集和分析 未来的数据。随机对照试验 (RCT):医学研究中常用的一种实验设计,用于测试医疗干预措施。病 例对照研究:比较有特定疾病的人群和没有该疾病的人群。队列研究: 观察一组人群随时间的变化, 以研究特定结果。横断面研究:在某一特定时间点对人群进行调查或测试。
4 临床试验标准
4.1 CONSORT (Consolidated Standards of Reporting Trials)
CONSORT 是一个广泛认可的关于如何报告随机对照试验(RCTs)的国际标准。它提供了一个检
查清单和一个流程图,以帮助作者报告 RCTs 的方法、结果和讨论。网站: http://www.consort-statement.org/
4.2 ICH-GCP (International Council for Harmonisation of Technical Re-
quirements for Pharmaceuticals for Human Use - Good Clinical Prac-
tice)
ICH-GCP 提供了关于设计、实施、记录和报告涉及人类受试者的临床试验的伦理和科学质量标 准。网站: https://www.ich.org/gcp.html
4.3 World Health Organization (WHO)
WHO 提供了一系列的指南和工具,包括临床试验的设计、实施和报告。网站: https://www.who.int/
4.4 National Institutes of Health (NIH)
NIH 提供了广泛的资源,包括临床试验设计、患者招募和数据管理。网站: https://www.nih.gov/
4.5 Good Clinical Practice (GCP)
GCP 是一套国际伦理和科学质量标准,用于设计、实施、记录和报告涉及人类受试者的临床 试验。GCP 旨在确保受试者的权益、安全和福祉, 同时确保临床试验数据的可信性。网站: https://www.fda.gov/regulated-industry/good-clinical-practice-gcp
4.6 STROBE (Strengthening the Reporting of Observational Studies in Epi-
demiology)
虽然 STROBE 主要用于观察性研究,但其原则也适用于临床试验的某些方面,特别是在报告 结果时。网站: http://www.strobe-statement.org/
4.7 SAMPL (Standards for Reporting Diagnostic Accuracy Studies)
SAMPL 是针对诊断准确性研究的报告标准,包括许多临床试验中使用的测试和程序。网站: http://www.sampldb.org/
4.8 Transparent Reporting of Evaluations with Nonrandomized Designs (TREND)
TREND 旨在改善非随机化评估的报告,包括某些类型的临床试验。网站: http://www.trend-statement.org/
4.9 ClinicalTrials.gov
这是一个由美国国立卫生研究院(NIH)维护的数据库,提供有关公共和私人支持的临床研究 (包括那些进行中的和已完成的研究)的信息。它要求所有研究在开始前注册, 并在完成后报告结果。 网站: https://clinicaltrials.gov/
5 响应率计算
RR1:这是最基本的响应率计算方式,只计算完全完成的访谈数量,除以所有尝试访谈的总数 (包括完成和未完成的访谈,以及所有未知资格的案例)。
RR2:在这个计算中,部分完成的访谈也被算作响应。
RR3:这是最常见的响应率计算方式,它考虑了未知资格的案例中可能存在的合格案例。需要 估计未知资格案例中合格者的比例,这个估计必须基于科学信息,不能随意选择。
RR4:与 RR3 类似,但包括了部分完成的访谈。
RR5:假设所有未知资格的案例都不可能合格,或者没有未知资格的案例。 RR6:与 RR5 相同,但包括了部分完成的访谈。


IP属地:广东1楼2024-10-12 10:30回复