在Python中执行随机性的Runs测试
介绍
随机性的概念在洞察力、密码学和模拟等不同领域起着至关重要的作用。决定一系列信息是否真正不规则或显示一些基本设计,在许多应用中是基础性的。用于此目的的一种常用的可测量测试是随机性的运行测试。在本文中,我们深入探讨了随机性的运行测试,并说明如何使用Python进行测试,Python是一种灵活的编程语言,广泛用于统计分析。通过利用Python和scipy.stats模块的强大功能,可以高效地应用运行测试来评估给定数据集的随机性。
理解运行检验
Runs测试是一种非参数可测的测试,它检查数据集中值的分组情况,以确定它们是否不规则或显示一些有效模式。它基于“runs”的概念,这些连续事件的值要么超过某个阈值,要么低于某个阈值。通过分析分组中的运行次数,我们可以评估信息的随机性。
游程测试的基本怀疑是,在真正的随机性分组中,游程数量往往会在特定的传播之后发生。如果观看的运行次数基本上偏离了预期的传播,则表明信息中存在设计的接近性或偏差。
Z 检验统计量方程
Z-test 测量可以是理论测试中使用的一种测量,用于确定总体平均值中缺少信息点或测试平均值的标准差有多少。当大众标准差已知时,通常会使用它。 Z−test 测量的方程为:
立即学习“Python免费学习笔记(深入)”;
Z = (X − µ) / (σ / √n)
Where:
(在哪里)Z是Z−检验的测量值,
X是测试平均值,
μ 是总体平均值,
σ 是总体标准差,且
n是测试大小。
这个公式允许我们将一个测试均值转换为Z-分数,这有助于确定在无效假设为真的情况下获得这样的测试均值的可能性。通过将Z-测试测量与标准正态分布的临界值进行比较,我们可以做出接受或拒绝无效假设的决策。
在Python中实现Runs测试
算法
第1步:输入信息序列。
第 2 步:初始化因子:num_runs = 1,n = 信息序列的长度。
第 3 步:通过比较顺序元素,在信息序列中运行数字。
第四步:使用expected_runs计算预期得分。
第 5 步:使用 std_deviation 计算标准差。
Example
的中文翻译为:示例
def run_test(data): n = len(data) num_runs = 1 for i in range(1, n): if data[i] != data[i - 1]: num_runs += 1 expected_runs = (2 * n - 1) / 3 std_deviation = ((16 * n - 29) / 90) ** 0.5 z_score = (num_runs - expected_runs) / std_deviation return num_runs, expected_runs, std_deviation, z_scoreif __name__ == "__main__": data = [12, 10, 8, 9, 7, 5, 4, 6, 8, 10] num_runs, expected_runs, std_deviation, z_score = run_test(data) print("Data:", data) print("Number of Runs:", num_runs) print("Expected Runs:", expected_runs) print("Standard Deviation:", std_deviation) print("Z-Score:", z_score) print("Conclusion:") if abs(z_score) <h3>输出</h3><pre class="brush:php;toolbar:false;">Data: [12, 10, 8, 9, 7, 5, 4, 6, 8, 10]Number of Runs: 10Expected Runs: 6.333333333333333Standard Deviation: 1.2064640713902572Z-Score: 3.039184301975457Conclusion:The Run Test result is statistically significant.
限制和注意事项
尽管随机性的Runs检验可能是一种有价值的事实工具,但在进行Python的Runs检验时,要注意其限制和考虑因素。以下是在执行Runs检验时要确保的几个要点:
样本估计:运行测试需要足够大的测试估计来提供可靠的结果。如果数据集太小,测试可能不够敏感,无法准确识别随机性的偏差。建议测试测量值至少为 20,以获得可靠的结果。
自治假设:运行测试接受数据集中的感知彼此独立。如果信息焦点不是自主的或表现出某种形式的自相关,则运行检验的结果可能是片面的或有问题的。这样,保证近期应用测试的信息的自由度就具有重要意义。
阈值确定:运行测试包括表征阈值,以识别高于和低于该限制的运行值。边缘的选择完全可以影响测试的结果。必须选择与所分析信息的性质相符的拟合边缘。边缘不宜太极端或太宽松,因为这可能会导致欺骗性的结论。
结果解释:虽然运行测试提供了有关数据集随机性的一些知识,但谨慎解读结果至关重要。该测试并不权威地证明随机性或非随机性,而是调查随机性的起飞程度。值得注意的 p−值建议从随机性中起飞,但它不提供有关信息中的性质或特定设计的信息。
与预期输送量的比较:运行测试将观察到的运行次数与基于随机性的预期离散度进行比较。在任何情况下,值得注意的是,预期的离散度可能会根据信息的特征和所使用的游程测试的特定变化而变化。因此,在解读结果时考虑适当的预期收益至关重要。
结论
随机性的运行测试可能是评估数据序列的随机性的重要工具。通过分析数据集中的运行次数,我们能够确定信息是否显示任何基本模式或偏差。Python以其丰富的库环境,为执行统计测试(如运行测试)提供了一个有用的平台。在本文中,我们探讨了运行测试的概念,并概述了使用scipy.stats模块在Python中进行运行测试的步骤。请记住,统计测试并不能作为随机性或非随机性的确凿证据,但它们作为分析信息的重要工具。