Stata · 2021年11月26日

我的Stata数据集有多大?

数据集大小的粗略计算是

这里

  N = 观测值数

         V = 变量数

         W = 变量的平均字节宽度

在近似 W 时,记住

假设您有一个包含 20,000 个观测值的数据集。 该数据集包含

因此,变量的平均宽度为 W = 58/20 = 2.9 字节。

您的数据集的大小是

这个结果稍微低估了数据集的大小,因为我们没有包含任何可能添加到数据中的变量标签、值标签或注释。 这不算多。 例如,假设您为所有 20 个变量添加了变量标签,并且标签文本的平均长度为 22 个字符。 这将总计 20*22=440 字节或 440/10242=.00042 兆字节。

公式说明

N*V*W 当然是数据的总大小。 为此,我们添加了 4*N,因为 Stata 为每个观测值秘密存储了一个 4 字节的指针。

分母中的 1,0242将结果重新调整为兆字节。 是的,结果除以 1,0242,即使 1,0002 = 一百万。

计算机内存以二进制递增。 尽管我们认为 k 代表千,但在计算机业务中,k 确实是一个“二进制”千,210 = 1,024。

兆字节是二进制的百万——二进制 k 的平方:

        1 MB = 1024 KB = 1024*1024 = 1,048,576 bytes

对于便宜的内存,我们有时会谈论千兆字节。 以下是二进制千兆的推演:

        1 GB = 1024 MB = 10243 = 1,073,741,824 bytes