我的Stata数据集有多大？

数据集大小的粗略计算是

这里

N = 观测值数

V = 变量数

W = 变量的平均字节宽度

在近似 W 时，记住

假设您有一个包含 20,000 个观测值的数据集。该数据集包含

因此，变量的平均宽度为 W = 58/20 = 2.9 字节。

您的数据集的大小是

这个结果稍微低估了数据集的大小，因为我们没有包含任何可能添加到数据中的变量标签、值标签或注释。这不算多。例如，假设您为所有 20 个变量添加了变量标签，并且标签文本的平均长度为 22 个字符。这将总计 20*22=440 字节或 440/10242=.00042 兆字节。

公式说明

N*V*W 当然是数据的总大小。为此，我们添加了 4*N，因为 Stata 为每个观测值秘密存储了一个 4 字节的指针。

分母中的 1,024²将结果重新调整为兆字节。是的，结果除以 1,024²，即使 1,000² = 一百万。

计算机内存以二进制递增。尽管我们认为 k 代表千，但在计算机业务中，k 确实是一个“二进制”千，2¹⁰ = 1,024。

兆字节是二进制的百万——二进制 k 的平方：

1 MB = 1024 KB = 1024*1024 = 1,048,576 bytes

对于便宜的内存，我们有时会谈论千兆字节。以下是二进制千兆的推演：

1 GB = 1024 MB = 1024³ = 1,073,741,824 bytes

Stata · 2021年11月26日