Vitalik Buterin:反对基尼系数在加密货币中的过度使用

Kyle

    本文作者:以太坊创始人Vitalik Buterin
    特别感谢 Barnabe Monnot 和 Tinazhen 提供反馈和审查。
    基尼系数(也称为基尼指数)是迄今为止最受欢迎和广为人知的不平等不等式衡量标准,通常用于衡量某些国家、地区或其他社区的收入或财富不平等。 它很受欢迎,因为它易于理解,其数学定义可以很容易地在图形上进行可视化。
    然而,正如人们对所有试图将不平等缩减为一个数字的方案所期望的那样,基尼系数也有其局限性。 即使在衡量各国收入和财富不平等的原始背景下也是如此,但当基尼系数移植到其他背景下(尤其是:加密货币)时,情况就更是如此。 在这篇文章中,我将讨论基尼系数的一些限制,并提出一些替代方案。
    什么是基尼系数(Gini coefficient)?
    基尼系数是科拉多·基尼(Corrado Gini)于 1912 年引入的衡量不平等的指标。它通常用于衡量国家收入和财富的不平等程度,但它也越来越多地用于其他情况。
    基尼系数有两个等效的定义:
    曲线上方面积定义:绘制函数图,f(p)等于最低收入部分人口赚取的总收入所占的份额(例如,f(0.1))是收入最低的 10% 赚取的总收入所占的份额)。 基尼系数是曲线和y=x直线之间的面积,作为整个三角形的一部分:
    平均差定义:基尼系数是每对所有可能的个人之间的平均收入差的一半除以平均收入。
    例如,在上面的示例图表中,四个收入为 [1, 2, 4, 8],因此 16 个可能的差异为 [0, 1, 3, 7, 1, 0, 2, 6, 3, 2, 0, 4, 7, 6, 4, 0]。 因此平均差异为 2.875,平均收入为 3.75,因此基尼系数 =2.875/(2*3.75)≈0.3833。
    事实证明,两者在数学上是等价的(证明这个是给读者的一个练习)!
    基尼系数存在什么问题?
    基尼系数很有吸引力,因为它是一个相当简单且易于理解的统计数据。这可能看起来并不简单,但相信我,几乎所有处理任意规模人口的统计数据都那么糟糕,而且往往更糟。在这里,看看像标准偏差这样基本的公式:
    
    以下是基尼系数:
    
    那么,这有什么问题呢?嗯,有很多问题,人们写了很多关于基尼系数的各种问题的文章。在本文中,我将重点讨论一个我认为关于整个基尼系数的讨论不足的特定问题,但它与分析互联网社区(如区块链)中的不平等特别相关。基尼系数将两个实际上看起来完全不同的问题结合到一个单一的不平等指数中:受困于缺乏资源和权力集中。
    为了更清楚地理解这两个问题之间的区别,让我们看一下两个反面乌托邦:
    
  • 反面乌托邦A:一半人口平均分享所有资源,其他人什么都没有
  • 反面乌托邦B:一个人拥有一半的资源,其他人平分剩余的一半

    以下是两个反乌托邦的洛伦兹曲线(我们上面看到的花式图表):
    
    显然,这两个反面乌托邦都不是生存的好地方。它们并不是非常不同方式的生活的好地方。反面乌托邦 A 使每个居民在难以想象的可怕的大规模饥饿(如果他们最终在分配的左半部分)和平等主义的和谐(如果他们最终分配在右半部分)之间进行抛硬币。如果你是灭霸,你可能真的会喜欢这种方式!如果不是,则值得以最强的力量避免这种情况。另一方面,反面乌托邦 B 类似于《美丽新世界》:每个人都过着不错的生活(至少在拍摄每个人资源的快照时),但付出了极其不民主的权力结构的高昂代价,最好的希望是你有一个好的霸主。如果您是 Curtis Yarvin,您可能真的会喜欢它!如果你不是,那也非常值得避免这种情况。
    这两个问题很不相同,值得分别分析和衡量。这种差异同时也不仅仅是理论上的。下面的图表显示了底层的20%人口赚取的总收入的份额(避免反面乌托邦 A 的一个体面代理)与顶层 1%人口 的总收入份额(一个接近反乌托邦 B 的体面代理):
    
    Sources:?https://data.worldbank.org/indicator/SI.DST.FRST.20?(合并 2015 年和 2016 年数据)和 http://hdr.undp.org/en/indicators/186106.?
    两者明显相关(系数 -0.62),但远非完全相关(统计学认为 0.7 是“高度相关”的下限,而我们甚至低于此阈值)。图表中有一个有趣的第二个维度可以分析—— 顶层 1% 赚取了总收入的 20%而底层20% 赚取总收入的3%的国家,与顶层 1% 赚取总收入的 20%而底层20%赚取总收入的7%的国家之间的区别之处。不过,这样的探索最好留给比我更有经验的其他有进取心的数据和文化探索者。
    为什么基尼系数在非地理社区(例如互联网/加密社区)中很成问题?
    尤其是区块链领域的财富集中是一个重要问题,这是一个值得衡量和理解的问题。这对整个区块链领域很重要,因为许多人(和美国参议院听证会)都在试图弄清楚加密货币在多大程度上是真正的反精英主义,以及在多大程度上它只是用新精英取代了旧精英。在相互比较不同的加密货币时,这也很重要。
    
    在加密货币的初始供应中明确分配给特定内部人员的代币份额是一种不平等。 请注意,这个以太坊数据略有错误:内部人和基金会份额应为 12.3% 和 4.2%,而不是 15% 和 5%。
    鉴于对这些问题的关注程度,许多人尝试计算加密货币的基尼指数也就不足为奇了:
    
  • 观察到的质押 EOS 代币的基尼指数(2018)
  • 加密货币的基尼系数 (2018)?
  • 使用多种指标和粒度衡量比特币和以太坊的去中心化(2021 年,包括基尼系数和其他 2 个指标)?
  • 末日博士Nouriel Roubini 将比特币的基尼系数与朝鲜进行比较(2018 年)?
  • 加密货币市场的链上洞察(2021 年,使用 Gini 来衡量集中度)?

    甚至更早,我们还看到了 2014 年的这篇耸人听闻的文章?:
    
    除了此类分析经常犯的常见的方法论错误(通常混淆收入与财富不平等,混淆用户与帐户,或两者兼有)之外,使用基尼系数进行此类对比分析还存在一个深刻而微妙的问题。问题在于典型地理社区(例如城市、国家)和典型互联网社区(例如区块链)之间的关键区别:
    地理社区的典型居民将大部分时间和资源花费在该社区,因此地理社区中衡量的不平等反映了人们可用总资源的不平等。但在互联网社区中,衡量的不平等可能来自两个来源:(i) 不同参与者可用总资源的不平等,以及 (ii) 参与社区的兴趣水平的不平等。
    拥有 15 美元法定货币的普通人很穷,并且失去了过上美好生活的能力。拥有 15 美元加密货币的普通人只是一个业余爱好者,他们曾经为了好玩而打开过一个钱包。兴趣水平的不平等是一件健康的事情;每个社区都有自己的业余爱好者和全职铁杆粉丝。因此,如果一种加密货币具有非常高的基尼系数,但事实证明这种不平等在很大程度上来自兴趣水平的不平等,那么这个数字所指向的现实远没有标题所暗示的那么可怕。
    加密货币,即使是那些高度富裕的加密货币,也不会将世界的任何地方变成接近反面乌托邦 A。但分布不均的加密货币很可能看起来像反面乌托邦 B,如果使用币投票治理来作出协议决定,则会使问题更加复杂。因此,为了检测加密货币社区最担心的问题,我们需要一个指标来更具体地捕捉与反面乌托邦 B 的接近程度。
    另一种选择:分别衡量反面乌托邦A问题和反面乌托邦B问题
    衡量不平等的另一种方法是直接估计资源分配不均带来的痛苦(即“反面乌托邦 A”问题)。首先,从一些表示拥有一定数量货币价值的效用功能开始。很受欢迎,因为它抓住了直觉上吸引人的近似性,即收入翻倍在任何水平上都同样有用:从 10,000 美元到 20,000 美元与从 5,000 美元到 10,000 美元或从 40,000 美元到 80,000 美元的效用是相同的)。这个分数是衡量与每个人都获得平均收入相比损失多少效用的问题:
    
    第一项(平均对数)是如果货币完全重新分配,每个人都会拥有的效用,因此每个人都获得了平均收入。第二项(对数平均值)是当今该经济体的平均效用。如果您狭隘地将资源视为用于个人消费的东西,则这种差异代表了不平等造成的效用损失。还有其他方法来定义这个公式,但它们最终接近等价(例如,安东尼·阿特金森 1969 年的论文提出了一个“平均分配的等价收入水平”指标,在这种情况下,它只是上面的一个单调函数,并且 Theil L 指数在数学上完全等同于上述公式)。
    要衡量集中度(或“反面乌托邦 B”问题),赫芬达尔-赫希曼指数是一个很好的起点,并且已经用于衡量行业的经济集中度:
    
    或者对于视觉学习者:
    
    

Herfindahl-Hirschman 指数:绿地面积除以总面积。
    对此还有其他选择; Theil T 指数?具有一些相似的特性,但也存在一些差异。 一个更简单和更笨的替代方案是中本聪系数:需要的最少参与者人数加起来超过总数的 50%。 请注意,所有这三个集中度指数都非常关注顶层部分发生的事情(并且故意如此):拥有少量资源的大量参与者对指数贡献很小或没有贡献,而两个顶级参与者合并的行为可能对指数进行非常大的更改。
    对于加密货币社区来说,资源集中是系统面临的最大风险之一,但只有 0.00013 个币的人并不能证明他们实际上在挨饿,采用这样的指数是显而易见的方法。 但即使对于国家来说,可能更值得讨论和衡量权力的集中和资源缺乏的痛苦。
    也就是说,在某些时候,我们甚至必须超越这些指数。 集中性的危害不仅取决于参与者的规模; 它们还严重依赖于参与者之间的关系及其相互勾结的能力。 同样,资源分配依赖于网络:如果缺乏资源的人有一个非正式的网络可以利用,那么缺乏正式资源可能不会那么有害。 但是处理这些问题是一个更加艰巨的挑战,因此我们确实需要更简单的工具,同时我们仍然有少量数据可以使用。