加载中 ...
首页 > 股票 > 区块链 > 正文

区块链存储爆炸:问题、分析与优化

2021-12-24 12:12:41 来源:广东财经网

(编按:本文为QuarkChain创始人兼CEO周期博士撰写的技术文章,并以此文章问依据,在DApp Learning进行了技术分享讲座,中文讲座视频请点击文章第二篇推送 )

背景

DeFi、GameFi等去中心化应用的蓬勃发展,极大地增加了对低交易费用的高性能区块链的需求。然而,构建高性能区块链的一个关键挑战是存储爆炸。下图是取自 Etherscan 的图表,它说明了一个以太坊全节点(存档)的区块链数据大小。


      区块链存储爆炸:问题、分析与优化

从图中我们可以看出,节点的链数据规模稳步增长,现在已经达到~9TB。由于去中心化区块链的一个目标是允许普通配置的计算机运行节点,因此在普通配置的计算机上强制要求 9TB+ 存储会难以达到。

分解存储开销

如果我们进一步分析存储使用情况,我们可以发现区块数据只占了约300GB的数据(从区块高度0到13.6M),这一数字远小于9TB。那么剩下的8.7TB数据从何而来呢?

实际上,存档节点执行所有块并保留所有历史数据,包括:

区块

状态

交易收据

这其中,状态是这 8.7TB 的主要组成部分。所以有时,我们将存储爆炸称为“状态爆炸”。但是为什状态会如此之大?

什么是以太坊状态?

以太坊状态是一个Merkle Patrica树(MPT),其中

叶子节点是地址 (0x...) => 帐户的映射,其中帐户存储与地址关联的余额、nonce等

内部节点维护树结构,以便可以快速计算整个树的哈希根


      区块链存储爆炸:问题、分析与优化

由于存档节点将保留所有区块的所有历史状态,这意味着 MPT 中的任何更新都将创建 O(log(N)) 个内部节点,并且不会删除旧的内部节点。


      区块链存储爆炸:问题、分析与优化

Geth 的全节点

为了解决存档节点状态爆炸的问题,Geth 的天才工程师们创建了一种称为“修剪”模式的新模式,该模式仅定期存储 MPT。这里我们举一个简化的例子,其中节点只保存每 3 个区块的MPT。(注意,为了获得一个不包含任何状态区块的状态,节点必须获得该区块之前最近的状态,并重放接下来的交易)。


      区块链存储爆炸:问题、分析与优化

通过定期存储 MPT,状态的存储大小显著减少。据 Etherscan 数据,目前 Geth 全节点的区块链数据大小约为 1TB。


      区块链存储爆炸:问题、分析与优化

Geth 的可快速同步的全节点

通过从创世区块开始重放所有交易来运行节点的一个问题是,重放所有交易会占用很长时间。一般来说,建立这样一个节点需要数周时间才能从创世区块赶上网络的最新状态。为了加速节点的启动过程,Geth 进一步提供了一种快速同步模式,可以下载最新的稳定区块的 MPT,而无需重放和维护区块之前的历史 MPT。下载完 MPT 后,它会像全节点一样重放新区块(带有定期状态存储)。


      区块链存储爆炸:问题、分析与优化

在不存储历史 MPT(有时甚至是历史区块主体)的情况下,一个 Geth 节点的存储大小可以进一步减少到 447G(截至 2021/12/06)。通过减去 300GB 的区块数据,我们推断状态大小约为 150GB。

问题

以目前以太坊 447GB 的存储大小和 15 TPS,我们预计具有 1TB SSD 的普通配置计算机应该能够运行以太坊节点相当长的一段时间(比如数年)。那么存储爆炸或状态爆炸真的存在吗?或许未来几年以太坊并不会,但假如我们可以将以太坊的虚拟机 (EVM) 扩展到数百或数千 TPS 呢?

让我们将目光转向另一个基于 EVM 的链,币安智能链(BSC)。截至 2021 年 12 月 8 日,BSC 已有:

约 984 GB 链上数据,其中区块约占 550 GB,状态约占 400 GB。

20.6623 亿笔交易,100 TPS

如果我们进一步用交易数量来预测数据大小,我们可以得到:

如果 TPS 为 100,即 ~3,153 M TPY

1 年后,总 TX ~5,219M,区块 ~ 1.375 TB,状态 ~ 1.085TB

3 年后,总 TX ~11,525M,区块 ~3.025TB,状态 ~2.387 TB

如果 TPS 为 150(观察到的峰值 TPS),即 ~4,730 M TPY

1 年后,总 TX ~6,796M,区块 ~1.809 TB,状态 ~1.427 TB

3 年后,总 TX ~16,256M,区块 ~4.327 TB,状态 ~3.414TB

综上所述,对于BSC来说,如果保持目前的速度甚至更高,则很快就会达到以太坊存档节点相同的存储大小,这是普通计算机几乎无法运行的。

具有极高 TPS 区块链的存储爆炸问题

如果我们对一个极高 TPS 的区块链(比如像 QuarkChain 能够做到的那样)做一个更大胆的假设,这个数字会变成多少?我们来考虑一个具有 1000 TPS 的区块链并分析其区块和状态大小,将是:

假设 tx 大小约为 100 字节,每年区块所需的存储量为 1000 (TPS) * 100(每 tx 字节数)* 365 * 24 * 3600 = 2.86 TB

假设 MPT 有 100 亿账户(超过世界人口!),我们预计状态大小将为 150G(以太坊状态大小)/0.18B(以太坊唯一地址)* 10B = 8.3 TB

将这些数字放在一起,我们很容易得出一个结论,这是大多数普通配置计算机将 无法承受的要求!

优化

为了优化存储成本,我们必须将限制放宽为兼容 EVM 而不是兼容以太坊。即,我们必须构建/运行另一个支持 EVM 的链,而不是高度优化的以太坊客户端。

状态存储优化

我们提出的第一个优化是使用普通的 KV 而不是 MPT。当 MPT 很大时,MPT 中的所有内部节点可能非常昂贵。而我们的优化将去掉 MPT 中的所有内部节点。假设每个账户的数据大约是 50 字节(20 个地址 + 2 个nonce + 12 个账户 + 其他),我们可以节省下100亿账户的数据为:

~ 10B * 50 + 100GB(代码)= 600 GB,大约是MPT版本的1/10!

虽然使用普通 KV 会带来巨大的好处,但一个主要问题是我们无法在如此短的区块间隔内计算每个区块的状态后哈希,这意味着我们将失去以太坊的以下好处:

快速同步:下载任何区块的状态并通过重放剩余的区块来快速同步网络

分叉检测(或拜占庭检测):来自对等方新创建的区块是否会导致与本地执行区块的状态不同。

为了启用快速同步,我们有一个周期性的快照区块(快照间隔 = epoch = 例如,14 周)。一个快照区块包含前状态哈希这一附加信息,即前一个快照区块的后状态哈希(执行交易之后的状态哈希):

非快照区块不维护状态哈希,而是具有增量哈希,其中包含该区块的所有交易事务的原始数据库操作(删除、更新)的哈希。这使得分叉检测成为可能!

我们使用交易前状态哈希来代替以太坊中区块的交易后状态哈希。原因是节点不能立即计算状交易后的状态哈希,但是通过使用交易前状态哈希,节点可以使用整个epoch间隔来计算哈希。例如,假设状态哈希计算每秒处理 10M 的状态数据,那么计算 600 GB 的整个状态将需要 600 GB / 10 M ~ 16.67 小时(vs. epoch = 14 周)


      区块链存储爆炸:问题、分析与优化

计算状态前哈希的流程如下:

1. 当一个快照区块被接收并最终确定时,它的 KV 状态被快照,并创建一个后台线程来迭代所有 KV 条目(地址 => 帐户)并计算哈希。


      区块链存储爆炸:问题、分析与优化

2. 当下一个快照区块被创建时,计算出的状态前哈希值将存储在该区块中。同样,节点将创建 KV 的另一个快照并在后台计算其哈希。


      区块链存储爆炸:问题、分析与优化

3.当下一个快照区块被创建时,节点除了存储状态前哈希之外,节点现在可以释放快照区块的KV快照,这意味着来自快照区块以来所有被删除/更新的数据将被自动垃圾回收(例如,在 levelDB 中压缩)


      区块链存储爆炸:问题、分析与优化

其结果意味着,要存储状态,节点只需要最多两个 KV 快照(很可能是一个带增量和一个 KV 快照)。

区块存储优化

使用快照区块,我们可以通过仅存储以下数据来进一步减少节点中所需的区块数据:

最新的快照区块的交易执行前状态快照,即(最新 —  1)快照区块的交易执行后状态

(最新 — 1)快照区块之后的完整区块 

我们可以对存储成本进行简单的数学计算:假设 epoch 持续时间为 2 周,则区块重放大小为

2 * 14(天)* 24(小时)* 3600(秒)* 100 * 1000(TPS)= 224 GB!

而且,这里的数字不会随着时间的推移而增长!


      区块链存储爆炸:问题、分析与优化

总结

我们分析了以太坊当前的存储使用情况:

不仅是区块,状态存储消耗了很多的空间

当 TPS > 1000 时,存储空间用量高得令人望而却步

我们提出对区块和状态进行优化:

区块大小从每年 2.86 TB 减少到 224 GB

状态大小(~10B 帐户)从 8.3 TB 减少到 600 GB

一台 2TB 的普通配置计算机应该能满足长时间运行节点的条件

缺点:轻节点无法验证状态中的一个数据(必须是全节点)

致谢

感谢 dapp-learning 主办此次活动。教学全程视频可点击公众号第二条推送观看。

“广东财经网”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服邮箱1098101642@qq.com,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。

  • 声音提醒
  • 60秒后自动更新
  • 【民政部回应何时恢复婚姻登记】民政部社会事务司二级巡视员杨宗涛表示,婚姻登记场所是人群聚集场所,部分地区暂停婚姻登记工作是对人民群众安全负责。未停止登记的地方推广用电话、网络、qq群预约登记,控制登记人数,分批分段登记,减少人员聚集和在登记机关停留时间。已停止婚姻登记地方将根据当地疫情控制情况逐渐恢复。

    15:54
  • 欧洲央行副行长金多斯:欧洲央行还没有达到逆转利率。宽松政策的副作用更明显了。

    15:54
  • 财经网站Forexlive分析师Justin Low评瑞士1月CPI月率:尽管通胀年率保持稳定,但核心通胀率有所下降,这一点令人更加担忧。这只是进一步巩固了瑞士央行维持现有货币政策不变,并可能在未来寻求更多宽松措施的观点。

    15:54
  • 【武汉两大批发市场商户开业率超过80%】商务部市场建设司司长朱小良10日称,目前武汉生活必需品供应基本正常,除冷鲜肉、鲜叶菜等少数品种存在结构性短缺外,大部分重要生活物资供应充足,未发生明显抢购或脱销断档情况。当地白沙洲和四季美两大批发市场正常营业,商户开业率超过80%,日交易量上升至3000吨以上。(国是直通车)

    15:53
  • 【日本2019年经常项目顺差增长4.4%】日本财务省10日发布的国际收支初步统计报告显示,主要受外国人入境游消费扩大影响,2019年日本经常项目顺差增长4.4%。报告显示,2019年日本经常项目顺差为20.06万亿日元(1美元约合109.8日元)。其中,商品贸易方面,由于液化天然气价格下跌等因素,进口下降5.6%至75.56万亿日元;由于汽车部件及钢铁等产品出口减少,出口下降6.3%至76.12万亿日元。货物贸易顺差减少53.8%,为5536亿日元。(新华社)

    15:53
  • 欧元兑美元EUR/USD短线波动不大,现报1.0952。

    15:53
  • 瑞士1月CPI年率:0.2%,前值:0.2%,预期:0.1%;瑞士1月CPI月率:-0.2%,前值:0%,预期:-0.2%。

    15:52
  • 英镑兑美元GBP/USD短线走低13点,现报1.2890。

    15:52
  • 【宁德时代“供电”国产特斯拉 有望拉低售价20%】全国乘联会秘书长崔东树分析认为,“随着特斯拉国产化率提升和产能爬坡,未来特斯拉国产车型的价格下探空间还是很大的。”他预计今年下半年,国产Model 3车型的售价就有望降至25万元,降幅接近20%。(新京报)

    15:51
  • 【内蒙古:对不裁员或少裁员企业返还上年度50%失业保险费】据内蒙古新型冠状病毒肺炎疫情防控工作指挥部消息,疫情期间,内蒙古对不裁员或少裁员的企业返还上年度实际缴纳失业保险费的50%,对面临暂时性经营困难的中小企业,返还标准提高到上年度6个月企业及其职工缴纳社会保险费的50%。

    15:51
  • 【商务部:2019年服务进出口总额54152.9亿元 同比增长2.8%】商务部新闻发言人表示,2019年,在服务贸易创新发展试点等政策的激励下,我国服务贸易总体保持平稳向上态势,逆差明显下降,结构显著优化,高质量发展成效初步显现。全年服务进出口总额54152.9亿元(人民币,下同),同比增长2.8%。其中,出口总额19564.0亿元,同比增长8.9%;进口总额34588.9亿元,同比减少0.4%。(第一财经)

    15:51
  • 【振华股份:疫情导致下游客户开工推迟 产品库存上升】振华化学公告,公司目前生产经营稳定,所有产能均正常开工,原材料采购能基本满足生产需要,由于疫情导致下游客户开工推迟,公司出货量减少,产品库存有所上升。公司将根据客户需求、疫情及市场变化,适度调整生产经营策略,尽可能保持生产经营的稳定。

    15:50
  • 环旭电子2月10日晚间公告,公司2020年1月合并营业收入为23.27亿元,较去年同期的合并营业收入减少27.83%,较2019年12月合并营业收入环比减少37.23%。

    15:49
  • 精测电子:与京东方集团签订了多份销售合同,合同累计金额达到6.96亿元。

    17:12
  • 华夏银行:银保监会同意本公司在全国银行间债券市场发行不超过100亿元人民币的金融债券,募集资金全部用于绿色信贷。

    17:03