Filecoin:深入探讨分布式数据计算的重要性和商业潜力

Filecoin:深入探讨分布式数据计算的重要性和商业潜力

编者按:本文主要取材于 David Aronchick 在 2023 年巴黎 Filecoin Unleashed 大会上的演讲。David 是Expanso的首席执行官,也是协议实验室(Protocol Labs)的前数据计算负责人,该实验室负责Bacalhau项目的启动。本文仅代表原创内容创作者的独立观点,并已获得重新发布的许可。

据IDC称,截至 2025 年,全球存储的数据量将超过 175 ZB。这是一个庞大的数据量,相当于 175 万亿个 1 GB 的 U 盘。这些数据大部分在 2020 年至 2025 年之间产生,预计复合年增长率为 61% 。

如今,快速增长的数据圈出现了两大挑战:

  • 移动数据既缓慢又昂贵。若您试图以目前的带宽下载 175 ZB 的数据,大约需要 18 亿年。

  • 合规任务繁重。全球有数百种与数据相关的管理规定,使得跨司法管辖区的合规任务几乎不可能完成。

网络增长乏力和监管限制的综合结果是,近 68% 的机构数据处于闲置状态。正因如此,将计算资源转移至数据存储地(广义上称之为 compute-over-data ,即“数据计算”)而不是将数据转移至计算地变得尤为重要,Bacalhau 等数据计算(CoD)平台正在为此而努力。

在接下来的章节中,我们将简要介绍:

  • 当下的机构如何处理数据。

  • 提出基于“数据计算”的替代解决方案。

  • 最后,假设分布式计算为何重要。

现状

目前,机构应对数据处理挑战的方式主要有以下三种方式,但均不理想。

使用集中式系统

最常见的方法是使用集中式系统进行大规模数据处理。我们经常看到机构将 Adobe Spark、Hadoop、Databricks、Kubernetes、Kafka、Ray 等计算框架结合起来使用,形成一个连接到集中式 API 服务器的集群系统网络。然而,这些系统无法有效解决网络违规问题以及其他有关数据移动性的监管问题。

这在一定程度上导致机构因数据泄露而遭受数十亿美元的管理罚款和处罚。

自行构建

另一种方法是让开发人员建设定制的协调系统,该系统应具备机构所需的认知度和稳健性。这种方法很新颖,但由于过度依赖少数人来维护和运行系统,往往面临失败风险。

无所作为

令人惊讶的是,大多数情况下,机构对其数据无所作为。例如,一个城市每天可以从监控录像中收集大量数据,但由于成本高昂,这些数据仅支持在本地机器上查看,既不能归档,也不能处理。

构建真正的分布式计算

数据处理痛点主要有两种解决方案。

解决方案一:构建在开源数据计算平台之上

Filecoin:深入探讨分布式数据计算的重要性和商业潜力

解决方案一:开源数据计算平台

开发人员可以使用开源分布式数据平台进行计算,而不是使用前文提到的定制协调系统。因为该平台开源且可扩展,机构只需构建所需的组件即可。这种设置可满足多云、多计算、非数据中心的应用场景,并能驾驭复杂的监管环境。重要的是,开源社区的访问权限不再依赖于一个或多个开发人员进行系统维护,从而降低了发生故障的可能性。

解决方案二:构建在分布式数据协议之上

在 Bacalhau 和 Lilypad 等先进计算项目的帮助下,开发人员可以更进一步,不仅在解决方案一中提到的开源数据平台上构建系统,还可以在 Filecoin 网络等真正的分布式数据协议上构建系统。

Filecoin:深入探讨分布式数据计算的重要性和商业潜力

解决方案二:分布式数据计算协议

这意味着机构可以使用分布式协议,这些协议懂得如何以更精细的方式协调和描述用户问题,从而解锁紧邻数据生成和存储位置的计算区域。这种从数据中心到分布式协议的转换可以在理想情况下进行,且仅需对数据科学家的经验做出少量改动。

分布式意味着选择最大化

通过在 Filecoin 网络等分布式协议上进行部署,我们的愿景是用户可以访问同一网络上分布在不同地区的数百(或数千台)机器,并遵循与其他机器相同的协议规则。这本质上为数据科学家打开了一个充满选择的海洋,因为他们可以请求网络:

  • 选择世界上任何地方的数据集。

  • 遵循任何治理结构,无论是 HIPAA、GDPR 还是 FISMA。

  • 尽可能以最低廉的价格运行。

Filecoin:深入探讨分布式数据计算的重要性和商业潜力

胡安三角|解码缩略语:FHE(完全同态加密),MPC(多方计算),TEE(可信执行环境),ZKP(零知识证明)

说起选择最大化的概念,就不得不提“胡安三角(Juans triangle)”,该术语是在 Protocol Labs 的创始人Juan Benet 解释为何不同用例(在未来)会有不同的分布式计算网络来支持时创造的。

胡安三角提出,计算网络通常需要在隐私、可验证性和性能这三者之间进行权衡,传统的“一刀切”方法很难适用于每种使用情况。相反,分布式协议的模块化特性使不同的分布式网络(或子网络)能够满足不同的用户需求——无论是隐私、可验证性还是性能。最终,我们将根据自己认为重要的因素进行优化。届时,将有许多方服务提供者(如三角形内方框所示)填补这些空白,并使分布式计算成为现实。

总而言之,数据处理是一个复杂的问题,需要开箱即用的解决方案。利用开源数据计算来替代传统的集中式系统是很好的第一步。最终,在 Filecoin 网络等分布式协议上部署计算平台,可以根据用户的个性化需求自由配置计算资源,这在大数据和人工智能时代至关重要。