The Cryptonomist 采访了Anna Kazlauskas,Vana’s 的 CEO 和联合创始人,Reddit Data DAO,在第一周就有 14 万用户使用经过验证的 Reddit 账户注册。Anna 现在正与开发人员合作,为其他平台(如 LinkedIn 和 ChatGPT)构建 Data DAO。
除了DAO,他们还有其他渠道让用户将他们的数据汇集到数据集中,然后可以用于GenAI模型训练,例如创建肖像或头像。
除了Vana正在做的事情之外,我们与Anna讨论了去中心化AI领域的增长,因为平台帮助人们使用和货币化他们的数据以用于新应用程序。
Summary
你能提供一个关于Vana及其在去中心化AI领域使命的概述吗?
Vana 是一个由用户拥有数据驱动的用户拥有的AI平台。我们的使命是让用户拥有他们的数据以及通过AI模型创造的价值。为了提高AI模型的性能,对更多训练数据的需求日益增长,毕竟AI模型的好坏取决于它们的数据。
例如,LLaMA 3 在大约 15 万亿个单词上进行了训练,这大致相当于互联网上可用的数据量。公司现在正试图获取更多数据,有时为此支付数亿美元。主要科技平台正在囤积有价值的用户数据,并在不考虑用户许可的情况下构建新技术,这正在阻碍创新。
在 Vana,我们通过将数据置于用户控制之下,从这些围墙花园中解放数据。我们允许用户直接为 AI 模型做出贡献,选择他们的数据如何使用,以及 AI 如何使用。我们相信,如果我们能够访问最好的数据,我们实际上可以超越领先的模型——通过访问仅直接来自用户的数据,击败像 GPT-6 这样的模型的性能。Vana 被设计为一个第 1 层区块链,从头开始为私人、用户拥有的数据设计。
Reddit Data DAO在第一周就有14万用户注册。你认为是什么推动了这一快速采用,你从这次发布中学到了什么经验教训?
Reddit Data DAO 从采用的角度来看是一个令人难以置信的成功,在第一周就有超过 140k 用户注册。这样的采用水平对于 DAOs 来说是不同寻常的——它现在是历史上最大的 data DAO。
推动快速采用的原因之一是,故事的很大一部分已经被阐明,因为用户通过新闻报道数据销售变得越来越意识到他们数据的价值。意识到Reddit以2亿美元出售你的数据或Apple以5000万美元购买数据会让你更加意识到其价值。
用户对在web3中构建的用户拥有的产品也有强烈的需求,这些产品超越了熟悉的DeFi产品,进入了所有权的新前沿。我们在像Farcaster、DePIN网络和基于Vana构建的数据DAOs等项目中看到了这一趋势,这些项目代表了用户拥有产品的新一波浪潮。
一个重要的教训是需要贡献证明要求。超过一百万人试图加入Reddit Data DAO,但许多人没有达到拥有一个存在一定时间并且有最少数据量的Reddit账户的标准。这突显了拥有机制以确保高质量贡献的重要性。
你提到计划为像 LinkedIn 和 Chat GPT 这样的平台创建 Data DAOs。你认为在扩展到这些平台时会遇到哪些独特的挑战和机遇?
Vana 是一个用户拥有数据的点对点网络,构建者创建了各种数据 DAO,如 Reddit Data DAO、LinkedIn Data DAO 和 ChatGPT Data DAO。
这些不同的数据来源对于训练AI 模型来说是非常有价值的,但它们目前被锁在围墙花园中。每个平台的数据都很难获取,但由于数据监管,总是有可能的。
Vana 如何赋能用户将他们的数据货币化,以及用户从中受益的一些例子是什么?
我们的目标是帮助用户同时货币化和保护他们的数据。例如,通过Reddit Data DAO,他们现在正在训练一个用户拥有的模型(目前主要集中在shitposting,但这是一个开始)。每次使用该模型时,用户都会获得报酬,从而为模型的共同所有权创造经济激励。
用户数据保持完全私密 – 而不是出售数据,数据只是“租用”,基础数据从未离开安全环境。
随着对数据隐私关注的增加,Vana 如何确保用户数据在 Data DAOs 中安全且被伦理使用?
数据隐私已经从一个纯粹的意识形态或偏好问题转变为一个经济问题。如果有人拥有你的数据,他们可能会创建一个具有经济价值的AI版本,赚取收入并可能与你竞争。这就是为什么隐私对Vana如此重要和核心的原因。
我们发明了一个名为“非托管数据”的概念,这类似于非托管钱包,但用于您的个人数据。它使您的数据完全由您控制,通过您的私钥授权。这使您的数据可以在应用程序之间便携,并在其上添加了一个原生的金融层,能够构建类似数据DAOs的东西。
Vana 的数据 DAO 创建的数据集如何增强生成型 AI 模型的训练,它们相对于传统数据集有哪些优势?
通常,AI模型是用从公共互联网抓取的数据进行训练的——这些数据无需登录即可获取。但如果从教孩子了解世界的角度来看,你不会希望他们只是随意浏览公共互联网。你会希望给他们高质量的信息,这些信息可能不是公开可用的——比如高质量的写作、思维过程或信息。AI主要是用公共数据进行训练的,但它确实需要私人数据来推动前沿发展。这就是数据DAO所实现的:用户贡献他们的私人数据来创建用户拥有的AI。
我们认为AI应该像开源软件一样,由社区创建。我们的目标是让研究人员能够访问目前被封闭花园囚禁的最佳数据集,以推动AI性能的前沿。
在未来5-10年内,您预见去中心化AI领域会出现哪些趋势,Vana如何定位自己在这个不断发展的领域中引领潮流?
去中心化AI领域在过去一年中确实加速了。例如,在今年的EthCC上,几乎每天都有去中心化AI活动,而去年则没有。人们正在研究如何将已经在金融领域运作良好的主权技术应用于AI领域。在Vana,我们相信这一切的核心基础是数据。要构建用户拥有的AI和主权AI,你需要用户拥有的数据,所以我们的重点是数据这一部分。
在接下来的5-10年里,我对一些里程碑感到兴奋:1) 一个由1亿人共同拥有的用户所有的基础模型。2) 更多能够自主赚钱的自主AI代理,并确保这些代理真正由为其训练做出贡献的用户拥有。
随着AI在经济中扮演越来越重要的角色,确保从技术和社会角度广泛分配权力。
你能分享更多关于你与开发者合作构建数据DAOs的情况吗?目前有哪些创新项目正在进行中?
Vana 是一个无许可网络,因此任何人都可以构建数据 DAO。它是一个从头开始为私人、用户拥有的数据设计的一层区块链。今天在 Satori 测试网上部署了超过 100 个数据 DAO。许多构建者是 Bittensor 生态系统的早期参与者,他们深刻理解加密货币和 AI 的交集。一些值得注意的项目包括 Twitter Data DAO、LinkedIn Data DAO 和 GitHub Data DAO。我们还与 ZK 领域和 DAO 工具领域的项目合作,使数据 DAO 更容易创建和管理。
在开发去中心化AI时,哪些伦理问题最为紧迫,Vana如何解决这些问题?
我认为当今人工智能领域最大的一个问题是,谁应该拥有模型并决定哪些数据进入它们。随着我们越来越多地依赖人工智能获取信息,它们成为我们的真相来源。无论谁决定了进入人工智能的数据,实际上就是在决定真相。让一个实体控制这一切是很可怕的。我们在Vana的观点是,社区,而不是单个公司,应该做出这些决定。
在去中心化AI中出现的另一个问题是:如果AI完全去中心化,那么如果AI失控并且没有关闭按钮怎么办?我们在Vana处理这个问题的方法是,AI模型最终由为其做出贡献的用户拥有,因此他们始终保持完全控制。
根据您在Vana和Data DAOs的经验,您会给有志于进入去中心化AI领域的企业家什么建议?
现在是开始在去中心化AI领域构建的好时机。有很多机会可以将一些在DeFi中运作良好的加密经济原语应用到新兴的去中心化数据和AI类别中。我还建议花一些时间深入研究非加密、开源的AI领域,了解人们在非加密环境中采用的一些方法。我会亲自深入一些现有项目,看看有哪些原语可以用来构建,包括尝试在Vana上启动一个数据DAO。