我的博客

Elliptic Data Set 椭圆比特币交易数据集

目录

Elliptic Data Set 是 Elliptic 在 2019 年 7 月 公布的一个带标签比特币交易数据集。

该数据集将比特币交易映射到真实实体有的属于合法类别(交易所、钱包提供商、矿工,合法服务等),也有非法服务(诈骗、恶意软件、恐怖分子组织、勒索软件、庞氏骗局等)。

其中包括 20 万笔交易,总价值 60 亿美元。有 4545 个交易(2 %)被标记为非法,42019 个交易(21 %)被标记为合法,剩余的交易是未知的,但是每个节点都有很多特征信息。

每个节点都关联了 166 个特征。前 94 个特征表示有关交易的本地信息,包括时间步、输入/输出数量、交易费用、输出量和合计数字,例如输入/输出接收(花费)的平均BTC和与输入/输出关联的平均传入(传出)交易数量。其余 72 个特征,称为聚集特征,是通过聚集来自中心节点的一跳/向前的交易信息来获得的,对于相同的信息数据(输入/输出数量、交易费用等)给出相邻交易的最大、最小、标准差和相关系数。

为了证明此数据集的强大功能,Elliptic 的科学家与来自 MIT-IBM Watson AI Lab 的研究人员发表了一篇论文,演示了如何仅使用可从区块链获得的数据,将椭圆数据集与一系列机器学习技术结合使用,以成功识别非法比特币交易

这是一个匿名的数据集,就是所有的交易都只有编号,而删掉了真实的 TXID,但是数据集的 Kaggle 页面里有一个讨论提出了一种号称 99.5% 准确率的去匿名化方案

相关的资料有:

  1. Elliptic 官网对该数据集的介绍
  2. Kaggle 上该数据集的链接
  3. 与数据集同时公布的一篇论文
  4. 号称 99.5 % 准确率的去匿名化方案

评论无需登录,可以匿名,欢迎评论!