用机器学习标注以太坊钱包

我们使用了机器学习——特别是主动学习,以自动识别和标记很可能属于交易所的以太坊地址。

用机器学习标注以太坊钱包

我们使用了机器学习——特别是主动学习,以自动识别和标记很可能属于交易所的以太坊地址。

这些数据推动了TRM平台,帮助数字资产发行者和交易所保持合规并更快地增长。

这项工作建立在Sid ShekharMatthias De AliagaWill Price等人的工作的基础上,展示了如何使用主动学习来聚类和识别以太坊地址。

1、能否使用机器学习在以太坊上识别交易地址?

我们尝试通过无监督和有监督的学习来回答这个问题。我们首先使用无监督学习来看看数据中可能有哪些意想不到的模式。然后我们使用有监督学习来获得更明确的结果。

首先,我们收集了数据。

我们使用了Google BigQuery 的以太坊数据集来提取按 ETH 交易量排名的前 1,000,000 个地址。

为了从地址中提取模式(例如,哪些地址属于交易所),我们首先定义了我们要进行比较的特征。

对于每个地址,我们计算了 40 多个有助于我们对地址进行分类的特征。这些特征(在机器学习中称为特征)包括该地址持有的资产统计信息、交易频率以及与其交易的对象。

现在我们收集了数据,是时候运行计算了。

方法 1:无监督学习

在开始之前,我们进一步清理了数据:一些降维和缩放(主成分分析和 T-SNE)。

前两个主成分上的地址可视化

我们训练了一个 K-means 算法,看看以太坊地址中是否有自然的“聚类”。我们希望看到多个区分良好的聚类。

我们使用 TRM 平台的一小部分标记地址来测试模型的准确性。

并且,发现这些地址区分良好。

此图表显示了不同特征之间的相关性,并用于选择特征。

我们在聚类中看到的一个问题是,两个交易所拥有的地址可能看起来非常不同。例如,这个Binance拥有地址有非常大的 ETH 余额(1M+)和很少的交易(约 100 次),而这个Bibox拥有地址有较小的 ETH 余额(3K)和许多交易(450K+)。

无监督学习帮助我们看到交易所拥有的地址与其他类型地址(如做市商、场外交易柜台、零售投资者)之间可能存在明显的差异。

现在,我们使用有监督学习来预测一个新的特定地址是否是交易所拥有的地址。

方法 2:有监督学习

我们的目标:建立一个系统,可以自动检测和标记交易所拥有的以太坊地址。

我们决定使用主动学习,因为未标记地址的数量很高,手动标记既耗时又昂贵。

我们首先为每个地址生成了超过 40 个特征。作为预处理的一部分,我们丢弃了一些与其他特征高度相关的特征。

皮尔逊相关性后

我们在初始标记的交易所地址集上训练了分类模型。

此决策树分类器用于可视化模型中最关键的特征。

然后我们使用这个模型来预测未标记地址成为交易所地址的概率。

在我们模型预测为“高概率”交易所的 100 个地址中,有 95 个被确认实际上是交易所拥有的地址。

在验证了模型的准确性之后,我们将其应用于整个以太坊区块链,以标记更多的交易所拥有的地址。

3、结束语

通过这个项目,我们能够标记超过 600,000 个新的以太坊地址。 接下来,我们将应用我们的经验,扩展我们标记的地址范围,涵盖所有类别:从做市商到暗网市场。

这些新标记的以太坊地址帮助我们推进了使区块链更加可信和安全的使命。通过去匿名化区块链数据,我们使金融机构更容易遵守如 KYC/AML 等法规。


原文链接:How we used machine learning to classify one million Ethereum addresses

DefiPlot翻译整理,转载请标明出处

免责声明:本站资源仅用于学习目的,也不应被视为投资建议,读者在采取任何行动之前应自行研究并对自己的决定承担全部责任。