GCN数据集Cora、Citeseer、Pubmed文件分析
Cora、Citeseer和Pubmed是三个常用的图分类数据集,用于研究和评估图分类算法。
Cora数据集:
由Cornell大学研究人员创建。
包含文献数据库中的2708篇科研论文,分为7个领域。
每篇论文由一个128维度的词袋模型表示。
论文之间的边表示引用关系。
Citeseer数据集:
由Cornell大学研究人员创建。
包含3327篇科研论文,分为6个领域。
每篇论文由一个3703维度的词袋模型表示。
论文之间的边表示引用关系。
Pubmed数据集:
由美国国立卫生研究院创建。
包含19717篇生物医学论文,分为3个领域。
每篇论文由一个500维度的词袋模型表示。
论文之间的边表示共同作者关系。
这些数据集常用于图分类任务,其中图分类是指根据节点的属性和连接方式,将图中的节点划分到不同的类别中。这些数据集对于研究者来说是非常有用的,因为它们提供了现实世界中各种领域的真实数据,可以用来评估和比较不同的图分类算法的性能。
阅读剩余
THE END