详解图嵌入Graph Embedding之 经典数据集

Yelp数据集

Yelp数据集是由美国最大的点评网站Yelp公开维护的数据集,网站开放了能够做预测的几乎所有数据。包括——

  • [bussiness]餐馆详情:名称、地址、坐标、评分、类别、营业时间、有没有WIFI……
  • [checkin]餐馆的登记时间戳
  • [photo]餐馆上传的室内/室外照片
  • [review]用户对餐厅的评价
  • [tip]大概是用户对餐厅的建议
  • [user]用户信息,历史好评/差评数量,及其好友列表

Yelp还定期举办比赛,看哪个团队的预测结果最准确。写这篇文章的时候,比赛已经进行到了第13轮。一个需要注意的是在数据集下载界面中的“Please sign by entering your initials”是让你输入姓名中姓和名的大写首字母。[1]

Wikipedia数据集

Wikipedia数据集从英文维基百科的存档中截取了1,000,000个字节的数据,并将单词的出现建立成一张图。而单词的词性标注(part-of-speech tags)被看做这个节点的标记。不过由于我不太懂NLP方面的东西,也没有找到具体建图的流程,只在[2]里面看到了一个粗略的介绍,如果有读者知道的话,欢迎留言。一个经过处理后的图数据集可以在这里找到。

BlogCatalog数据集

BlogCatalog3数据集 是从著名博客目录网站BlogCatalog抓取的博客数据集,其中节点代表了每一个用户(博客),而节点的标签则是用户在网站中所属的用户组别,在一定程度上,标签反映了用户本身感兴趣的种类。[3] 数据集包括——

  • [edges] 所有边所连接的端点的表
  • [group-edges] 所有标签对应的节点编号
  • [nodes] 所有的节点编号
  • [groups] 所有的标签编号

引用

[1] Wu, L., Sun, P., Hong, R., Fu, Y., Wang, X., & Wang, M. (2018). SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation. arXiv preprint arXiv:1811.02815.

[2] Wu, Z., Pan, S., Chen, F., Long, G., Zhang, C., & Yu, P. S. (2019). A comprehensive survey on graph neural networks. arXiv preprint arXiv:1901.00596.

[3] Wang, H., Wang, J., Wang, J., Zhao, M., Zhang, W., Zhang, F., … & Guo, M. (2018, April). Graphgan: Graph representation learning with generative adversarial nets. In Thirty-Second AAAI Conference on Artificial Intelligence.

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据