OpenRefine(以前称为Google Refine)是处理凌乱数据的强大工具:清理它; 将它从一种格式转换为另一种格式; 并使用Web服务和外部数据扩展它。
OpenRefine简介
0. 特征
- 开源(GitHub上的源代码)。
- 一个庞大的社区,从新手到专家,随时准备提供帮助。请参阅下面的获得帮助部分
- 适用于大型数据集(100,000行)。可以调整内存分配以适应更大的数据集
- 注意:这是一个在您的计算机上运行的Java程序(不在云中)。它在您的浏览器中运行,但不需要Web连接。
-
按照安装说明安装OpenRefine
-
如果在安装并运行OpenRefine后,它不会自动为您打开,请将浏览器指向http://127.0.0.1:3333/或http:// localhost:3333以启动该程序。
1.探索数据
OpenRefine可以帮助您轻松探索大型数据集。您可以通过观看下面的视频了解有关此功能的更多信息。
2.清理和转换数据
3.协调和匹配数据
OpenRefine可用于链接和扩展您的数据集与各种Web服务。某些服务还允许OpenRefine将清理后的数据上传到中央数据库,例如Wikidata。。维基上提供了越来越多的扩展和插件列表 。