本节书摘来自华章出版社《R语言数据分析》一书中的第2章,第2.6节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.6 小结
本章专注于如何直接获取并处理由Web得到的数据集,包括文件下载、XML和JSON格式数据的处理、HTML表的分析、使用XPath函数将数据从HTML页面中抽取出来以及如何与RESTful API进行交互。
尽管基于Socrata API实现的一些样例可以很简单地借助RSocrata包实现,但是我们不能忘记总有些时候我们可能找不到一个现成的R包来完成某些功能。因此,作为一个数据黑客,我们必须要了解掌握对JSON、HTML和XML数据源的处理方法。
在下一章中,我们将探讨如何使用最好、最常用的方法对已经获取并装载的数据进行筛选和聚合操作,来实现数据的变形和重构。
相关资源:从零进阶!数据分析的统计基础