Chapter 17 R web scrape
Web scrape用
library(rvest)
lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")
rating <- lego_movie %>%
html_nodes("strong span") %>% # 这个"strong span"是指什么意思?
html_text() %>%
as.numeric()
rating
## numeric(0)
上述的问题回答是由于:
含有7.8的html元素就是strong 下面的span的元素。
根据这篇tutorial 提取class=""中的元素可以用如下代码
html_nodes('.pagination-page')
学这段写一下:
就得到分开的有PostMention类的元素
得到PostMention里面的元素,应该是回复中带@的部分?
就得到回帖的内容,
但是这个咋就不对。。。。奇怪。
是因为元素叠起来的缘故吗?应该不是奇奇怪怪的,明天再看。