基于bs4库的HTML信息

xiaoxiao2023-10-24 170

代码实现：

from bs4 import BeautifulSoup import requests url="https://www.bilibili.com/" r=requests.get(url) r.encoding=r.apparent_encoding soup = BeautifulSoup(r.text,"html.parser") #print(soup.a) for link in soup.find_all('a'): print(link.get('href'))

结果：输出这个页面的全部链接。

下面是一些扩展方法，参数与find_all(),一致

也可以使用正则表达式来检索：

print(soup.find_all(id=re.compile('link'))) #打印以link开头的ID的字符串

在使用中： (…) 等价于 .find_all(…) soup(…) 等价于 soup.find_all(…)

最新回复(0)