首先,安装Beautifulsoup
pip install beautifulsoup4
然后初始化对象
from bs4 import BeautifulSoup
file = BeautifulSoup(open("index.html")) #此处传入文件,红色部分为要传入的页面源码文件
string = BeautifulSoup("<html>data</html>") #此处红色部分传入一个字符串
可以通过 .标签名 向下深入, 如 : file.p.a.span
遍历:
html 文件有标签,字符串等组成,遍历时可以同级遍历,也可以跨级遍历。
同级遍历: .previous_sibling
.next_sibling
跨级遍历:
向父级遍历:
.parent
向子级遍历:
.contents #以列表形式遍历,通过一个列表将结果展示出来
.children #以生成器形式遍历,比较节省内存
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网站名称:配置BeautifulSoup-创新互联
网页网址:https://www.cdcxhl.com/article42/dpcihc.html
成都网站建设公司_创新互联,为您提供网页设计公司、App设计、小程序开发、服务器托管、营销型网站建设、电子商务
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联