客户端

抓取网页并用xpath提取数据

所在版块: 后端技术 2019-07-24 20:21 [复制链接] 查看: 2222|回复: 0
from urllib2 import *
from lxml import etree

# 抓取网页源码
res = urlopen("http://www.baidu.com")
content = res.read()

# 利用xpath提取数据
html = etree.HTML(content)
# xpath = "/html/head/title/text()"
xpath = "//*[@id=\"s_tab\"]/div/a"
arr = html.xpath(xpath)
for a in arr:
    print a.text
    print a.xpath("text()")[0]
    print a.xpath("@href")[0
]     



分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码关注微信公众号

QQ|Archiver|手机版|小黑屋|mwt-design ( 沪ICP备12041170号-1

GMT+8, 2024-4-30 09:39 , Processed in 0.068836 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回列表