登录立即注册

mwt-design»论坛 › 点滴 › 后端技术 › 抓取网页并用xpath提取数据

抓取网页并用xpath提取数据

所在版块: 后端技术 2019-07-24 20:21 [复制链接] 查看: 3227|回复: 0

from urllib2 import *
from lxml import etree

# 抓取网页源码
res = urlopen("http://www.baidu.com")
content = res.read()

# 利用xpath提取数据
html = etree.HTML(content)
# xpath = "/html/head/title/text()"
xpath = "//*[@id=\"s_tab\"]/div/a"
arr = html.xpath(xpath)
for a in arr:
print a.text
print a.xpath("text()")[0]
print a.xpath("@href")[0]

分享到: QQ好友和群 QQ空间 腾讯微博 腾讯朋友

回复

使用道具举报

返回列表发新帖

发新帖

扫码关注微信公众号

|Archiver|手机版|小黑屋|mwt-design ( 沪ICP备12041170号-1 )

GMT+8, 2026-8-2 03:57 , Processed in 0.070039 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回列表