博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中国大学MOOC —— 学习笔记(四)
阅读量:7224 次
发布时间:2019-06-29

本文共 1273 字,大约阅读时间需要 4 分钟。

 

淘宝商品比价定向爬虫

目标:获取淘宝搜索页面信息,提取其中的商品名称和价格

程序的结构设计:

  1. 提交商品搜索请求,循环获取页面
  2. 对每个页面,提取商品名称和价格信息
  3. 将信息输出到屏幕上
import requestsimport redef getHTMLText(url):     try:          r = requests.get(url)          r.raise_for_status()          r.encoding = r.apparent_encoding          return r.text     except:          return ""def parsePage(ilt,html):     try:          plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)          tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)          for i in range(len(plt)):               price = eval(plt[i].split(':')[1])               title = eval(tlt[i].split(':')[1])               ilt.append([price,title])     except:          print("")def printGoodList(ilt):     tplt = "{:4}\t{:8}\t{:16}"     print(tplt.format("序号","价格","商品名"))     count = 0     for g in ilt:          count = count +1          print(tplt.format(count,g[0],g[1]))def main():     goods = '书包'     depth = 2     start_url = 'https://s.taobao.com/search?q=' + goods     infoList = []     for i in range(depth):          try:               url = start_url + '&s=' + str(44*i)               html = getHTMLText(url)               parsePage(infoList,html)          except:               continue     printGoodList(infoList)main()

 

转载于:https://www.cnblogs.com/BeautifulSoup/p/8455143.html

你可能感兴趣的文章
Rebuild Instance 操作详解 - 每天5分钟玩转 OpenStack(37)
查看>>
[数分提高]2014-2015-2第8教学周第1次课 (2015-04-21)
查看>>
MySQL之全库备份与恢复--innobackupex
查看>>
OA办公系统是如何让员工体实现自助办公?
查看>>
宁波印象之奉化溪口之行 - 蒋公故居
查看>>
用户表空间配额(User tablespace Quota)
查看>>
盘点2015年半导体产业七大热点技术
查看>>
为向偏远地区提供服务 Facebook发布开源无线接入平台OpenCellular
查看>>
学习TDD:TDD的好处
查看>>
CloudCC:部署并有效使用CRM系统的诀窍
查看>>
看不见的面孔:“炫技派”、“勒索派”之外,黑客有何新类型
查看>>
Serverless发展早有“端倪”,函数计算源于场景需求
查看>>
中国某厂商几乎所有产品都含隐藏后门 攻击者可获取root权限shell
查看>>
喷子注意了!Google 推 AI 工具筛选恶意言论
查看>>
Windows 正不可避免地变成某种订阅系统
查看>>
Qt之XML
查看>>
《AngularJS深度剖析与最佳实践》一1.5 实现更多功能:主题
查看>>
JavaScript 超级 BUG!多款 x86/ARM 处理器瞬间遭破解
查看>>
Apache 宣布 Log4j 1 版本生命周期终结
查看>>
恢复 WordPress 4.4 被移除的“获取短链接”按钮
查看>>