python爬虫实战
GET
选好解释器(bs4/BeautifulSoup/html.parser或lxml)(lxml/etree/html或xml/xpath)(pyquery/PyQuery/Pyquery)
筛选
发送 HTTP 请求获取网页内容、解析网页并提取数据,然后存储数据
获取豆瓣电影top250
test1
1 2 3 4 5 6 7 8
| import requests from bs4 import BeautifulSoup
headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0" } response=requests.get("https://movie.douban.com/top250",headers=headers) print(response.text)
|
test2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| import requests from bs4 import BeautifulSoup
header={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0" }
for start_num in range(0,250,25): response=requests.get(f"https://movie.douban.com/top250?start={start_num}&filter=",headers=header) html=response.text soup=BeautifulSoup(html,"html.parser") all_titles = soup.findAll("span", attrs={"class": "title"}) for title in all_titles: title_string=title.string if "/" not in title_string: print(title_string)
|
输出(经HTML整理):
| 肖申克的救赎 |
霸王别姬 |
泰坦尼克号 |
阿甘正传 |
千与千寻 |
美丽人生 |
星际穿越 |
这个杀手不太冷 |
盗梦空间 |
楚门的世界 |
| 辛德勒的名单 |
忠犬八公的故事 |
海上钢琴师 |
疯狂动物城 |
三傻大闹宝莱坞 |
机器人总动员 |
放牛班的春天 |
无间道 |
控方证人 |
大话西游之大圣娶亲 |
| 熔炉 |
寻梦环游记 |
触不可及 |
教父 |
末代皇帝 |
当幸福来敲门 |
哈利·波特与魔法石 |
龙猫 |
活着 |
怦然心动 |
| 蝙蝠侠:黑暗骑士 |
指环王3:王者无敌 |
我不是药神 |
乱世佳人 |
让子弹飞 |
飞屋环游记 |
哈尔的移动城堡 |
十二怒汉 |
海蒂和爷爷 |
素媛 |
| 猫鼠游戏 |
天空之城 |
鬼子来了 |
摔跤吧!爸爸 |
少年派的奇幻漂流 |
钢琴家 |
指环王2:双塔奇兵 |
死亡诗社 |
大话西游之月光宝盒 |
何以为家 |
| 绿皮书 |
闻香识女人 |
大闹天宫 |
黑客帝国 |
指环王1:护戒使者 |
罗马假日 |
教父2 |
狮子王 |
天堂电影院 |
饮食男女 |
| 辩护人 |
本杰明·巴顿奇事 |
搏击俱乐部 |
美丽心灵 |
穿条纹睡衣的男孩 |
情书 |
哈利·波特与死亡圣器(下) |
两杆大烟枪 |
窃听风暴 |
音乐之声 |
| 功夫 |
西西里的美丽传说 |
哈利·波特与阿兹卡班的囚徒 |
阿凡达 |
看不见的客人 |
拯救大兵瑞恩 |
沉默的羔羊 |
小鞋子 |
布达佩斯大饭店 |
蝴蝶效应 |
| 飞越疯人院 |
禁闭岛 |
还有明天 |
心灵捕手 |
致命魔术 |
低俗小说 |
超脱 |
哈利·波特与密室 |
指环王2:双塔奇兵 |
喜剧之王 |
| 摩登时代 |
杀人回忆 |
致命ID |
春光乍泄 |
加勒比海盗 |
海豚湾 |
美国往事 |
红辣椒 |
七宗罪 |
唐伯虎点秋香 |
| 狩猎 |
幽灵公主 |
甜蜜蜜 |
寄生虫 |
蝙蝠侠:黑暗骑士崛起 |
天书奇谭 |
7号房的礼物 |
超能陆战队 |
第六感 |
爱在黎明破晓前 |
| 爱在日落黄昏时 |
茶馆 |
被嫌弃的松子的一生 |
重庆森林 |
哈利·波特与火焰杯 |
未麻的部屋 |
头脑特工队 |
借东西的小人阿莉埃蒂 |
入殓师 |
菊次郎的夏天 |
| 断背山 |
剪刀手爱德华 |
勇敢的心 |
时空恋旅人 |
消失的爱人 |
倩女幽魂 |
无人知晓 |
驯龙高手 |
傲慢与偏见 |
花样年华 |
| 新世界 |
完美的世界 |
玩具总动员3 |
一个叫欧维的男人决定去死 |
阳光灿烂的日子 |
小森林 夏秋篇 |
色,戒 |
天使爱美丽 |
怪兽电力公司 |
教父3 |
| 侧耳倾听 |
哪吒闹海 |
请以你的名字呼唤我 |
九品芝麻官 |
幸福终点站 |
被解救的姜戈 |
釜山行 |
神偷奶爸 |
小森林 冬春篇 |
喜宴 |
| 萤火之森 |
告白 |
玛丽和麦克斯 |
七武士 |
头号玩家 |
模仿游戏 |
大鱼 |
惊魂记 |
射雕英雄传之东成西就 |
血战钢锯岭 |
| 心灵奇旅 |
你的名字。 |
背靠背,脸对脸 |
我是山姆 |
阳光姐妹淘 |
恐怖直播 |
黑客帝国3:矩阵革命 |
机器人之梦 |
小丑 |
三块广告牌 |
| 电锯惊魂 |
谍影重重3 |
达拉斯买家俱乐部 |
无间道2 |
末路狂花 |
高山下的花环 |
疯狂原始人 |
绿里奇迹 |
爱在午夜降临前 |
疯狂的石头 |
| 海街日记 |
雨中曲 |
2001太空漫游 |
风之谷 |
上帝之城 |
心迷宫 |
英雄本色 |
记忆碎片 |
纵横四海 |
无敌破坏王 |
| 卢旺达饭店 |
小偷家族 |
东京教父 |
恐怖游轮 |
牯岭街少年杀人事件 |
冰川时代 |
魔女宅急便 |
芙蓉镇 |
忠犬八公物语 |
岁月神偷 |
| 荒蛮故事 |
遗愿清单 |
大佛普拉斯 |
源代码 |
花束般的恋爱 |
疯狂的麦克斯4:狂暴之路 |
你看起来好像很好吃 |
贫民窟的百万富翁 |
可可西里 |
白日梦想家 |
| 城市之光 |
波西米亚狂想曲 |
爆裂鼓手 |
东邪西毒 |
青蛇 |
爱乐之城 |
哈利·波特与死亡圣器(上) |
无耻混蛋 |
终结者2:审判日 |
黑天鹅 |
| 大红灯笼高高挂 |
新龙门客栈 |
初恋这件小事 |
人工智能 |
千钧一发 |
雨人 |
崖上的波妞 |
虎口脱险 |
哈利·波特与凤凰社 |
罗生门 |
| 彗星来的那一夜 |
海边的曼彻斯特 |
恋恋笔记本 |
真爱至上 |
火星救援 |
黑客帝国2:重装上阵 |
步履不停 |
奇迹男孩 |
千年女优 |
冰雪奇缘 |
| 战争之王 |
谍影重重2 |
蜘蛛侠:平行宇宙 |
攻壳机动队 |
血钻 |
魂断蓝桥 |
隐藏人物 |
小姐 |
房间 |
血观音 |
搜狗搜索网页采集器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| import requests
url='https://www.sogou.com/web' kw=input("Enter a word:") param = { 'query':kw } header={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0" } response=requests.get(url=url,params=param,headers=header) html=response.text fileName=kw+'.html' with open(fileName,"w",encoding='utf-8') as file: file.write(html) print(fileName,"保存成功")
|
电影天堂:下载电影(链接)
北京新发地市场:市场价钱(表格)
优美图库:壁纸高清图(图片)
猪八戒网:价钱,标题,公司地址
1 2 3
| # shift+alt+F # 当F12与ctrl+u看到的代码不一致时,可以F12找到选中目标div块右键选择复制为Xpath # pip list查看所有已安装的第三方库
|