burpow
python爬虫实战

python爬虫实战

GET
选好解释器(bs4/BeautifulSoup/html.parser或lxml)(lxml/etree/html或xml/xpath)(pyquery/PyQuery/Pyquery)
筛选

发送 HTTP 请求获取网页内容、解析网页并提取数据,然后存储数据

获取豆瓣电影top250

test1

1
2
3
4
5
6
7
8
import requests
from bs4 import BeautifulSoup

headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0"
}
response=requests.get("https://movie.douban.com/top250",headers=headers)
print(response.text)

test2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import requests
from bs4 import BeautifulSoup

header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0"
}

for start_num in range(0,250,25):
response=requests.get(f"https://movie.douban.com/top250?start={start_num}&filter=",headers=header)
html=response.text
soup=BeautifulSoup(html,"html.parser")
all_titles = soup.findAll("span", attrs={"class": "title"}) # 筛选(依据标签,属性),并返回可迭代对象
for title in all_titles:
title_string=title.string
if "/" not in title_string:
print(title_string)

输出(经HTML整理):

肖申克的救赎 霸王别姬 泰坦尼克号 阿甘正传 千与千寻 美丽人生 星际穿越 这个杀手不太冷 盗梦空间 楚门的世界
辛德勒的名单 忠犬八公的故事 海上钢琴师 疯狂动物城 三傻大闹宝莱坞 机器人总动员 放牛班的春天 无间道 控方证人 大话西游之大圣娶亲
熔炉 寻梦环游记 触不可及 教父 末代皇帝 当幸福来敲门 哈利·波特与魔法石 龙猫 活着 怦然心动
蝙蝠侠:黑暗骑士 指环王3:王者无敌 我不是药神 乱世佳人 让子弹飞 飞屋环游记 哈尔的移动城堡 十二怒汉 海蒂和爷爷 素媛
猫鼠游戏 天空之城 鬼子来了 摔跤吧!爸爸 少年派的奇幻漂流 钢琴家 指环王2:双塔奇兵 死亡诗社 大话西游之月光宝盒 何以为家
绿皮书 闻香识女人 大闹天宫 黑客帝国 指环王1:护戒使者 罗马假日 教父2 狮子王 天堂电影院 饮食男女
辩护人 本杰明·巴顿奇事 搏击俱乐部 美丽心灵 穿条纹睡衣的男孩 情书 哈利·波特与死亡圣器(下) 两杆大烟枪 窃听风暴 音乐之声
功夫 西西里的美丽传说 哈利·波特与阿兹卡班的囚徒 阿凡达 看不见的客人 拯救大兵瑞恩 沉默的羔羊 小鞋子 布达佩斯大饭店 蝴蝶效应
飞越疯人院 禁闭岛 还有明天 心灵捕手 致命魔术 低俗小说 超脱 哈利·波特与密室 指环王2:双塔奇兵 喜剧之王
摩登时代 杀人回忆 致命ID 春光乍泄 加勒比海盗 海豚湾 美国往事 红辣椒 七宗罪 唐伯虎点秋香
狩猎 幽灵公主 甜蜜蜜 寄生虫 蝙蝠侠:黑暗骑士崛起 天书奇谭 7号房的礼物 超能陆战队 第六感 爱在黎明破晓前
爱在日落黄昏时 茶馆 被嫌弃的松子的一生 重庆森林 哈利·波特与火焰杯 未麻的部屋 头脑特工队 借东西的小人阿莉埃蒂 入殓师 菊次郎的夏天
断背山 剪刀手爱德华 勇敢的心 时空恋旅人 消失的爱人 倩女幽魂 无人知晓 驯龙高手 傲慢与偏见 花样年华
新世界 完美的世界 玩具总动员3 一个叫欧维的男人决定去死 阳光灿烂的日子 小森林 夏秋篇 色,戒 天使爱美丽 怪兽电力公司 教父3
侧耳倾听 哪吒闹海 请以你的名字呼唤我 九品芝麻官 幸福终点站 被解救的姜戈 釜山行 神偷奶爸 小森林 冬春篇 喜宴
萤火之森 告白 玛丽和麦克斯 七武士 头号玩家 模仿游戏 大鱼 惊魂记 射雕英雄传之东成西就 血战钢锯岭
心灵奇旅 你的名字。 背靠背,脸对脸 我是山姆 阳光姐妹淘 恐怖直播 黑客帝国3:矩阵革命 机器人之梦 小丑 三块广告牌
电锯惊魂 谍影重重3 达拉斯买家俱乐部 无间道2 末路狂花 高山下的花环 疯狂原始人 绿里奇迹 爱在午夜降临前 疯狂的石头
海街日记 雨中曲 2001太空漫游 风之谷 上帝之城 心迷宫 英雄本色 记忆碎片 纵横四海 无敌破坏王
卢旺达饭店 小偷家族 东京教父 恐怖游轮 牯岭街少年杀人事件 冰川时代 魔女宅急便 芙蓉镇 忠犬八公物语 岁月神偷
荒蛮故事 遗愿清单 大佛普拉斯 源代码 花束般的恋爱 疯狂的麦克斯4:狂暴之路 你看起来好像很好吃 贫民窟的百万富翁 可可西里 白日梦想家
城市之光 波西米亚狂想曲 爆裂鼓手 东邪西毒 青蛇 爱乐之城 哈利·波特与死亡圣器(上) 无耻混蛋 终结者2:审判日 黑天鹅
大红灯笼高高挂 新龙门客栈 初恋这件小事 人工智能 千钧一发 雨人 崖上的波妞 虎口脱险 哈利·波特与凤凰社 罗生门
彗星来的那一夜 海边的曼彻斯特 恋恋笔记本 真爱至上 火星救援 黑客帝国2:重装上阵 步履不停 奇迹男孩 千年女优 冰雪奇缘
战争之王 谍影重重2 蜘蛛侠:平行宇宙 攻壳机动队 血钻 魂断蓝桥 隐藏人物 小姐 房间 血观音

搜狗搜索网页采集器

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import requests
# 指定关键字爬取与保存
url='https://www.sogou.com/web'
kw=input("Enter a word:")
param = {
'query':kw
}
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0"
}
response=requests.get(url=url,params=param,headers=header)
html=response.text
fileName=kw+'.html'
with open(fileName,"w",encoding='utf-8') as file:
file.write(html)
print(fileName,"保存成功")

电影天堂:下载电影(链接)
北京新发地市场:市场价钱(表格)
优美图库:壁纸高清图(图片)
猪八戒网:价钱,标题,公司地址

1
2
3
# shift+alt+F
# 当F12与ctrl+u看到的代码不一致时,可以F12找到选中目标div块右键选择复制为Xpath
# pip list查看所有已安装的第三方库
本文作者:burpow
本文链接:https://youthfulnesszxx.github.io/2026/03/26/python爬虫实战/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可