Python教程-Python 爬虫：浏览器自动化获取网址

2025 年 12 月 29 日 10:08:31教程评论3阅读模式

# Python 爬虫：浏览器自动化获取网址的方法

## 一、概述

浏览器自动化爬虫是通过程序控制真实浏览器（如Chrome、Firefox等）自动访问网站、获取页面内容的工具。相比传统的HTTP请求方式，浏览器自动化能够完美处理JavaScript渲染的动态页面，模拟用户的真实行为（如滚动、点击、登录等）。

## 二、常用技术方案

### 1. Selenium（推荐用于浏览器自动化）

- **优点**：控制真实浏览器、支持JavaScript渲染、适合模拟用户行为

- **缺点**：速度相对较慢、资源消耗较大

- **适用场景**：需要登录的网站、动态加载页面、复杂交互

### 2. Requests + BeautifulSoup

- **优点**：轻量级、速度快、资源消耗小

- **缺点**：无法执行JavaScript、只能处理静态页面

- **适用场景**：简单静态页面、API请求

### 3. Scrapy

- **优点**：专业爬虫框架、功能强大、性能好

- **缺点**：学习曲线较陡、全异步编程

- **适用场景**：大规模爬取、需要完整爬虫框架支持

### 4. Playwright / Puppeteer

- **优点**：现代浏览器自动化、支持多种浏览器、API设计更好

- **缺点**：相对较新、文档和社区资源相对较少

- **适用场景**：新一代浏览器自动化需求

## 三、使用 Selenium 实现浏览器自动化

### 3.1 安装依赖

```bash

pip install selenium webdriver-manager

```

### 3.2 基础爬虫示例

```python

from selenium import webdriver

from selenium.webdriver.chrome.service import Service

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

import time

class BrowserCrawler:

def __init__(self, headless=False):

"""

初始化浏览器

headless=True: 无头模式（不显示浏览器窗口）

"""

self.options = Options()

if headless:

self.options.add_argument("--headless")

# 设置用户代理，模拟真实浏览器

self.options.add_argument(

"user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) "

"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"

)

# 禁用自动化标志，防止被检测

self.options.add_experimental_option("excludeSwitches", ["enable-automation"])

self.options.add_experimental_option("useAutomationExtension", False)

# 自动管理ChromeDriver

from webdriver_manager.chrome import ChromeDriverManager

service = Service(ChromeDriverManager().install())

self.driver = webdriver.Chrome(

service=service,

options=self.options

)

# 设置等待时间

self.wait = WebDriverWait(self.driver, 10)

def visit(self, url):

"""访问指定URL"""

self.driver.get(url)

print(f"访问: {url}")

def get_all_links(self):

"""获取页面所有链接"""

links = []

# 等待页面加载完成

self.wait.until(

EC.presence_of_element_located((By.TAG_NAME, "body"))

)

# 查找所有a标签

a_tags = self.driver.find_elements(By.TAG_NAME, "a")

for a in a_tags:

try:

href = a.get_attribute("href")

text = a.text.strip()

if href and href.startswith("http"):

links.append({

"url": href,

"text": text if text else "[无文本]"

})

except Exception as e:

continue

return links

def get_page_source(self):

"""获取页面源码"""

return self.driver.page_source

def scroll_and_crawl(self, scroll_pause=1):

"""滚动页面并获取动态加载的内容"""

links = []

last_height = self.driver.execute_script(

"return document.body.scrollHeight"

)

while True:

# 滚动到页面底部

self.driver.execute_script(

"window.scrollTo(0, document.body.scrollHeight);"

)

# 等待加载

time.sleep(scroll_pause)

# 获取当前页面链接

current_links = self.get_all_links()

links.extend(current_links)

# 检查是否到达底部

new_height = self.driver.execute_script(

"return document.body.scrollHeight"

)

if new_height == last_height:

break

last_height = new_height

# 去重

seen = set()

unique_links = []

for link in links:

if link["url"] not in seen:

seen.add(link["url"])

unique_links.append(link)

return unique_links

def close(self):

"""关闭浏览器"""

self.driver.quit()

# 使用示例

if __name__ == "__main__":

crawler = BrowserCrawler(headless=False)

try:

# 访问网站

crawler.visit("https://www.example.com")

# 获取所有链接

links = crawler.get_all_links()

print(f"\n发现 {len(links)} 个链接:\n")

for i, link in enumerate(links, 1):

print(f"{i}. {link['text']}")

print(f" URL: {link['url']}\n")

# 滚动页面获取更多链接（适用于无限滚动页面）

# all_links = crawler.scroll_and_crawl()

except Exception as e:

print(f"错误: {e}")

finally:

crawler.close()

```

### 3.3 进阶功能：登录后获取内容

```python

class LoggedInCrawler(BrowserCrawler):

def login(self, login_url, username, password,

username_selector, password_selector, submit_selector):

"""

执行登录操作

login_url: 登录页面URL

username: 用户名

password: 密码

username_selector: 用户名输入框的选择器

password_selector: 密码输入框的选择器

submit_selector: 登录按钮的选择器

"""

self.visit(login_url)

# 输入用户名

username_input = self.wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, username_selector))

)

username_input.clear()

username_input.send_keys(username)

# 输入密码

password_input = self.wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, password_selector))

)

password_input.clear()

password_input.send_keys(password)

# 点击登录按钮

submit_btn = self.wait.until(

EC.element_to_be_clickable((By.CSS_SELECTOR, submit_selector))

)

submit_btn.click()

# 等待登录完成

time.sleep(3)

print("登录成功!")

def crawl_after_login(self, target_url):

"""登录后访问目标页面并获取链接"""

self.visit(target_url)

return self.get_all_links()

# 登录爬虫使用示例

if __name__ == "__main__":

crawler = LoggedInCrawler(headless=False)

try:

# 执行登录

crawler.login(

login_url="https://www.example.com/login",

username="your_username",

password="your_password",

username_selector="#username",

password_selector="#password",

submit_selector="button[type='submit']"

)

# 登录后访问目标页面

links = crawler.crawl_after_login("https://www.example.com/dashboard")

print(f"获取到 {len(links)} 个链接")

except Exception as e:

print(f"错误: {e}")

finally:

crawler.close()

```

## 四、反爬虫应对策略

### 4.1 设置用户代理

```python

self.options.add_argument(

"user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) "

"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"

)

```

### 4.2 禁用自动化标志

```python

self.options.add_experimental_option("excludeSwitches", ["enable-automation"])

self.options.add_experimental_option("useAutomationExtension", False)

```

### 4.3 添加随机延迟

```python

import random

import time

def random_delay(self, min_sec=1, max_sec=3):

"""随机延时，模拟人类行为"""

delay = random.uniform(min_sec, max_sec)

time.sleep(delay)

```

### 4.4 完整的反检测配置

```python

class StealthBrowserCrawler(BrowserCrawler):

def __init__(self, headless=False):

super().__init__(headless)

# 更多的反检测设置

self.options.add_argument("--disable-blink-features=AutomationControlled")

# 执行反检测脚本

self.driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {

"source": """

Object.defineProperty(navigator, 'webdriver', {

get: () => undefined

})

Object.defineProperty(navigator, 'plugins', {

get: () => [1, 2, 3, 4, 5]

})

window.navigator.chrome = {

runtime: {},

loadTimes: () => {},

csi: () => {}

}

Object.defineProperty(window, 'chrome', {

get: () => ({

runtime: {},

loadTimes: () => {},

csi: () => {}

})

"""

})

```

## 五、完整示例：爬取整站链接

```python

from urllib.parse import urlparse, urljoin

from datetime import datetime

class SiteCrawler:

def __init__(self):

self.browser = BrowserCrawler(headless=True)

self.visited = set()

self.all_links = []

self.start_time = None

def crawl_site(self, base_url, max_pages=100, delay=1):

"""

爬取整个网站的链接

base_url: 起始URL

max_pages: 最大爬取页面数

delay: 请求间隔（秒）

"""

self.start_time = datetime.now()

queue = [base_url]

domain = urlparse(base_url).netloc

print(f"开始爬取网站: {base_url}")

print(f"目标域名: {domain}")

print("-" * 50)

while queue and len(self.visited) < max_pages:

url = queue.pop(0)

if url in self.visited:

continue

try:

# 添加随机延迟

time.sleep(delay + random.uniform(0, 1))

self.browser.visit(url)

self.visited.add(url)

links = self.browser.get_all_links()

for link in links:

full_url = link["url"]

link_domain = urlparse(full_url).netloc

# 只爬取同域名链接

if link_domain == domain:

if full_url not in self.visited:

queue.append(full_url)

self.all_links.append(link)

elapsed = (datetime.now() - self.start_time).total_seconds()

print(f"[{elapsed:.1f}s] 已爬取: {url} ({len(self.visited)}/{max_pages})")

except Exception as e:

print(f"爬取失败: {url} - {e}")

return self.all_links

def export_links(self, filename="links.txt"):

"""导出链接到文件"""

with open(filename, "w", encoding="utf-8") as f:

for link in self.all_links:

f.write(f"{link['url']}\n")

print(f"已导出 {len(self.all_links)} 个链接到 {filename}")

def export_detailed_report(self, filename="report.txt"):

"""导出详细报告"""

with open(filename, "w", encoding="utf-8") as f:

f.write(f"爬取报告\n")

f.write(f"=" * 50 + "\n")

f.write(f"开始时间: {self.start_time}\n")

f.write(f"结束时间: {datetime.now()}\n")

f.write(f"总耗时: {(datetime.now() - self.start_time).total_seconds():.1f}秒\n")

f.write(f"访问页面数: {len(self.visited)}\n")

f.write(f"发现链接数: {len(self.all_links)}\n")

f.write(f"=" * 50 + "\n\n")

f.write("所有链接:\n")

for i, link in enumerate(self.all_links, 1):

f.write(f"{i}. [{link['text']}]({link['url']})\n")

print(f"报告已导出到 {filename}")

# 运行爬虫

if __name__ == "__main__":

crawler = SiteCrawler()

try:

# 爬取网站（最多100页）

links = crawler.crawl_site("https://www.example.com", max_pages=100)

# 导出链接列表

crawler.export_links("my_website_links.txt")

# 导出详细报告

crawler.export_detailed_report("crawl_report.txt")

print("-" * 50)

print(f"爬取完成! 共发现 {len(links)} 个链接")

except KeyboardInterrupt:

print("\n用户中断爬取")

crawler.export_links("emergency_backup.txt")

except Exception as e:

print(f"错误: {e}")

finally:

crawler.browser.close()

```

## 六、常用选择器

| 选择器类型 | 方法 | 示例 |

|------------|------|------|

| ID | `By.ID` | `"login-form"` |

| CLASS | `By.CLASS_NAME` | `"btn btn-primary"` |

| CSS选择器 | `By.CSS_SELECTOR` | `".nav-links a"` |

| XPath | `By.XPATH` | `"//div[@class='content']//a"` |

| 标签名 | `By.TAG_NAME` | `"a"` |

| 链接文本 | `By.LINK_TEXT` | `"点击这里"` |

| 部分链接文本 | `By.PARTIAL_LINK_TEXT` | `"点击"` |

### 常用XPath表达式

```python

# 所有链接

"//a[@href]"

# 特定class的元素

"//div[@class='container']"

# 包含特定文本的元素

"//*[contains(text(), '登录')]"

# 属性以特定字符串开头

"//a[starts-with(@href, 'https://')]"

# 嵌套选择器

"//div[@class='content']//a[@class='link']"

```

## 七、等待机制

### 7.1 显式等待

```python

from selenium.webdriver.support import expected_conditions as EC

# 等待元素出现

element = WebDriverWait(driver, 10).until(

EC.presence_of_element_located((By.ID, "myElement"))

)

# 等待元素可点击

element = WebDriverWait(driver, 10).until(

EC.element_to_be_clickable((By.CSS_SELECTOR, ".btn"))

)

# 等待元素消失

element = WebDriverWait(driver, 10).until(

EC.invisibility_of_element_located((By.ID, "loading"))

)

```

### 7.2 隐式等待

```python

driver.implicitly_wait(10) # 全局等待10秒

```

### 7.3 固定等待

```python

import time

time.sleep(3) # 等待3秒

```

## 八、页面交互操作

```python

# 点击元素

element.click()

# 输入文本

element.send_keys("要输入的内容")

# 清除文本

element.clear()

# 获取元素文本

text = element.text

# 获取属性值

href = element.get_attribute("href")

# 模拟键盘输入

from selenium.webdriver.common.keys import Keys

element.send_keys(Keys.ENTER) # 按回车

element.send_keys(Keys.TAB) # 按Tab

element.send_keys(Keys.CONTROL, "a") # 全选

# 模拟鼠标操作

from selenium.webdriver.common.action_chains import ActionChains

actions = ActionChains(driver)

actions.move_to_element(element).click().perform() # 悬停并点击

```

## 九、注意事项

### 9.1 遵守法律法规

- **robots.txt**：尊重网站的爬虫协议

- **服务条款**：遵守网站的使用条款

- **数据使用**：确保爬取的数据用途合法

- **隐私保护**：不爬取个人隐私数据

### 9.2 爬虫礼仪

```python

# 控制请求频率

time.sleep(1) # 每次请求间隔至少1秒

# 设置合理的超时时间

WebDriverWait(driver, 10) # 等待时间不宜过长

# 避免高峰时段爬取

# 建议在凌晨或低峰时段进行大规模爬取

```

### 9.3 错误处理

```python

try:

# 爬取操作

crawler.visit(url)

links = crawler.get_all_links()

except TimeoutException:

print(f"页面加载超时: {url}")

except NoSuchElementException:

print(f"元素未找到: {url}")

except Exception as e:

print(f"发生错误: {e}")

finally:

# 确保浏览器关闭

crawler.close()

```

### 9.4 性能优化

```python

# 使用无头模式减少资源消耗

crawler = BrowserCrawler(headless=True)

# 禁用图片加载

prefs = {"profile.managed_default_content_settings.images": 2}

options.add_experimental_option("prefs", prefs)

# 禁用CSS加载（可选）

# prefs = {"profile.managed_default_content_settings.stylesheets": 2}

# options.add_experimental_option("prefs", prefs)

# 设置页面加载超时

driver.set_page_load_timeout(30)

```

## 十、常见问题解决

### 10.1 ChromeDriver版本不匹配

```python

# 使用webdriver-manager自动管理

from webdriver_manager.chrome import ChromeDriverManager

from selenium.webdriver.chrome.service import Service

service = Service(ChromeDriverManager().install())

driver = webdriver.Chrome(service=service)

```

### 10.2 页面元素无法定位

```python

# 等待元素加载

WebDriverWait(driver, 10).until(

EC.presence_of_element_located((By.ID, "element_id"))

)

# 使用JavaScript直接操作

driver.execute_script("document.querySelector('#element_id').click()")

```

### 10.3 被网站识别为机器人

```python

# 使用反检测配置

options.add_argument("--disable-blink-features=AutomationControlled")

options.add_experimental_option("excludeSwitches", ["enable-automation"])

# 注入反检测脚本

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {

"source": "Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"

})

```

### 10.4 内存占用过高

```python

# 定期重启浏览器

if page_count % 50 == 0:

browser.close()

browser = BrowserCrawler(headless=True)

# 及时清理不再使用的元素

driver.execute_script("document.body.innerHTML = ''")

```

## 十一、完整项目结构建议

```

my_crawler/

├── crawler.py # 主爬虫代码

├── config.py # 配置文件

├── requirements.txt # 依赖列表

├── output/ # 输出目录

│ ├── links.txt # 链接列表

│ └── report.txt # 爬取报告

└── logs/ # 日志目录

└── crawler.log # 日志文件

```

### requirements.txt 示例

```

selenium>=4.0.0

webdriver-manager>=3.8.0

```

### 日志配置

```python

import logging

logging.basicConfig(

level=logging.INFO,

format='%(asctime)s - %(levelname)s - %(message)s',

handlers=[

logging.FileHandler('logs/crawler.log'),

logging.StreamHandler()

]

)

logger = logging.getLogger(__name__)

```

## 十二、总结

浏览器自动化爬虫是一种强大的网页数据采集工具，特别适合处理动态页面和需要模拟用户交互的场景。使用Selenium可以轻松实现以下功能：

1. **自动访问网站**：模拟真实用户访问

2. **获取页面链接**：提取所有超链接

3. **处理动态内容**：支持JavaScript渲染

4. **模拟用户操作**：登录、点击、滚动等

5. **应对反爬机制**：配置反检测措施

在实际应用中，请务必遵守相关法律法规和网站的使用条款，合理控制爬取频率，尊重网站的robots.txt协议。

## 参考资源

- [Selenium 官方文档](https://www.selenium.dev/documentation/)

- [WebDriver Manager](https://github.com/SergeyPirogov/webdriver_manager)

- [Selenium Python 教程](https://selenium-python.readthedocs.io/)

Python 爬虫：浏览器自动化获取网址

## 一、概述

## 二、常用技术方案

### 1. Selenium（推荐用于浏览器自动化）

### 2. Requests + BeautifulSoup

### 3. Scrapy

### 4. Playwright / Puppeteer

## 三、使用 Selenium 实现浏览器自动化

## 四、反爬虫应对策略

## 五、完整示例：爬取整站链接

## 六、常用选择器

## 七、等待机制

## 八、页面交互操作

## 九、注意事项

## 十、常见问题解决

## 十一、完整项目结构建议

## 十二、总结

## 参考资源

7大浏览器自动化工具:Bright Data,Selenium,Playwright

github：Python 资源大全中文版

Browser Use 浏览器自动化 Agent：让浏览器自动为你工作

7大浏览器自动化工具:Bright Data,Selenium,Playwright

Browser Use 浏览器自动化 Agent：让浏览器自动为你工作

WordPress 主题 functions.php 中注册自定义字段到GraphQL

XAMPP启动日志解析及MySQL配置问题处理

Trae CN学习指南：从入门到实战

爱快Q6000+爱快Q3000的Mesh快连教程

Git “clone“ 命令详解

3分钟搞定！Win10共享文件夹设置指南

LINUX DO – 新的理想型社区注册邀请链接/邀请码

爱快软路由：终端强制走特定线路，走其他线路断网

加载中...

发表评论