步骤/目录：
1.应用场景
2.准备工作
3.在个人库中添加selenium相关代码
4.selenium个人库使用范例

本文首发于个人博客https://lisper517.top/index.php/archives/46/，转载请注明出处。
本文的目的是讲解selenium，并在个人库中添加相应代码。
本文写作日期为2022年9月10日。

笔者的能力有限，也并非CS从业人员，很多地方难免有纰漏或者不符合代码原则的地方，请在评论中指出。

1.应用场景

在爬虫泛滥的今天，各网站采用了越发先进的方法识别爬虫。如果不是经验丰富的爬虫老手，总会在爬某个网站时翻车（老手也是从翻车一步步过来的）。如果对爬取速度要求不是太高，就可以使用selenium与实际的浏览器搭配爬取网页。
目前很多网站使用了JavaScript在客户端生成页面，selenium的方法就十分适合爬取这些网页；如果无论怎么办都会被识别，笔者能提供的最终解决方案是手动开启浏览器并交给selenium控制。selenium由于要操作浏览器而速度稍慢，这是其唯一的缺点。

2.准备工作

下载selenium：

pip install selenium

另外，edge刚推出时，老版本的selenium还需要下msedge-selenium-tools来帮助扩展edge功能，现在已经不用了。如果新版selenium用不了edge的话，使用 pip install msedge-selenium-tools 来安装这个扩展包，并且selenium也会回到老版本。

下载浏览器：去官网下载chrome、edge、firefox浏览器，注意不要下到别人暗改的版本了。老的爬虫教程可能会推荐下载phantomjs浏览器，这是一个没有界面的浏览器，现在很多网站都对phantomjs浏览器有一些识别与限制，所以已经不建议再使用了，何况chrome、edge、firefox也支持无界面。

最后是下载webdriver，即浏览器驱动，注意的是和浏览器版本匹配。有些时候浏览器升级了，也要及时更换驱动。chrome、edge、firefox的驱动下载网址各自为：

https://chromedriver.chromium.org/downloads
https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
https://github.com/mozilla/geckodriver/releases

以chrome为例，打开浏览器，在网址栏输入 chrome://version/ ，可以看到版本（还有可执行文件路径、个人资料路径，下面可能会用到），根据版本选择对应的chrome驱动即可。

最后，记下可执行文件路径，把三个浏览器的驱动都放在一个文件夹中，比如 D:\webdrivers ，然后在个人库中添加selenium相关的代码。笔者下面将给出在win10机器上selenium的一种使用方法，可根据自身情况对代码进行修改。除了自己对selenium二次开发，还可以看看别人的成品，比如helium。

3.在个人库中添加selenium相关代码

添加一个driver类，需要实现的功能有：根据网页返回网页源码，和返回某个标签对象。

from logging import Logger
import selenium, os
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options as ChromeOptions
# chrome
from selenium.webdriver import Edge
from selenium.webdriver.edge.options import Options as EdgeOptions
#from msedge.selenium_tools import Edge, EdgeOptions
# edge(支持新版edge需要安扩展包pip install msedge-selenium-tools)
from selenium.webdriver import Firefox
from selenium.webdriver.firefox.options import Options as FirefoxOptions
# firefox


class driver():
    '''用selenium提供的浏览器类。 driver().help() 可打印帮助。'''
    binary_location_chrome = r'C:\Program Files\Google\Chrome\Application\chrome.exe'
    binary_location_edge = r'C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe'
    binary_location_firefox = r'C:\Program Files\Mozilla Firefox\firefox.exe'
    #浏览器可执行文件的路径
    driver_path = r'D:\webdrivers'  #浏览器驱动的位置
    driver_download_url = '''webdriver下载地址：
    https://chromedriver.chromium.org/downloads
    https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
    https://github.com/mozilla/geckodriver/releases
    '''

    userdata_dir_chrome = os.path.join(driver_path, 'userdata_chrome')
    if not os.path.isdir(userdata_dir_chrome):
        os.mkdir(userdata_dir_chrome)
    userdata_dir_edge = os.path.join(driver_path, 'userdata_edge')
    if not os.path.isdir(userdata_dir_edge):
        os.mkdir(userdata_dir_edge)
    userdata_dir_firefox = os.path.join(driver_path, 'userdata_firefox')
    if not os.path.isdir(userdata_dir_firefox):
        os.mkdir(userdata_dir_firefox)

    def __init__(self,
                 kind: str = 'chrome',
                 options=None,
                 headless=True,
                 disguise=True,
                 independent_userdata=True,
                 log: Logger = False) -> None:
        ''':param kind: 指定浏览器的种类，支持 edge/chrome/firefox 
        :param options: 是 EdgeOptions 或 ChromeOptions 或 FirefoxOptions ，与kind对应
        :param headless: 浏览器是否无头（不显示界面）
        :param disguise: 是否伪装成正常浏览器（仅chrome和edge）
        :param independent_userdata: 是否使用独立的userdata。如果开启，该文件夹会在driver_path路径下
        :param log: 可选的log对象，用于输出日志'''
        self.kind = kind
        self.headless = headless
        self.disguise = disguise
        self.independent_userdata = independent_userdata
        self.options = (options, self.get_default_options())[options == None]
        #这里没有检查options和kind是否对应
        self.browser = self.get_browser()
        self.log = log

    def __del__(self):
        self.browser.quit()

    @staticmethod
    def get_options_obj(kind: str,
                        headless: bool = True,
                        disguise: bool = True,
                        independent_userdata: bool = False,
                        userdata_dir: str = ''):
        '''根据浏览器种类，返回一个初始的options对象。
        
        :注意这个方法可静态调用，你可以用这个方法得到初始options、自己加其他参数。
        :param kind: 指定浏览器的种类，支持 edge/chrome/firefox 
        :param headless: 浏览器是否无头（不显示界面）
        :param disguise: 是否伪装成正常浏览器（仅chrome和edge）
        :param independent_userdata: 是否使用独立的userdata。如果开启，需要指定userdata的路径
        :param userdata_dir: userdata的存放路径'''
        options = None
        try:
            if kind == 'chrome':
                options = ChromeOptions()
                options.binary_location = driver.binary_location_chrome
                options.add_argument('--disable-gpu')  #据说谷歌文档提到需要加上这个属性来规避bug
            elif kind == 'edge':
                options = EdgeOptions()
                options.use_chromium = True
                options.binary_location = driver.binary_location_edge
            elif kind == 'firefox':
                options = FirefoxOptions()
                options.binary_location = driver.binary_location_firefox
            else:
                raise Exception(
                    'error: only support chrome/firefox/edge, please check')
            if headless:
                options.add_argument('--headless')
            if disguise:
                options.add_experimental_option('excludeSwitches',
                                                ['enable-automation'])
                #firefox的options没有add_experimental_option
            if independent_userdata:
                if userdata_dir == '' or not os.path.isdir(userdata_dir):
                    print(
                        'userdata_dir wrong, please input correct userdata_dir'
                    )
                else:
                    userdata_dir = userdata_dir.replace(
                        '\\', '\\\\')  #此处仅为windows系统设置路径
                    options.add_argument(
                        '--user-data-dir={}'.format(userdata_dir))
            return options
        except:
            raise Exception('driver.get_option_obj failed')

    def get_default_options(self):
        '''生成浏览器的默认配置。'''
        userdata_dir = ''
        if self.kind == 'chrome':
            userdata_dir = driver.userdata_dir_chrome
        elif self.kind == 'edge':
            userdata_dir = driver.userdata_dir_edge
        elif self.kind == 'firefox':
            userdata_dir = driver.userdata_dir_firefox
        else:
            raise Exception(
                'error: only support chrome/firefox/edge, please check')
        return driver.get_options_obj(self.kind, self.headless, self.disguise,
                                      self.independent_userdata, userdata_dir)

    def get_browser(self):
        '''根据配置返回浏览器。'''
        kind, driver_path = self.kind, driver.driver_path
        driver_browser, options = None, self.options
        try:
            if kind == 'chrome':
                driver_browser = Chrome(executable_path=os.path.join(
                    driver_path, 'chromedriver.exe'),
                                        options=options)
            elif kind == 'edge':
                driver_browser = Edge(executable_path=os.path.join(
                    driver_path, 'msedgedriver.exe'),
                                      options=options)
            elif kind == 'firefox':
                driver_browser = Firefox(executable_path=os.path.join(
                    driver_path, 'geckodriver.exe'),
                                         options=options)
            return driver_browser
        except selenium.common.exceptions.TimeoutException:
            raise Exception('driver.get_browser failed')

    def get_page_source(self,
                        url: str,
                        XPath_expr: str = '',
                        timeout: int = 60) -> str:
        '''通过浏览器对象获取目标网页源码。

        :param url: 目标网页
        :param XPath_expr: XPath表达式，用于让页面显式等待
        :param timeout: 等待时间
        :return 网页源码'''
        browser, log = self.browser, self.log
        """script = '''Object.defineProperty(navigator, 'webdriver', {get: ()= > undefined})'''
        browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
                                {"source": script})
        #上面这段是运行js代码，将navigator的属性webdriver改为undefined，可隐藏爬虫身份
        #如果设置了 disguise=True ，就不需要这个了"""

        try:
            browser.get(url)
            if XPath_expr != '':
                WebDriverWait(browser, timeout).until(
                    EC.presence_of_element_located((By.XPATH, XPath_expr)))
        except selenium.common.exceptions.TimeoutException or selenium.common.exceptions.NoSuchElementException:
            browser.implicitly_wait(10)
            message = '浏览器等待超时，需要的元素仍未出现。隐式等待10s并返回页面源码，请检查是否正确'
            if log:
                log.info(message)
            else:
                print(message)
        return browser.page_source

    def get_tag_obj(self, url: str, XPath_expr: str, timeout: int = 60):
        '''通过浏览器对象获取目标标签。

        :param url: 目标网页
        :param XPath_expr: XPath表达式，一般来说就是目标标签，页面将为该标签显式等待
        :param timeout: 等待时间
        :return 标签对象'''
        browser, log = self.browser, self.log
        try:
            browser.get(url)
            element = WebDriverWait(browser, timeout).until(
                EC.presence_of_element_located((By.XPATH, XPath_expr)))
            return element
        except selenium.common.exceptions.TimeoutException or selenium.common.exceptions.NoSuchElementException:
            message = '浏览器等待超时，需要的元素仍未出现；或许XPath表达式书写错误，请检查'
            if log:
                log.info(message)
            else:
                print(message)
            return

    @staticmethod
    def help():
        '''打印帮助信息。'''
        help_info = r"""注意，以下内容很多尚未验证。
目录：一、如何用 options 对象及其他选项设置浏览器的行为
二、browser对象的一些操作
三、对标签对象的鼠标操作
四、对标签对象的其他操作
五、显式等待与隐式等待
六、人工打开浏览器并交给程序控制


一、如何用 options 对象及其他选项设置浏览器的行为
1.options基本的设置方法（参数中用字符串指定设置）：
（1）添加参数：options.add_argument()
（2）添加扩展应用：options.add_extension() 和 options.add_encoded_extension()
（3）添加实验性质的设置参数：options.add_experimental_option() 。firefox没有这个选项，所以仅用于chrome和edge

2.options一些常用的设置
（1）设置以开发者模式启动，并且webdriver相关的一些属性改回正常值。这个模式可以骗过爬虫识别
options.add_experimental_option('excludeSwitches', ['enable-automation'])
（2）允许浏览器弹窗。如果需要用浏览器打开不只一个页面，必须把这个设置加上
options.add_argument("--disable-popup-blocking")
（3）浏览器使用代理
options.add_argument("--proxy-server=http或https://代理ip:端口")
（4）不加载图片。如果不爬取图片，这个选项可提升速度
options.add_argument('blink-settings=imagesEnabled=false')
（5）禁用GPU显卡辅助渲染。谷歌文档提到需要加上这个属性来规避bug
chrome_options.add_argument('--disable-gpu')
（6）无头浏览器，即浏览器不提供可视化页面。无桌面的linux必须加这条
options.add_argument('--headless')
（7）隐藏滚动条。可用于一些特殊页面
options.add_argument('--hide-scrollbars')
（8）改变UA
options.add_argument('user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"')
（9）指定浏览器分辨率
options.add_argument('window-size=1920x3000')
（10）在沙箱之外运行（以最高权限运行）
options.add_argument('--no-sandbox')
（11）手动指定使用的浏览器位置
options.binary_location = r"浏览器可执行文件的路径"
（12）添加插件（crx文件是chrome的插件文件）
options.add_extension('crx文件路径')
（13）禁用JavaScript
options.add_argument("--disable-javascript")


二、browser对象的一些操作
在其他地方，browser对象也常被称为driver对象。
1.browser对象的元素定位
可以使用id、name、tag_name等定位。有如下方法可使用：
browser.find_elements_by_id()
browser.find_elements_by_name()
browser.find_elements_by_class_name()
browser.find_elements_by_tag_name()
browser.find_elements_by_link_text()
browser.find_elements_by_partial_link_text()
browser.find_elements_by_xpath()
browser.find_elements_by_css_selector()
其中最推荐的是最后两个，通过xpath和css_selector查找元素。
上述方法返回的都是匹配的标签序列；把 elements 改成 element 则只返回第一个匹配的标签。

另外，4.0之后的selenium据说不支持 find_elements_by_id 这些方法了，需要改成：
from selenium.webdriver.common.by import By
browser.find_element(By.ID, "ID名")
browser.find_element(By.NAME, "标签名")
下文也有关于By的应用。

2.browser对象的其他方法和属性
（1）到前一页或后一页：browser.forward() 和 browser.back()
（2）刷新：browser.refresh()
（3）获取信息：browser有一些属性，比如 browser.page_source、browser.title、browser.current_url 分别为当前页面的源码、标题、网址
（4）切换窗口或框架： switch_to_window("windowName") 和 switch_to_frame("frameName") 。框架，比如弹出一个输入用户密码的小框框就叫框架。
（5）返回到父frame：switch_to_default_content()
（6）切换到警告框：a = browser.switch_to_alert()
警告框可以像标签对象一样操作。方法和属性有：a.text、a.accept()、a.dismiss()、a.send_keys() ，分别是警告内容、接受警告、关闭警告、发送按键。send_keys方法详见后。
（7）操作cookie：
获得所有cookie信息（字典形式）：get_cookies()
返回cookie中键对应的值：get_cookie("键名")
添加键值对到cookie（对已存在的键可能会替换其值）：add_cookie(cookie_dict)
删除cookie信息：delete_cookie("键名", optionsString) 。其中 optionsString 是该cookie的选项，目前支持的选项包括 路径、域
删除所有cookie：delete_all_cookies()
（8）执行javascript：execute_script(js_code) ，js_code是字符串形式的js代码
（9）屏幕截图：get_screenshot_as_file(r"图片保存路径") ，这个方法可用于无头时查找问题
（10）关闭与退出：close() 关闭单个窗口，quit() 关闭所有窗口并退出
（11）页面最多加载几秒：browser.set_page_load_timeout(timeout)
页面的js最多加载几秒：browser.set_script_timeout(timeout)


三、对标签对象的鼠标操作
鼠标操作称为动作链，在设置完所有动作后用perform()方法执行。
1.一般格式：
from selenium.webdriver.common.action_chains import ActionChains
#a为一个标签对象
a = browser.find_elements_by_xpath(r'XPath表达式')
AC = ActionChains(browser).move_to_element(a)
#其他动作
AC.perform() #设置完所有动作后用perform()方法执行

2.常用的鼠标操作
左键单击：click()
右键单击：context_click()
左键双击：double_click()
拖动并松开：drag_and_drop()
在元素处悬停：move_to_element()


四、对标签对象的其他操作
常见的有输入文本，提交，键盘按键。
（1）对一个标签输入文本。常用于填写用户名密码
browser.find_element_by_xpath(r'XPath表达式').send_keys("待输入的文本")
（2）清除标签中的文本。输入框里如果有默认值，可以用这个方法清除
标签对象.clear()
（3）提交表单：submit()
（4）元素的尺寸：size
（5）元素的内容：text
（6）获得属性值：get_attribute("属性名")
（7）元素是否可见：is_displayed()

键盘输入按键：
BackSpace：标签对象.send_keys(Keys.BACK_SPACE)
Space：send_keys(Keys.SPACE)
Tab：send_keys(Keys.TAB)
Esc：send_keys(Keys.ESCAPE)
Enter：send_keys(Keys.ENTER)
Ctrl+A：send_keys(Keys.CONTROL,'a')
Ctrl+C：send_keys(Keys.CONTROL,'c')
Ctrl+X：send_keys(Keys.CONTROL,'x')
Ctrl+V：send_keys(Keys.CONTROL,'v')
F1：send_keys(Keys.F1)

下拉框选择值：
定位到下拉框标签，然后用：Select(下拉框标签对象).select_by_value('50') 类似的方法选择值


五、显式等待与隐式等待
selenium一般是用来爬取一些有js的网页，而js加载需要一定时间
可以用显式等待和隐式等待来让浏览器对象度过这段时间，前者更优
隐式等待：等待固定的秒数，使用 browser.implicitly_wait(秒数) 即可
显式等待：等待某个元素被js加载出来，一般格式如下：

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
WebDriverWait(browser, 5, 0.5).until(EC.presence_of_element_located((By.XPATH, "XPath表达式")))

WebDriverWait(浏览器对象，最多等待几秒，每过多少秒检查一次) ，超时后会抛出NoSuchElementException异常
WebDriverWait类除了until方法，还有until_not方法。
EC.presence_of_element_located() 方法需要传入 locator 作为参数，这里用的是 (By.XPATH, "XPath表达式")


六、人工打开浏览器并交给程序控制
有时想尽办法也会被网站识别出爬虫，这时可以试试人工打开浏览器并交给程序控制。以win10系统为例，流程如下：
1.在cmd或终端中输入命令、打开浏览器，比如：
chrome.exe --remote-debugging-port=9222 --user-data-dir="D:\webdrivers\userdata_chrome"
msedge.exe --remote-debugging-port=9222 --user-data-dir="D:\webdrivers\userdata_edge"
firefox.exe --remote-debugging-port=9222 --user-data-dir="D:\webdrivers\userdata_firefox"
--user-data-dir 参数用于设置临时的userdata文件夹，这个参数必须也加上。
如果无法找到.exe文件，可以在cmd中进入浏览器的根目录，或把根目录加到系统路径中。

2.在options对象中添加： options.add_experimental_option('debuggerAddress', '127.0.0.1:9222') 即可。
"""
        print(help_info)

selenium的使用过程大概就是指定浏览器，指定浏览器设置（options），打开浏览器即可。详细的使用注意事项都在 driver().help() 里了，下面来试试自建库的功能。

4.selenium个人库使用范例

打开一个chrome浏览器，打开bing搜索：

from MyPythonLib import spider #这一行是笔者的自建库

driver = spider.driver('chrome', headless=False)
browser = driver.browser

browser.get('http://bing.com')
input()

手动打开浏览器，交给selenium控制：
以windows、chrome为例，在cmd中输入：

cd C:\Program Files\Google\Chrome\Application
chrome.exe --remote-debugging-port=9222 --user-data-dir="D:\webdrivers\userdata_chrome"

注意 D:\webdrivers\userdata_chrome 需要提前创建好。最后在py文件中写入：

from MyPythonLib import spider

options = spider.driver.get_options_obj('chrome',
                                        headless=False,
                                        disguise=False)
options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
driver = spider.driver('chrome', options=options)
browser = driver.browser
browser.get('http://bing.com')

就能看到自己刚才打开的浏览器从初始页面变成bing搜索。

如果需要自己定制options，也按上面的方法，在构造driver时传入需要的options对象即可。笔者为了方便，添加了 spider.driver.get_options_obj() 方法，返回一个默认的options。

Python，爬虫与深度学习（8）——selenium的使用

1.应用场景

2.准备工作

3.在个人库中添加selenium相关代码

4.selenium个人库使用范例

添加新评论

最新文章

热门文章

最近回复

分类

其它