selenium新总结与数据抓取新技巧-轻识

作者：龙威

来源：玩大数据的规划师

"娄底终于放晴了，病树前头万木春，希望早点结束这场浩劫，恢复生机。本期更新两个知识点：一是selenium结合浏览器驱动器的数据爬取可以实现不让浏览器在前端打开显示；二是有些网站的一些数据本身是用网页存成的json数据，无需耗费大量心神去用selenium去抓取。"

—

selenium新技能

在抓取数据的过程中，界面的显示对于用户来说意义不大。除了在小白面前展示一下这种像见了鬼一样的自动化操作，对于完成一件事来说反而是累赘，因为网络的传播与渲染是需要耗时的，目前对于无界面的操作，抱歉我还不知道在后台有没有加载渲染，不过不是重点，重点把两种操作都给大家展示一下。

有界面

能清除的看到整个操作过程，举例百度一下疫情。代码如下：

from selenium import webdriverimport time
driver = webdriver.Chrome()driver.get("https://www.baidu.com/")driver.maximize_window()

time.sleep(1)driver.find_element_by_xpath('//*[@id="kw"]').send_keys("疫情")driver.find_element_by_xpath('//*[@id="su"]').click()time.sleep(3)
driver.close()

整个操作流程展示动图：

无界面

无界面的好处，当某些操作要做成应用程序，去打开浏览器，那这个软件有点怪。

代码如下：

from selenium import webdriverimport time
# 创建chrome参数对象opt = webdriver.ChromeOptions()
# 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数opt.add_argument('--headless')
# 创建chrome无界面对象driver = webdriver.Chrome(options=opt) #DeprecationWarning: use options instead of chrome_optionsdriver.get("https://www.baidu.com/")


time.sleep(1)driver.find_element_by_xpath('//*[@id="kw"]').send_keys("疫情")driver.find_element_by_xpath('//*[@id="su"]').click()time.sleep(3)
text = driver.page_sourceprint(text)
driver.close()