许多人学习python可能会先学爬虫练练手,那么下面就介绍几个python爬虫常用的几个库的安装方法,供大家了解。

优先安装 Anaconda

这里主要推荐Anaconda,不建议直接安装原生的python然后再自己添加库,因为有时候会导致前期你不懂依赖库之间的关系,导致一直为了库的问题,而影响了你开始学习python相关内容的兴趣。而且Anaconda也是你后续学习数据分析,乃至机器学习的首选。

从官网依据你的系统下载https://www.anaconda.com/download/

安装好Anaconda之后,可能还需要用pip安装的几个库(大部分已经含在Anaconda中了。)

如何你是Linux系统,可以用命令一次性快速安装所有的库

$ sudo pip install urllib requests selenium lxml beautifulsoup4 pyquery pymysql pymongo redis flask django

  1. urllib

pip install urllib

  1. requests

pip install requests

  1. selenium

pip install selenium

  1. chromedriver

从chrmmedriver官网上下载下来
解压后放在 D:\ProgramData\Anaconda3\Scripts 文件夹下(geckodriver也一样),跟pip.exe 一起
若是在Linux下,把下载好的文件放在 /usr/bin 或者 /user/local/bin 目录下就可以了
同时geckodriver的调用方法如下(基本相同,只是把Chrome换成Firefox)

from selenium import webdriver

browser = webdriver.Firefox()
browser.get('http://www.baidu.com/')

  1. phantomjs

linux 下安装方法:

sudo apt-get install phantomjs
sudo apt-get install nodejs
sudo apt-get install nodejs-legacy
sudo apt-get install npm
sudo npm -g install phantomjs-prebuilt

windows下安装方法:

到官网去下载(目前官方表示停止更新了,所以不建议使用,最好使用Chromedriver
下载后放到任意的文件夹,然后将 D:\Program Files\phantomjs2.1.1\bin 启动文件.exe的目录,放到系统的环境变量中才能使用。

  1. lxml

pip install lxml

  1. beautifulsoup4

pip install beautifulsoup4

  1. pyquery

pip install pyquery

  1. pymysql

pip install pymysql

注意:还需要到该模块的安装目录下面(例如:D:\ProgramData\Anaconda3\Lib\site-package)的 connections.py 将里面的(搜索 charset=)把空的值填上(utf8)注意里面没有横杠

  1. pymongo

pip install pymongo

  1. redis

pip install redis

  1. flask

pip install flask

  1. django

pip install django

  1. jupyter notebook

跟着anaconda一起安装就有了

Selenium + WebDriver 各浏览器驱动下载地址

Chrome

点击下载chrome的webdriver: http://chromedriver.storage.googleapis.com/index.html
不同的Chrome的版本对应的chromedriver.exe 版本也不一样,下载时不要搞错了。如果是最新的Chrome, 下载最新的chromedriver.exe 就可以了。
把chromedriver的路径也加到环境变量里。

Firefox

Firefox驱动下载地址为:https://github.com/mozilla/geckodriver/releases/
根据自己的操作系统下载对应的驱动即可,使用的话,需要把驱动的路径和火狐浏览器的路径加入到环境变量里面才可以

IE

IE浏览器驱动下载地址为:http://selenium-release.storage.googleapis.com/index.html
根据自己selenium版本下载对应版本的驱动即可,python的话,下载里面的IEDriverServerxxx.zip即可,这个是区分32和64位系统的,根据自己的系统下载即可,需要注意的是,如果要打开IE浏览器的话,需要在浏览器的Internet选项中的安全页里有4个安全选项,Internet、本地Internet、受信任的站点、受限制的站点,这4个里面都有一个启用保护模式,都需要勾选上才可以,还得把驱动的路径加入到环境变量中。