Scrapy项目实战

抓取豆瓣电影top250数据，并将数据保存为csv，json格式存储到MongoDB数据库中，目标URL为https://movie.douban.com/top250

在清丰等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供网站设计制作、网站设计网站设计制作按需定制制作,公司网站建设,企业网站建设,品牌网站设计,网络营销推广,外贸网站建设,清丰网站建设费用合理。

一、创建项目

进入自定义的项目目录中，运行scrapy startproject douban

douban为项目名称，将会创建一个douban文件夹，包含以下文件。

分别是

scrapy.cfg: 项目的配置文件。
douban/: 项目的Python模块，将会从这里引用代码。
douban/items.py: 项目的目标文件。
douban/pipelines.py: 项目的管道文件。
douban/settings.py: 项目的设置文件。
douban/spiders/: 存储爬虫代码目录。

打开豆瓣项目，进入到spiders文件夹下，运行scrapy genspider douban_spider movie.douban.com，就会在spiders文件夹下生成douban_spider.py

Scrapy项目实战

二、明确目标

Scrapy项目实战

三、spider文件的编写

Scrapy项目实战

运行豆瓣项目：scrapy crawl douban_spider

运行过程中报错： no module named ‘_sqlite3’

Scrapy项目实战

安装好sqlite3后，重新编译安装python3

Scrapy项目实战

make && make install 重新编译python3完成。

进入豆瓣项目，重新运行scrapy crawl douban_spider，有如下报错：

Scrapy项目实战

这种报错是由于USER_AGENT不是规范的格式引起的，修改成规范的即可。

Scrapy项目实战

在pycharm输出所需内容，先在douban文件夹下创建一个main.py，如图：

Scrapy项目实战

编写解析文件，主要使用xpath。在Chrome浏览器安装并启用xpath helper，方便解析。在Chrome浏览器使用shift+Ctrl+X启用xpath插件。

Scrapy项目实战

Scrapy项目实战

Scrapy项目实战

四、数据的存储

导出数据：scrapy crawl douban_spider -o test.json 或者 scrapy crawl douban_spider -o test.csv 数据以Unicode格式保存。将它导出到Windows下：sz test.csv 打开是乱码，右键该文件，选择edit with notepad++打开，选择编码，选择“使用UTF-8-BOM编码”保存。用Excel表格打开可正常浏览。

如何将数据保存到MongoDB中？

在setting.py中定义对应IP地址、端口号、数据库名称、数据表名称。

Scrapy项目实战

Scrapy项目实战

在编写pipspiders.py，检查有没有安装pymongo。安装pip3 install pymongo。

Scrapy项目实战

Scrapy项目实战

通过数据库进行连接

Scrapy项目实战

Scrapy项目实战

Scrapy项目实战

Scrapy项目实战

标题名称：Scrapy项目实战
浏览路径：https://www.cdcxhl.com/article48/jhsdhp.html

成都网站建设公司_创新互联，为您提供App开发、网站设计、微信小程序、网站改版、网站内链、品牌网站建设

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容

成都定制网站建设

动态网站知识

浅谈关于网站的动态URL和静态URL 2014-03-13
动态网页是什么？4种动态网站技术介绍 2022-09-01
动态网页设计的几个误区 2016-10-31
动态网站建设有哪些优点和缺点呢? 2014-02-12
浅谈动态网站建设编程语言ASP和脚本语言JavaScript 2021-07-05
为什么静态/伪静态网页比动态网页好做优化？介 2014-02-04
老生常谈，动态网站和静态网站的优劣势 2014-09-04
企业网站建设PHP动态网站运行原理 2022-05-01
动态网站与静态网站的优缺点 2016-12-04
网站运营的能力和网站建设动态 2017-03-03
网站是做动态好还是静态好-网站决策 2016-11-05
营销型网站建设中什么是动态网站、静态网站 2022-11-17

同城分类信息