Python实战：爬取小红书 - 企库往资讯移动站

Python实战：爬取小红书

2024-11-07 12:41

有读者在公众号后台询问爬取小红书，今天他来了。

Python实战：爬取小红书

本文可以根据关键词，在小红书搜索相关笔记，并保存为excel表格。

爬取的字段包括笔记标题、作者、笔记链接、作者主页地址、作者头像、点赞量。

运行我写的爬虫，实验了几十次，都可以顺利爬到数据，每次大概可以爬取到 200 条笔记保存到 excel 表格。

遇到的坑都在实验过程中解决了，可以说，这个爬虫很好用。

以“繁花”为关键词，去搜索小红书相关笔记，保存到本地 excel 文件。打开 excel 查看详情如下，笔记是根据点赞量降序排列的。

以“上海旅游”为关键词，去搜索小红书相关笔记，保存到本地 excel 文件。打开 excel 查看详情如下，笔记是根据点赞量降序排列的。

以“春节”为关键词，去搜索小红书相关笔记，保存到本地 excel 文件。打开 excel 查看详情如下，笔记是根据点赞量降序排列的。

由于小红书反爬机制很严格，很难批量获取小红书的大量数据。用爬虫去爬小红书数据，还有被小红书封号的风险。

但是我这个方法是纯模拟人的操作，以人的操作习惯去搜索和刷新数据，不会触发小红书的反爬机制。

分析爬虫思路，概括如下：

1、打开小红书主页

2、登录

3、根据关键词搜索笔记

4、提取页面数据

5、循环刷新页面，循环获取数据

6、处理获取到的数据，去重，排序

7、保存到本地 excel 文件

使用 DrissionPage 库，打开小红书主页，设置 20 秒延时，这时可以使用手机扫码登录账号。

只有第 1 次运行代码需要登录，浏览器会保存登录状态信息。第 2 次之后再运行代码，就免登录了，可以把 sign_in()步骤注释掉。

设置关键词 keyword，并通过 urllib 库，将关键词转为 url 编码

根据设置的关键词，打开搜索页面，搜索相关笔记

使用 DrissionPage 库定位元素方法，定位到包含笔记信息的 sections、定位标题、作者、点赞等信息。

为了防止被检测到，每次下滑页面设置一个 0.5,秒至 1.5 秒之前的随机睡眠时间。使用 DrissionPage 库 scroll.to_bottom()操作页面方法，将页面划到底部，小红书会刷新出新的数据。

调用 get_info()函数自动提取页面数据，调用 page_scroll_down()函数自动下滑页面。设置向下滑动 20 次页面，就可以自动刷新数据、提取数据了。

创建一个 contents 列表，用来存放所有爬取到的信息。

使用 pandas 库，将 contents 列表转为 Dataframe 数据类型，保存为 excel 文件。

这里可以进行细节处理，比如删除重复数据。数据类型转换，将点赞量字符串类型转为 int 类型。根据点赞量降序排序，方便查看热门笔记。

由于笔记标题和作者名称包含的字数较多，可以自动调整这 2 列宽度满足数据在 excel 表格中不被遮挡，可以全部展示出来。

笔记链接、作者主页链接、作者头像链接全是链接，也很长，但是不需要全部展示，可以将这几列设置固定列宽。

以一个爬取过程为例，录屏如下：

视频可以在我公众号同名文章查看。

由于代码太长，在这里只给出主函数代码，有兴趣的读者可以根据上述信息自己补全代码。

小红书是商业化很成功的平台，我知道有很多小伙伴在小红书平台做副业，收入甚至超过主业。

我的这个代码，可以帮助你选题、找热点，找流量博主学习。

小红书的数据应该很有价值，特别有兴趣的小伙伴可以在公众号私聊我，以一杯瑞幸咖啡的价格获取全部代码（毕竟我写代码写了一下午~~~）。

我还会继续写小红书别的内容的爬虫，本次付费可以免费获得后续更新的代码。名额有限，仅限前5位小伙伴，先到先得。