商务服务
Python基础学习--基于尚硅谷python教学视频
2024-11-13 10:24

设置通用代码模板

单行注释:#

Python基础学习--基于尚硅谷python教学视频

多行注释: ‘’’ ‘’‘’

 

使用

 

使用type方法判断变量的数据类型

 
 
 
 

输出

 

输入

 
 
 
获取长度:lenlen函数可以获取字符串的长度查找内容:find查找指定内容在字符串中是否存在,如果存在就返回该内容在字符串中第一次出现的开始位置索引值,如果不存在,则返回-1.判断:startswith,endswith判断字符串是不是以谁谁谁开头/结尾计算出现次数:count返回 str在start和end之间 在 mystr里面出现的次数替换内容:replace替换字符串中指定的内容,如果指定次数count,则替换不会超过count次。切割字符串:split通过参数的内容切割字符串修改大小写:upper,lower将字符串中的大小写互换空格处理:strip去空格字符串拼接:join字符串拼接
 

1.添加

 

2.修改

 

3.查找

 

4.删除

  • del:根据下标进行删除
  • pop:删除最后一个元素
  • remove:根据元素的值进行删除
 
 

切片是指对操作的对象截取其中一部分的操作。字符串、列表、元组都支持切片操作

切片的语法:[起始:结束:步长],也可以简化使用[起始:结束]

 

查询

 

修改

 

添加

 

删除

 

遍历

 

函数的定义与调用

 

函数参数的使用

 

函数返回值

 

文件的打开与关闭

 

文件路径

绝对路径:绝对位置,完整地描述了目标的所在地,所有目录层级关系是一目了然的。

  • 例如:,从电脑的盘符开始,表示的就是一个绝对路径。

相对路径:是从当前文件所在的文件夹开始的路径。

  • ,是在当前文件查找 文件
  • ,也是当前文件夹中查找 文件,表示的是当前文件夹
  • ,从当前文件夹的上一级文件夹里查找 文件。表示的是上一级文件夹
  • ,在当前文件夹里查找 这个文件夹,并在这个文件夹里查找 文件

img

文件的读写

 

通过文件操作,我们可以将字符串写入到一个本地文件。但是,如果是一个对象(例如列表、字典、元组等,就无法直接写入到一个文件里,需要对这个对象进行序列化,然后才能写入到文件里。

设计一套协议,按照某种规则,把内存中的数据转换为字节序列,保存到文件,这就是序列化,反之,从文件的字节序列恢复到内存中,就是反序列化。

Python中提供Json这个模块用来实现数据的序列化和反序列化。

  • 对象----->字节序列 === 序列化
  • 字节序列----->对象 ===反序列化

JSON模块

JSON是一种轻量级的数据交换标准。JSON的本质是字符串。

使用JSON实现序列化

JSON提供了dump和dumps方法,将一个对象进行序列化。

dumps方法的作用是把对象转换成字符串,它本身不具备将数据写入到文件的功能。

 

try: 可能出现异常的代码 except 异常的类型 友好的提示

 
 

1.Urllib库的使用

img

基本使用

 

2.一个类型和六个方法

 

3.下载

 

4.请求对象的定制

UA介绍:User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等

 

5.编解码

1、get请求方式:urllib.parse.quote
 
2、get请求方式:urllib.parse.urlencode

主要解决多个中文参数时候

 

6.Post请求方式

 
 

百度详细翻译

 

7.Ajax的get请求

get请求豆瓣的第一页内容

 
  • get请求豆瓣电影前十页

     

8.Ajax的post请求

  • post请求肯德基温州门店信息

     

9.URLErrorHTTPError

在这里插入图片描述

 

10.微博的cookie登录

适用的场景:数据采集的时候,需要绕过登录,然后进入到某个页面

cookie是headers中的关键信息,如果有登录之后的cookie,那么我们可以携带着cookie进入到任何页面

 

11.Handler处理器

img

 

img

 

12.代理池

 

1.xpath基本使用

在这里插入图片描述

 
  • 安装lxml库

     
  • 导入lxml.etree

     

    在这里插入图片描述

  • etree.parse() 解析本地文件

    html页面

     
     
  • etree.HTML() 服务器响应文件

    在浏览器上打开xpath: ctrl+shift+x

    获取百度中百度一下

     

2.抓取站长素材图片案例

 

pip安装

 

jsonpath的使用

 

jsonpath与lxml语法对比

在这里插入图片描述

数据源

 

根据json案例写出jsonpath解析json数据

 

jsonpath与lxml写法对比

在这里插入图片描述

jsonpath解析淘票票

 

1.基本简介

img

2.安装以及创建

在这里插入图片描述

3.节点定位

img

3

4.节点信息

在这里插入图片描述

本地数据

 

bs4的基本使用

 

bs4爬取星巴克数据

 

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t0m1X1Vw-1658307246358)(D:DesktopCSDN博客Python学习.assetsimage-20220717110557728.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MndtXWN6-1658307246359)(D:DesktopCSDN博客Python学习.assetsimage-20220717110618063.png)]

1.一个方法以及六个属性

基本使用

 

2.requests与urllib的区别

 

3.get请求

 

4.post请求

 

5.cookie登录古诗文网

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nbvklSwY-1658307246360)(D:DesktopCSDN博客Python学习.assetsimage-20220717121244899.png)]

 

6.超级鹰打码平台的使用

scrapy是什么

 

安装scrapy

 

在这里插入图片描述

1.基本使用

1.1创建scrapy项目

终端输入

1.2项目组成

在这里插入图片描述

在这里插入图片描述

1.3创建爬虫文件

跳转到spiders文件夹

 

创建爬虫文件.py

 

爬虫文件的基本组成

在这里插入图片描述

生成的爬虫文件

 

运行爬虫代码

 

运行后有君子协议,修改君子协议

 
1.4 爬取58同城数据

项目结构

 

response属性的方法

 

代码

 
1.5 scrapy架构组成

在这里插入图片描述

1.6 scrapy工作原理

在这里插入图片描述

scrapy爬取汽车之家

 
1.7 scrapy shell
 
1.8.yield

在这里插入图片描述

简要理解

yield就是 return 返回一个值,并且记住这个返回的位置,下次迭代就从这个位置后(下一行)开始

案例1:当当网

(1)yield(2)管道封装(3)多条管道下载 (4)多页数据下载

实现代码

dangdang.py

 

pipelines.py

 

items.py

 

settings.py

 
案例2:电影天堂

mv.py

 

items.py

 

pipelines.py

 
1.9 CrawlSpider

链接提取器,继承自scrapy.Spider

  • 独门秘笈 CrawlSpider可以定义规则,再解析html内容的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发送请求 所以,如果有需要跟进链接的需求,意思就是爬取了网页之后,需要提取链接再次爬取,使用CrawlSpider是非常合适的
  • 提取链接

在这里插入图片描述

模拟使用

在这里插入图片描述

  • 提取连接
 

注意事项

【注1】callback只能写函数名字符串,不需要写圈函数带上), callback=‘parse_item’ 【注2】在基本的spider中,如果重新发送请求,那里的callback写的是callback=self.parse_item 【注‐‐稍后看】follow=true 是否跟进 就是按照提取连接规则进行提取 运行原理

在这里插入图片描述

crawlSpider案例

需求读书网数据入库

创建项目

 

创建爬虫类

 

实现代码

read.py

 

items.py

 

pipelines.py

 

代码实现

read.py

 

settings.py

 

pipelines.py

 

items.py

 
1.10 日志信息以及日志级别

在这里插入图片描述

    以上就是本篇文章【Python基础学习--基于尚硅谷python教学视频】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.kub2b.com/news/493.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 企库往资讯移动站 http://changmeillh.kub2b.com/ , 查看更多   
最新新闻
关于抖音怎么核销团购的知识,学到便是赚到!
1.打开抖音App,点击“我的”,进入我的页面;2.在我的页面点击“社群”,进入社群页面;3.点击“我的社群-团购”,进入团购页面
快手抖音B站秒刷业务全网最便宜低价自助下单平台软件
快手和抖音的战争还要持续,未来它们或许会像B站一样探索出变现之法,但现在讲游戏联运的故事未免还太早。互联网各大APP软件平台
刘震云“一句顶一万句”:写作的幽默,得把词语剔去
  作家刘震云 (人民网记者陈苑 摄)  【文艺星青年按】“用最幽默的方式在说最深邃的哲学;用最简约的方式在说最复杂的事物
中国十大90后帅哥明星排名榜单揭晓!张艺兴名列榜首!
有些男生“天生丽质”,生来就是一副好皮囊,皮肤白皙、五官秀气,简直比女生还好看。这样的男生有人说是娘炮,有人说是秀气,有
国产AI海外爆火,有“黑马”产品访问量大涨860% !外国网友:我们不再需要Sora了
在全球人工智能(AI)竞争日趋激烈的背景下,中国AI企业正在海外市场崭露头角。近期,以AI初创企业MiniMax旗下视频生成应用“海
hi3593 Arinc429协议芯片使用及维护说明
     最近使用Arinc429协议中,由于之前一直是逻辑实现的功能,但最近外接项目原因使用hi3593芯片,发现
外贸常用英语和外贸必备英文单词两篇(18页)
S/O 装货单 是Shipping Order 的简写!PO purchase order 订单PR 价格 Inv invoice 发票s/c sales contract 销售确认书在来些常
为什么抖音视频总被限流?dou+不让投放的原因是什么?
如果你经常发布短视频,相信你一定有个烦恼,就是经常会被莫名其妙限流,甚至有时你想花钱投dou+都不让你投放,理由也是千奇百怪
使用s3c2440芯片对外挂的nor flash进行读写擦除操作
学习目标:1、了解nor flash存储芯片的概念和特性2、掌握使用s3c2440芯片对外挂的nor flash进行读写擦除操作1、NOR Flash的简单
《2024年游戏行业抖音经营白皮书》发布,洞察行业趋势、共创营销未来
  历经多年发展,游戏行业市场规模增速有所放缓、竞争格局趋于稳固,行业进入发展成熟期。2023年,随着版号重新发放、云游戏/小游
本企业新闻