当前位置：首页 > news >正文

铜仁市网站建设_网站建设公司_导航菜单_seo优化

news 2025/12/2 1:50:35

公司有网站域名，如何做网站,动漫网页设计代码,萍乡网站建设公司,国外做美食的网站有哪些一#xff1a;爬虫前导知识 1.爬虫引入#xff1a; 网络爬虫又称为网络蜘蛛#xff1b;网络蚂蚁#xff1b;网络机器人等#xff0c;可以自动高效地从互联网的海量信息中浏览获取到我们感兴趣的信息#xff0c;在浏览信息的时候需要按照我们制定的规则进行#xff…一爬虫前导知识 1.爬虫引入网络爬虫又称为网络蜘蛛网络蚂蚁网络机器人等可以自动高效地从互联网的海量信息中浏览获取到我们感兴趣的信息在浏览信息的时候需要按照我们制定的规则进行而这些规则就是网络爬虫算法。使用Python可以很方便地编写出爬虫程序进行互联网信息的自动化检索也就是代替人去模拟浏览器进行网页操作网络爬虫分为通用网络爬虫和聚焦网络爬虫 1通用网络爬虫用做搜索引擎获取一些高质量网页 2聚焦网络爬虫获取某一垂直领域的数据或者有明确的检索需求并过滤掉无用的信息 2.Python做爬虫的优势 PHP对多线程异步支持不太好Java代码量大代码笨重C/C代码量大难以编写Python支持模块多代码简洁开发效率高scrapy框架 3.爬虫的合法性爬虫本身在法律上并不被禁止但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。建议熟读《网络安全法》并参考《刑法》第72条第253条第285条且遵守Robots协议 4.http与https协议 http与https http – 不安全https – 安全 https http ssl ssl安全认证证书网址url全球统一资源管理定位器用来定位的写爬虫的第一步就是找到数据接口 – 当前数据存在的url也就是网址 1什么是协议网络协议是计算机之间为了实现网络通信而达成的一种 “约定” 或者 “规则” 有了这种约定不同厂商的生产设备以及不同操作系统组成的计算机之间就可以实现通信 2HTTPHyper Text Transfer Protocol协议是超文本传输协议的缩写是从Web服务器传输超文本标记语言HTML到本地浏览器的传送协议。设计HTTP最初的目的就是为了提供一种发布和接收HTML页面的方法 HTTP有多个版本目前广泛使用的是HTTP1.1版本有些网站运用的是HTTP2.0版本因为版本的不同所以可能会导致发包异常 3HTTP原理了解 HTTP是一种基于TCP/IP通信协议来传递数据的协议传输的数据类型为HTML文件图片文件查询结果等 HTTP协议一般用于B/S架构浏览器/服务器结构。浏览器作为HTTP客户端通过URL向HTTP服务端即Web服务器发送所有请求 4HTTP特点了解 HTTP协议支持客户端/服务端模式也是一种请求/响应模式的协议简单快速客户向服务器请求服务时只需传送请求方法和路径请求方法常用的有GETHEADPOST 灵活HTTP允许传输任意类型的数据对象传输的类型由Content-Type加以标记无连接限制每次连接只处理一个请求。服务器处理完请求并收到客户的应答后即断开连接但是却不利于客户端与服务器保持会话连接为了弥补这种不足产生了两项记录HTTP状态的技术一个叫做Cookie一个叫做Session 无状态无状态是指协议对于事物处理没有记忆后续处理需要前面的信息则必须重传 5HTTP的请求与响应 HTTP通信由两部分组成客户端请求信息服务器响应信息示例 1.当用户在浏览器的地址栏中输入一个URL https://www.baidu.com/ 并按回车键后浏览器会向HTTP服务器发送HTTP请求HTTP请求主要分为 Get 和 Post 两种方法 2.当我们在浏览器输入URL https://www.baidu.com/ 的时候浏览器会发送一个Request请求去获取这个URL https://www.baidu.com/ 的html文件服务器把Response文件对象发送回浏览器客户端 3.浏览器分析Response中的HTML发现其中引用了很多其它文件比如images文件CSS文件JS文件浏览器会自动的再次发送Request去获取images文件CSS文件JS文件 —— 下载的过程 4.当所有的文件都下载成功后网页会根据HTML语法结构完整的显示出来 6HTTP的报文组成 HTTP报文大致分为报文首部和报文主体两块中间用空行来划分。通常不一定会有报文主体报文首部包含服务器或客户端需处理的请求或响应的内容及属性报文主体应该被发送的数据 7什么是HTTPS? https http sslhttps就是在http的基础上加上了SSL保护壳信息的加密过程就是在SSL中完成的 https是以安全为目标的HTTP通道简单来讲就是HTTP的安全版即HTTP下加入SSL层HTTPS的安全基础就是SSL 注意 SSL也是一个协议主要用于Web的安全传输协议 8HTTPS和HTTP的区别与总结了解一般http中存在如下问题请求信息明文传输容易被窃听截取。数据的完整性未校验容易被篡改没有验证对方身份存在冒充危险 HTTPS的缺点 HTTPS协议多次握手导致页面的加载时间延长近50%HTTPS连接缓存不如HTTP高效会增加数据开销和功耗申请SSL证书需要钱功能越强大的证书费用越高。SSL涉及到的安全算法会消耗 CPU 资源对服务器资源消耗较大。总结 HTTPS是HTTP协议的安全版本HTTP协议的数据传输是明文的是不安全的HTTPS使用了SSL/TLS协议进行了加密处理。http和https使用连接方式不同默认端口也不一样http是80https是443。 5.抓包工具的使用如何抓包以抓取百度首页的包为例注意尽量不要把英文换成中文因为在找资料的过程中通过中文搜索有时会搜索不到 1鼠标右键网页然后点击检查 / 按F12 / 按Fn F12 – 打开抓包工具框注意不要弄错是点击检查不是网页源代码网页源代码是查看当前页面的组成代码数据 2点击 Network – 抓包Network 是网络工作区里面有非常多的包 3把 Preserve log日志信息和 Disable cache禁用缓存勾选上避免有些包抓不到 4点击刷新页面 / CTRL R – 刷新页面让它发包 5点击百度的包 www.baidu.com 再点击 Headers标头 Headers 里面有 General通用的Response Headers响应头Request Headers请求头。先请求再响应只有发出了正常的请求头才会得到正确的响应所以目前主要关注 Request Headers 就可以发出请求 1.携带URLURL可以在 General 中查看 2.请求参数在 Request Headers 中查看因为服务器会做校验而校验的内容全是 Request Headers请求头当你不知道要校验的具体参数时就将请求头里面的内容全部复制下来这样做不会出现任何的问题但在有反爬的情况下它里面的有些参数会是动态的这个时候在发出请求的过程中如果不能找到那个动态的参数这样做就没有任何的意义了图片解析示例代码爬取百度首页源代码 #导入网络请求模块因为这是第三方模块并不是内库所以需要去安装 -- 通过 win R 输入cmd 打开终端输入 pip install requests 安装 import requests #目标网址 url http://www.baidu.com #添加请求头信息 headers {User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0} #发送请求1.携带url 2.携带请求头信息 response requests.get(url,headersheaders)#将得到的响应数据指定为可读的格式编码 response.encoding utf-8 #获取到响应内容 html response.text #打印响应数据 print(html) #CTRLF检索查找具体数据6.一些零碎的知识 1反反爬的第一步了解Request Headers请求头里的 User-Agent用户代理 User-Agent客户端程序的信息就是我发送请求的浏览器信息我们的爬虫程序的目的模拟我们的浏览器向我们的服务器要数据在发请求的过程中我们需携带请求头而这个 User-Agent 是第一步要让它认为我们是一个浏览器去访问的服务器而不是我们的爬虫程序去访问的服务器因为如果是爬虫程序访问的服务器它会在前面显示 Python-Request它会认为我们是一个自动化爬虫的请求服务器一旦检测出来 User-AgentPython-Request那么服务器就不会给我们校验通过这个时候我们需要模拟携带上我们自带的电脑上的 User-Agent这个 User-Agent 直接复制就可以了注意无论要写什么样的爬虫程序 User-Agent 都是我们必须要携带的东西 Response Headers响应头里的 Set-Cookie判断我们的Cookie它是本地生成的还是服务器生成的了解 2认识url URLUniform Resource Locator中文叫统一资源管理定位器是用来标识某一处资源的地址即是我们常说的网址在发送http请求时通过URL对网络资源进行定位 3常见的请求方法 GET请求指定的页面信息并返回实体主体 POST向指定资源提交数据进行处理请求例如提交表单或者上传文件数据被包含在请求体中POST请求可能会导致新的资源的建立和/或已有资源的修改 HEAD类似于get请求只不过返回的响应中没有具体的内容用于获取报头 PUT从客户端向服务器传送的数据取代指定的文档的内容 DELETE请求服务器删除指定的页面注意 GET请求和 POST请求是用的最多的其它的很少用到 4响应状态码访问一个网页时浏览器会向web服务器发出请求。此网页所在的服务器会返回一个包含HTTP状态码的信息头用以响应浏览器的请求状态码的分类 1XX – 信息型服务器收到请求需要请求者继续操作 2XX – 成功型请求成功收到理解并处理 3XX – 重定向需要进一步的操作以完成请求 4XX – 客户端错误请求包含语法错误或无法完成请求 5XX – 服务器错误服务器在处理请求的过程中发生了错误常见的状态码 200 OK – 客户端请求成功 301 – 资源网页等被永久转移到其它URL 302 – 临时跳转 400 Bad Request – 客户端请求有语法错误不能被服务器所理解 401 Unauthorized – 请求未经授权这个状态代码必须和WWW-Authenticate报头域一起使用 404 – 请求资源不存在可能是输入了错误的URL 500 – 服务器内部发生了不可预期的错误 503 Server Unavailable – 服务器当前不能处理客户端的请求一段时间后可能恢复正常

查看全文

http://www.ihoyoo.com/news/106180.html