博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python3 爬虫入门
阅读量:6652 次
发布时间:2019-06-25

本文共 1379 字,大约阅读时间需要 4 分钟。

 

import urllib.request;import urllib.parse;url = "http://www.iciba.com/publish";headers = {	"Host" : "www.iciba.com",	"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0",	"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",	"Accept-Language" : "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",	#"Accept-Encoding" : "gzip, deflate"};request = urllib.request.Request(url=url,headers=headers);response = urllib.request.urlopen(request);print(response.read().decode());

 

报错:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

【解决之道】没有进行解压缩处理

import urllib.request;import urllib.parse;import gzip;url = "https://www.baidu.com";headers = {	"Host" : "www.baidu.com",	"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0",	"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",	"Accept-Language" : "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",	"Accept-Encoding" : "gzip, deflate"};request = urllib.request.Request(url=url,headers=headers);response = urllib.request.urlopen(request);content = response.read();'''获取响应信息'''encoding = response.info().get("Content-Encoding");if(encoding == "gzip"):	print(gzip.decompress(content).decode());

 

转载于:https://www.cnblogs.com/liwuming/p/10851045.html

你可能感兴趣的文章
【洛谷 P1651】 塔 (差值DP)
查看>>
考虑碰撞的二能级原子和电磁场的相互作用
查看>>
从乔布斯在斯坦福大学毕业典礼上的演讲感触
查看>>
无限级分类
查看>>
美化fedora字体
查看>>
【LeetCode】6 - ZigZag Conversion
查看>>
Ambiguous HTTP method Actions require an explicit HttpMethod binding for Swagger 2.0
查看>>
OpenSSL修复加密漏洞、加强Logjam防御
查看>>
H5新增的标签以及改良的标签
查看>>
初学者 的 js 关于checkbox全选的问题
查看>>
计算反常积分
查看>>
第一次测试感想
查看>>
JAVA多线程与多进程
查看>>
复制的文本加上版权信息
查看>>
二分查找
查看>>
path,classpath
查看>>
放大电路分析方法二
查看>>
[洛谷P5105]不强制在线的动态快速排序
查看>>
[洛谷P4735]最大异或和
查看>>
跟我学算法-贝叶斯拼写检查器
查看>>