python3 爬取网页报错：'gb2312' codec can't decode byte 0xb5 in position 154969: illegal multibyte sequence

超新星 · 发表于 2024-4-18 13:28:57

前几天需要在网页上爬取信息，就使用到了requests库爬取网页，其中遇到的比较大的坑则是中文编码。

python版本：3.72

操作系统：windows10

首先需要爬取网页信息。

def parse_url(url, callback):
"""
根据url爬取页面，若成功则调用回调函数
:param url: 链接
:param callback: 回调函数，会在response请求成功后调用，参数为response
:return:
"""
response = requests.get(url)

if response.status_code == 200:
      return callback(response)
else:
      print("%s:status_code:%s" % (url, response.status_code))
requests.get函数在从网页上爬取成功后返回response对象。在response对象中，一般可以通过以下两种方法获取网页的内容：

response.text 获取的是文本内容，类型为<class 'str'>
response.content 获取的是二进制数据类型为<class 'bytes'>
一般情况下是直接通过response.text获取文本内容的，然后使用正则表达式、xpath、beautiful soup、pyquery等解析网页内容来获取信息。不过有时候会出现意外情况，比如这个链接：http://www.most.gov.cn/cxfw/kjjl ... t20080214_59081.htm

response.encoding返回的是ISO-8859-1，ISO-8859-1是单字节编码，中文最少是双字节编码；而response.text是根据response.encoding进行编码的，因此在解码过程中会发生解码错误。

那有什么解决办法呢？

方法一：
我一开始的想法是获取网页的head标签内的meta标签中的charset对应的值。不过并不是所有的网页都存在这个属性，因此这个想法行不通。

方法二：
response内有一个属性：response.apparent_encoding，可以通过获取该属性获取requests所认为的编码，然后主动对response.content进行解码，代码如下：

encoding = response.apparent_encoding
html = response.content.decode(encoding)
好了，我以为程序没什么问题了，不过程序还是幸运地报错了：

又是解码错误。在网上翻了翻别人的帖子，其中的一个解决方法是在decode函数后加上"ignore"来忽略那些无法解码的文字。

代码更改如下：

encoding = response.apparent_encoding
html = response.content.decode(encoding, "ignore")
好了，程序不会报错了。

虽然解决了一个问题，但是又出现了一个新的问题，那就是对于生僻字会发生乱码情况，比如“俤”这个字，在程序中变为了d。。。

究其原因应该是gb2312编码只是包含了常用的中文文字，所以在遇到生僻字会发生编码错误，那么哪个编码是gb2312的超集呢，在网上百度了下为gb18030，那么直接把上面的代码encoding改为"gb18030"。

gb18030:是新出的国家标准。这个标准由国家强制执行（也是为了保证中国信息业的地位，以及争取一定的主动权），所以所有在中国大陆销售的操作系统必须支持gb18030。现在的Gb18030不仅包含了简体和繁体汉字，支持中国少数名族文字，还包含了日韩等国的象形文字。优点：兼容性好，与以前的国标码都兼容。缺点：对英文字母需要2个字节的编码（引用自百度百科）

运行成功。
————————————————

                        版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/bull521/article/details/89919175

		自动登录	找回密码
密码			立即注册