golang写爬虫出现乱码如何处理

golang写爬虫出现乱码如何处理?相信有很多人都不太了解,今天小编为了让大家更加了解Golang,所以给大家总结了以下内容,一起往下看吧。

“专业、务实、高效、创新、把客户的事当成自己的事”是我们每一个人一直以来坚持追求的企业文化。 创新互联是您可以信赖的网站建设服务商、专业的互联网服务提供商! 专注于成都网站设计、成都网站制作、软件开发、设计服务业务。我们始终坚持以客户需求为导向,结合用户体验与视觉传达,提供有针对性的项目解决方案,提供专业性的建议,创新互联建站将不断地超越自我,追逐市场,引领市场!

golang写爬虫乱码怎么办

在用golang编写爬虫程序时,会碰见编码格式gb2312的页面。

网页页面上可以看出该页面字符编码为gb2312

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

而golang默认是支持UTF-8编码格式的,这样直接爬下来的结果会乱码。

解决方法:

使用 github.com/axgle/mahonia 这个包可以完成编码转换、

1、执行  go get github.com/axgle/mahonia命令下载此包后,在%gopath%/src目录下会生产

github.com\axgle\mahonia

2、代码使用方法

1)导入包

import "github.com/axgle/mahonia"

2)转换函数

func ConvertToString(src string, srcCode string, tagCode string) string {
    srcCoder := mahonia.NewDecoder(srcCode)
    srcResult := srcCoder.ConvertString(src)
    tagCoder := mahonia.NewDecoder(tagCode)
    _, cdata, _ := tagCoder.Translate([]byte(srcResult), true)
    result := string(cdata)
    return result
}

3)在需要字符串转换编码的位置调用此函数

result = ConvertToString(html, "gbk", "utf-8")

关于golang写爬虫出现乱码如何处理就分享到这里了,希望以上内容可以对大家有一定的参考价值,可以学以致用。如果喜欢本篇文章,不妨把它分享出去让更多的人看到。

文章题目:golang写爬虫出现乱码如何处理
文章源于:https://www.cdcxhl.com/article30/ipgopo.html

成都网站建设公司_创新互联,为您提供营销型网站建设标签优化定制网站网站维护搜索引擎优化品牌网站设计

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

成都定制网站建设