• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

XMLHTTP GetHTML页面时的中文乱码之完全_xml

xml 搞代码 7年前 (2018-06-15) 135次浏览 已收录 0个评论

    常有人说,他们在使用xmlHTTP过程中,总是为中文乱码的问题烦恼。本人查阅了一些资料,结果令我失望,大家都是使用ASP服务器端技术解决该问题。

 先分析一下为何会出现中文乱码的问题。原因很简单:XMLHTTP得到Response时假定Response是UTF8编码的,它把含GB2312编码的html当成UTF8格式,因此,出现了中文乱码。

 那么,除了使用ASP服务器端脚本技术外,就没有客户端的解决办法吗?答案是:有!

 本人使用VBScript客户端脚本,成功实现了不使用ASP,解决了XMLHTTP 抓取 HTML页面时出现中文乱码的问题。

 为何使用VBScript,而不是大家常用的jscript?XMLHTTP的responseBody返回的是一个unsigned bytes数组。VBScript提供了许多用于操作字符串和格式化数据的函数,以及访问安全数组的方法。这些函数或方法在JScript中并不存在。这里我们需要使用VBScript的内置函数:MidB、AscB、LenB等,来访问responseBody。

 说句题外话,我不是在强调VBScript比JScript好,而是二者都有自己的特点。第一次在CSDN上写文章,谢谢大家支持。写这边文章有两个目的:一、锻炼自己;二、希望大家遇到问题时,要学会分析问题,做到有的放矢,知其然也知其所以然。

 我给出代码Test.htm,它包括了获取自身代码和获取其他网页代码两种应用,具体脚本如下:

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0 Transitional//EN”>
<!– 作者:小林,[email protected] –>
<HTML>

<HEAD>
<META http-equiv=”Content-Type” content=”text/html; charset=gb2312″>

http://www.gaodaima.com/33527.htmlXMLHTTP GetHTML页面时的中文乱码之完全_xml

</HEAD>

<script language=VBScript>

Function bytes2BSTR(vIn)
strReturn = “”
For i = 1 To LenB(vIn)
ThisCharCode = AscB(MidB(vIn,i,1))
If ThisCharCode < &H80 Then
strReturn = strReturn & Chr(ThisCharCode)
Else
NextCharCode = AscB(MidB(vIn,i+1,1))
strReturn = strReturn & Chr(CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
i = i + 1
End If
Next
bytes2BSTR = strReturn
End Function

Function viewSource1()
dim XmlHttp
set XmlHttp = CreateObject(“Microsoft.XMLHTTP”)
XmlHttp.Open “GET”, document.location.href, false
XmlHttp.setRequestHeader “Content-Type”,”text/XML”
XmlHttp.Send

dim html
html = bytes2BSTR(XmlHttp.responseBody)
msgbox html
End Function

Function viewSource2()
dim XmlHttp
set XmlHttp = CreateObject(“Microsoft.XMLHTTP”)
XmlHttp.Open “GET”, “http://www.google.com&#8221;, false
XmlHttp.setRequestHeader “Content-Type”,”text/XML”
XmlHttp.Send

dim html
html = bytes2BSTR(XmlHttp.responseBody)
msgbox html
End Function

</script>

<BODY bgcolor=gainsboro style=’border:1pt solid white’>
<TABLE class=text>
<tr>
<td class=text>XMLHTTP Get HTML页面时的中文乱码之完全客户端Script解决方案</td>
</tr>
<tr>
<td class=button><button onclick=viewSource1()>查看自身的网页代码</button></td>
</tr>
<tr>
<td class=button><button onclick=viewSource2()>查看google主页代码</button></td>
</tr>
</TABLE>
</BODY>
</HTML>

欢迎大家阅读《XMLHTTP GetHTML页面时的中文乱码之完全_xml,跪求各位点评,若觉得好的话请收藏本文,by 搞代码


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:XMLHTTP GetHTML页面时的中文乱码之完全_xml

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址