asp去掉Adodb.Stream输出UTF-8的BOM(w3c认证时用)

asp去掉Adodb.Stream输出UTF-8的BOM

在进行w3c认证的时候,发现通过asp程序生成的html文件在验证时遇到下面问题:

Byte-Order Mark found in UTF-8 File

解决思路:

通过Adodb.Stream,可以很方便的读写二进制及及文本流,可读写文件,并可指定文本流的字符集编码。
可是Adodb.Stream输出UTF-8编码的文本流时,会在流的最前端加上BOM。
BOM是什么:Byte Order Mark, UTF-8编码特有的标记,在文件流的开始中占用3个字节“EF BB BF”。
BOM有什么用处:这里不做讨论,这里要讨论的是如何在Adodb.Stream(以下简化为stream或“流”)中去掉这3个字节的BOM,因为很多时候我们都不希

望输出的文件开头包含这3个字节。

最直接简单的做法可以这样:
我们已经知道BOM占用3个字节,那么我们可以在stream中写入UTF-8字符串之后,将stream转换为二进制类型,然后跳过头3个字节,并将剩下的字节

用CopyTo()方法拷贝到一个新的stream中去。
不过这样好像有潜在的很严重的性能问题,如果这个文本流比较大,会不会因为处理这个流而耗费双倍的资源?

那我们将上面的方案优化一下。
经过测试发现,stream在“UTF-8”编码的Text方式下首次调用WriteText()方法时,会自动在stream的最开始加入3个字节。
更严格的说,在以下状态下
stream.Position = 0; // 流的位置在最开始时
stream.Type = 3; // adTypeText
stream.Charset = 'UTF-8';
调用stream.WriteText()方法时,stream会自动先在流的最开始插入3个字节的BOM。

而stream.Position在任何非0值的情况下,调用WriteText()方法都不会再插入BOM了,可以利用这一点来避免自动插入BOM。
假如我们需要朝stream中写入10个UTF-8字符,我们先按照通常方式在一个刚创建的stream中只写入第一个UTF-8字符。
之后将stream转换为二进制类型(adTypeBinary),跳过stream开始的3个BOM字节,并读出剩余的字节(这些字节应该只包含刚刚一个字符的数据,不含其它杂质)。
再回到流的开始,将刚刚读出的字节重新写入流,写完后立即调用SetEOS()方法将当前位置设为流末尾。
然后将stream重新转换回文本类型(adTypeText),并将流当前位置移到流末尾。
此时继续写入剩余的9个UTF-8字符,stream会将其编码后的字节数据直接添加到尾部,而不会再插入BOM了。
此后若需要继续往stream中写入文本,直接调用WriteText()方法即可。

通过测试可以发现,如上方式写入的UTF-8字符串通过ReadText()方法也能正常读出,但是stream.Size却比传统方式直接写入UTF-8的stream小3,很明显就是少了那3个“多余”的BOM字节。

问题到此还未结束。
此时你可能想直接调用stream.SaveToFile()方法保存到文件,你可能会发现,有时保存的文件中还是带有BOM,上述方法无效?
出现这种情况,是因为你漏掉了关键的一步:在调用SaveToFile()方法之前,需要将流转换为二进制类型。
原来还是Adodb.Stream在自作聪明,输出的时候发现UTF-8文本流的开头缺少BOM,又会再次将其加上。
但是若将流类型改为二进制,输出时就可以绕过Adodb.Stream的BOM监测了。

函数如下,最简单的方法就是把文件通过函数再写一遍


'*********************************************************************************************************
'函数名:FSOSaveFile
'作 用:生成模板,去掉bom标签文件
'参 数: Content内容,FileName路径 注意虚拟目录
'*********************************************************************************************************
Sub FSOSaveFile(Content,FileName)
    dim stm:set stm=server.CreateObject("adodb.stream")
    stm.Type=2 '以文本模式读取
    stm.mode=3
    stm.charset="utf-8"
    stm.open
    stm.Writetext (content)
    stm.Position = 3
 dim newStream:Set newStream = Server.CreateObject("adodb.stream")
 With newStream
  .Mode = 3
  .Type = 1
  .Open()
 End With
 stm.CopyTo(newStream)
 newStream.SaveToFile server.MapPath(FileName),2
    stm.flush
    stm.Close
    Set stm = Nothing
    Set newStream = Nothing
End Sub
 

笔者的文件最后通过了w3c的认证:

Congratulations

The document located at <http://www.gdwd.net/> was successfully checked as XHTML 1.0 Transitional. This means that the resource in question identified itself as "XHTML 1.0 Transitional" and that we successfully performed a formal validation of it. The parser implementations we used for this check are based on OpenSP (SGML/XML) and libxml2 (XML).

    相关文章

评论

发表新评论

此内容将保密,不会被其他人看见。
点击刷新验证码
  • 可用的 UBB 标签:
  • 留言最长字数:1000。