移除UTF-8文件头的BOM

作者: admin 分类: javaweb 发布时间: 2013-02-21 10:45 ė 6 移除UTF-8文件头的BOM已关闭评论

UTF-8 BOM又叫UTF-8 签名,在UTF-8文件的头部,长度为3个字节。其实UTF-8 的BOM对UFT-8没有作用,BOM签名的意思就是告诉编辑器当前文件采用何种编码,方便编辑器识别。但是在Eclipse中,带有BOM的java源码生成javadoc时却会出现如下错误:

E:/workspace/Test/src/express/ExpType.java:1: 非法字符: /65279
?package express;
^

一个个修改是个办法,但是面对几百上几千个的源文件,一个个去修改决不是程序员的作风。于是我写了一段代码,能够批量移除UTF-8的BOM,其实质就是删除带有BOM信息的UTF-8文件的前三字节,代码共享如下:

import java.io.File;
import java.io.IOException;
import java.util.Collection;
import org.apache.commons.io.DirectoryWalker;
import org.apache.commons.io.FileUtils;
import org.apache.commons.io.FilenameUtils;
@SuppressWarnings("rawtypes")
public class Utf8BomRemover extends DirectoryWalker {
	public static void main(String[] args) throws IOException {
		//删除指定文件夹下(含子文件夹)所有java文件的BOM,若构造器中参数为null则删除所有文件头部BOM
		new Utf8BomRemover("java").start(new File("E:/workspace/Test/src"));
	}
	private String extension = null;
	public Utf8BomRemover(String extension) {
		super();
		this.extension = extension;
	}
	/** 启动对某个文件夹的筛选 */
	@SuppressWarnings("unchecked")
	public void start(File rootDir) throws IOException {
		walk(rootDir, null);
	}
	protected void handleFile(File file, int depth, Collection results) throws IOException {
		if (extension == null
				|| extension.equalsIgnoreCase(FilenameUtils.getExtension(file.toString()))) {
			//调用具体业务逻辑,其实这里不仅可以实现删除BOM,还可以做很多想干的事情。
			remove(file);
		}
	}
	/** 移除UTF-8的BOM */
	private void remove(File file) throws IOException {
		byte[] bs = FileUtils.readFileToByteArray(file);
		if (bs[0] == -17&&bs[1] == -69&&bs[2] == -65) {
			byte[] nbs = new byte[bs.length - 3];
			System.arraycopy(bs, 3, nbs, 0, nbs.length);
			FileUtils.writeByteArrayToFile(file, nbs);
			System.out.println("Remove BOM: " + file);
		}
	}
}

本文出自weicms.net,转载时请注明出处及相应链接。

本文永久链接: http://www.weicms.net/2013/02/21/java_remove_utf8_bom.html

0
Ɣ回顶部