他の変換は以下のリンクを参照

このページではShift-JISのファイルをBOM無しのUTF-8に変換する方法を紹介しています。

その他の変換は以下を参照ください。

 

文字コード変換にはActiveX Data Objectsを利用する

VBAの標準機能では文字コードはUnicode(UTF16-LE)とASCIIの2種類が扱えます。

しかし実際に目にするファイルの文字コードはShift-JIS、UTF-8のBOM付き、UTF-8のBOM無し、EUCの4種類になってきます。

そして問題になるのが文字コードの相互変換の方法で、変換が必要な場合にどうやって変換したらいいのか、という点です。

Linuxでは文字コードを変換するnkfコマンドやiconvコマンドがありますが、Windowsの場合は簡単に使えるものがなく、.NetのSystem.Text.Encodingクラス、PerlのEncodeモジュール、PHPのmb_convert_encoding関数、など、どうやって実装しようかなあ、と悩まされる問題があります。ただ、これら.NetもPerlもPHPもプログラミング言語や開発環境のインストールが必要になってくるため、どうしてもハードルが高くなります。

そこでVBAでActiveX Data Objectsを利用しましょう。Excelさえ入っていればインストール不要で文字コード変換が可能です。

なお、上に挙げた.Netは標準でインストール済みのPowerShellでも使えますので、分かる方はそちらでもいいと思います。

事前設定

以下のコードではADODB.Streamを利用するための参照設定が必要です。

VBAの画面で、ツールメニュー→参照設定→Microsoft ActiveX Data Objects x.x Library にチェックを付けます。ここではバージョン6.1ですが、最新バージョンを選択すれば問題ありません。

参照設定を行わない場合はCreateObject関数を利用し、以下のコードの「ADODB.Stream」のオブジェクト変数の初期化の部分を「CreateObject(“ADODB.Stream”)」としてください。

なお、参照設定をした方がわずかではありますが処理速度は速くなります。また、.を入力するとプロパティやメソッドが表示される利点もあります。

Shift-JISからBOM無しUTF-8に変換

文字コードがShift-JISのテキストファイルをBOM無しのUTF-8に変換するマクロです。

通常、UTF-8のファイルはLinuxのファイルが多いため、改行コードもLFに変換するようにしています。変換が不要な場合は後述の説明を参照してください。

関数の引数にファイルのフルパスを渡して使います。

 

コードの説明

1行目 第一引数に変換元のShift-JISファイルのフルパスを指定し、第二引数に書き込み先のUTF-8ファイルのフルパスを指定します。第一引数のファイルをそのまま変換したい場合は第二引数に第一引数と同じファイルパスを指定しても構いません。
2、3行目 ActiveX Data Objectsのクラス変数のインスタンス変数を作成しています。Shift-JISファイルを読み込む変数と、UTF-8に変換する先のファイルへの書き込み変数用です。なお、参照設定をしている場合はADODB.Streamの部分はStreamと書いても問題なく動作します。
4行目 書き込み用のデータを格納する変数です。途中の処理で改行コードの変換を行っています。
6行目 7行目から10行目は読み込むShift-JISファイルの設定を行います。
7行目 Typeプロパティにはバイナリモード(adTypeBinary)とテキストモード(adTypeText)の2種類があり、ここではテキストモードを指定しています。
8行目 Charsetプロパティには文字セットを指定します。読み込むファイルがShift-JISのためそのように指定しています。
9行目 データストリームを開きます。ここではまだ引数のShift-JISファイルは参照していません。
10行目 ファイルの内容をストリームに読み込みます。
13行目 読み込んだShift-JISファイルデータを取得します。
14行目 取得したデータの改行コードのCRLFをLFに置換します。LFへの変換が不要な場合は、この行をコメントアウトしてください。
16行目 17行目から25行目は書き込むUTF-8ファイルの設定を行います。
17行目 Typeプロパティにはテキストモードを指定しています。
18行目 書き込むファイルの文字コードであるUTF-8を指定しています。
19行目 データストリームを開きます。ここではまだ引数のUTF-8ファイルは指定していません。
22行目 WriteTextメソッドでデータの書き込みを行います。
25行目 一度書き込んだデータはBOMが付いた状態になっています。また、既にデータ書き込み済みのため書き込み開始位置が終端に移動しています。そこで、書き込み開始位置を先頭0に戻しています。
26行目 バイナリデータであるBOMを除去するため、バイナリモードを指定します。
27行目 先頭にあるBOMの0xEF 0xBB 0xBFの3バイトを除去するため、開始位置を3に設定し、0番目の0xEF、1番目の0xBB、2番目の0xBFを読み飛ばします。
30行目 Readメソッドでデータを取得します。この際取得するデータは事前に開始位置が3に設定されているためBOMが含まれていない状態になります。
33行目 データ取得後に再度開始位置を0に戻します。
36行目 BOM除去済みのデータを書き込みます。
39行目 BOM除去済みのデータを書き込んだ終端部分である現在の開始位置をデータの終端とします。これをしなかった場合、22行目で書き込んだデータの末尾3バイトが残ったままになってしまいます。
42行目 コピー後のUTF-8のデータを引数のファイルパスに保存します。
45、46行目 読み込みデータ、書き込みデータをクローズします。

 

CreateObject関数を利用する場合

CreateObject関数を利用する場合は2行目と3行目を以下のように書き換えます。

以降のコードは変更不要です。

サンプルコード