WindowsでShift-JISをUTF-8に変換

nkf

こちら2023年4月の内容です。

MeCabでわかち書きをしてみたら

WindowsでPython&MeCabを使って分かち書きしたところ、

文字コードが、Shift_JISだったんですね。

MeCabのインストール時にUTF-8を選択したので、

勝手にUTF-8になるのかな?と考えたのですが、甘かったです。

もうひと手間、変換が必要なようです。

変換ツールnkf

文字コードの変換には「nkf」を使うとよいようです。

Windowsの場合は、Vectorからダウンロードするのがよいようです。

こちらはインストールして使うのではなく、任意のフォルダーにコピペして

ターミナルで開いて使うようです。

ちょっとわかりにくかったのでメモ。

nkfセッティングメモ

ダウンロードすると「nkfwin.zip」とありますので、

まずは解凍します。

nkfwinを開きます。

vc2005を開きます。

一番下の win32~~)Windows… を開きます。

使用するのは、nkf32.exeです。

私は、Cドライブ直下に、「tools」というフォルダを作って

そこに nkf32.exeをコピペしました。

toolsのパスを通す

パスの設定は、システムの詳細設定からいけますが、

ユーザーの環境変数か、システムの環境変数どちらにパスを通すか?

と迷い、わからないので両方のPathを「編集」で開いて

「新規」でパスを追加しました=。

パスが通っているかを確認するには、

nkf32 -version

nkfを使ってみる

簡単に行くには、変換したいファイルがあるフォルダー内で、

右クリックして「ターミナルで実行する」がいいです。

試しに、「青空文庫」から入手し、分かち書きまでした

nekodearu_splitted.txtで実験します。

現在の文字コードを確認するには、nkf32 -g を使います。

nkf32.exe -g nekodearu_s-plitted.txt

shift_JISと出ていますね。

文字コードを変換するには、nkf -w –overwrite とするようです。

nikf32.exe -w --overwrite nekodearu_splitted.txt

やってみました。

ちゃんと変換されているようです。

※ 実行オプション

    -g自動判別
    -wUTF-8コードで出力
    -eEUC-JPコードで出力
    -sShift-JISコードで出力
    –overwrite直接上書き

    コメント

    タイトルとURLをコピーしました