こちら2023年4月の内容です。
MeCabでわかち書きをしてみたら
WindowsでPython&MeCabを使って分かち書きしたところ、
文字コードが、Shift_JISだったんですね。
MeCabのインストール時にUTF-8を選択したので、
勝手にUTF-8になるのかな?と考えたのですが、甘かったです。
もうひと手間、変換が必要なようです。
変換ツールnkf
文字コードの変換には「nkf」を使うとよいようです。
Windowsの場合は、Vectorからダウンロードするのがよいようです。
こちらはインストールして使うのではなく、任意のフォルダーにコピペして
ターミナルで開いて使うようです。
ちょっとわかりにくかったのでメモ。
nkfセッティングメモ
ダウンロードすると「nkfwin.zip」とありますので、
まずは解凍します。
nkfwinを開きます。
vc2005を開きます。
一番下の win32~~)Windows… を開きます。
使用するのは、nkf32.exeです。
私は、Cドライブ直下に、「tools」というフォルダを作って
そこに nkf32.exeをコピペしました。
toolsのパスを通す
パスの設定は、システムの詳細設定からいけますが、
ユーザーの環境変数か、システムの環境変数どちらにパスを通すか?
と迷い、わからないので両方のPathを「編集」で開いて
「新規」でパスを追加しました=。
パスが通っているかを確認するには、
nkf32 -version
nkfを使ってみる
簡単に行くには、変換したいファイルがあるフォルダー内で、
右クリックして「ターミナルで実行する」がいいです。
試しに、「青空文庫」から入手し、分かち書きまでした
nekodearu_splitted.txtで実験します。
現在の文字コードを確認するには、nkf32 -g を使います。
nkf32.exe -g nekodearu_s-plitted.txt
shift_JISと出ていますね。
文字コードを変換するには、nkf -w –overwrite とするようです。
nikf32.exe -w --overwrite nekodearu_splitted.txt
やってみました。
ちゃんと変換されているようです。
※ 実行オプション
-g | 自動判別 |
-w | UTF-8コードで出力 |
-e | EUC-JPコードで出力 |
-s | Shift-JISコードで出力 |
–overwrite | 直接上書き |
コメント