こちら2023年4月の内容です。
MeCabでわかち書きをしてみたら
WindowsでPython&MeCabを使って分かち書きしたところ、
文字コードが、Shift_JISだったんですね。
MeCabのインストール時にUTF-8を選択したので、
勝手にUTF-8になるのかな?と考えたのですが、甘かったです。
もうひと手間、変換が必要なようです。
変換ツールnkf
文字コードの変換には「nkf」を使うとよいようです。
Windowsの場合は、Vectorからダウンロードするのがよいようです。
こちらはインストールして使うのではなく、任意のフォルダーにコピペして
ターミナルで開いて使うようです。
ちょっとわかりにくかったのでメモ。
nkfセッティングメモ
ダウンロードすると「nkfwin.zip」とありますので、
まずは解凍します。
![](https://i0.wp.com/hitoriasobi3.com/wp-content/uploads/2023/04/nkfdown.jpg?resize=599%2C62&ssl=1)
nkfwinを開きます。
![](https://i0.wp.com/hitoriasobi3.com/wp-content/uploads/2023/04/vc2005.jpg?resize=614%2C140&ssl=1)
vc2005を開きます。
![](https://i0.wp.com/hitoriasobi3.com/wp-content/uploads/2023/04/itibannsita.jpg?resize=539%2C132&ssl=1)
一番下の win32~~)Windows… を開きます。
![](https://i0.wp.com/hitoriasobi3.com/wp-content/uploads/2023/04/nkf32.jpg?resize=608%2C75&ssl=1)
使用するのは、nkf32.exeです。
私は、Cドライブ直下に、「tools」というフォルダを作って
そこに nkf32.exeをコピペしました。
![](https://i0.wp.com/hitoriasobi3.com/wp-content/uploads/2023/04/tools.jpg?resize=662%2C168&ssl=1)
toolsのパスを通す
パスの設定は、システムの詳細設定からいけますが、
ユーザーの環境変数か、システムの環境変数どちらにパスを通すか?
と迷い、わからないので両方のPathを「編集」で開いて
「新規」でパスを追加しました=。
![](https://i0.wp.com/hitoriasobi3.com/wp-content/uploads/2023/04/wakaranainode.jpg?resize=605%2C574&ssl=1)
パスが通っているかを確認するには、
nkf32 -version
nkfを使ってみる
![](https://i0.wp.com/hitoriasobi3.com/wp-content/uploads/2023/04/tools.jpg?resize=662%2C168&ssl=1)
簡単に行くには、変換したいファイルがあるフォルダー内で、
右クリックして「ターミナルで実行する」がいいです。
試しに、「青空文庫」から入手し、分かち書きまでした
nekodearu_splitted.txtで実験します。
現在の文字コードを確認するには、nkf32 -g を使います。
nkf32.exe -g nekodearu_s-plitted.txt
shift_JISと出ていますね。
文字コードを変換するには、nkf -w –overwrite とするようです。
nikf32.exe -w --overwrite nekodearu_splitted.txt
やってみました。
![](https://i0.wp.com/hitoriasobi3.com/wp-content/uploads/2023/04/nkfgamenn.jpg?resize=903%2C496&ssl=1)
ちゃんと変換されているようです。
※ 実行オプション
-g | 自動判別 |
-w | UTF-8コードで出力 |
-e | EUC-JPコードで出力 |
-s | Shift-JISコードで出力 |
–overwrite | 直接上書き |
コメント