Whisker 0.9.1

Whisker を 0.9.1 にアップデートしました。
downloadのページ
(ヘルプをまだ書いてないので、使い方は前の記事をお読みください)

  • 改行コード判別を追加
  • EUC-JPとMacJapaneseからUnicodeへの変換に、piconv ではなくMacOSのコンバーターを使用するように変更
  • BE/LEの表記分け
  • その他微調整

「PerlではなくMacOSのコンバーターを使用」は、NAOIさんの記事で触れられている euc-jp.ucm の問題で、Perl で ECU-JP から Unicode へ変換すると「﨑髙」が「紾𣴎」に文字化けしたりすることが判明したんですね。そこで文字化けしない変換方法にしたということです(ついでにMacJapaneseも)。

「BE/LEの表記分け」は説明が大変なので、いずれヘルプで説明する…かもしれません。

新作 Whisker を公開

Whisker 0.9.0 を公開!downloadのページ
新作ですよん。
テキストファイルのエンコーディングを推測するソフトです。

深沢さんのツイートで「BOMの検出」とか「テキストエンコーディングの推測」をざっとやるソフトがありそうでないことが分かりまして、作ってみました。

作ったばかりでベータ版扱いです。Helpもまだ書いてないので、ここで使い方を説明します。

使い方

  • テキストファイルを本体アイコンにドラッグ&ドロップします(複数一括可)。
  • ウインドウが表示され、そこに結果が表示されます(ウインドウへのドラッグ&ドロップも可)
  • 結果表示のリストをダブルクリックするとコンテクストメニューが表示されます。該当するエンコーディングを選択すると Unicode へ変換してテキストエディットの新規ウインドウに文字をセットします。注:テキストエディットで開くわけではありません

「Guess(推測)」は Perlくんの Encode::Guess にやってもらっています。結構よく間違えます。テキストエンコーディング推測の正解率なんて、そんなもんです。 当たっていたらラッキーくらいが丁度いいんです。(1

コンテクストメニューでの Unicode への変換は piconv(Perlくんの分身)を使っています。メニューに「Shift JIS」がありませんけど「CP932」「MacJapanese」のどちらかを選んでください。Windows環境で作られたファイルなら CP932 でおおむね正解です。

  1. というほど実はそんなにひどくはないんですけど。 []

Name Validator を 4.3.0 にアップデート

downloadのページと Help
こういう告知をするのも久しぶりな気がしますよ。
変更点は以下の通り。

  • 「非互換ネームのみ表示」が階層表示では不可だったのをできるようにした。
  • シンボリックリンクを検証対象外にした。
  • 文字編集フィールドのサイズを広くした。
  • 文字編集フィールドに拡張子を表示させない機能を追加した。
  • 文字編集フィールドの非互換文字着色を明るい赤に変更した。
  • 終了時のウインドウサイズと位置を次回起動時に反映するようにした。
  • ウインドウがひとつもない時にDockアイコンをクリックすると新規ウインドウが表示されるようにした。

相変わらずややこしいですが…。

追記:大事な新機能を書き忘れてました!

  • バッチに「Unicode→CP932→Unicode」を追加した。

メニューバー[編集]>[バッチ…]で出てきます。

で、これはなにかというと「¢£¬—−‖〜」といったWindowsでは困ったことになる文字を「¢£¬―-∥~」に変換するのに便利です。とくに「〜(U+301C)」はMacで普通にキー入力されますが、

  • これがzipファイル名にあるとWindows環境でエラーになって解凍できない
  • これが生データのファイル名にあるとWindows環境でzip圧縮できない

といった困ったことになるのですが、「Unicode→CP932→Unicode」で変換すると「~(U+FF5E)」になるので大丈夫。ただしCP932にない文字は全部「?」になるので注意です。まあそういう文字も同様に困ったことになるので使わない方がいいってことです。