Unicodeの特殊な文字 “結合文字列”

2022.6.5更新


まともに Unicode のテキストを扱おうとすると、結合文字列はどうしても避けることのできない問題です。ここではあまり深く掘り下げずに、ユーザの眼を通してこれを見ていこうと思います。

まずはじめに、Unicodeには「特殊な文字」があることを知っておきましょう。

上図を見てください。これは macOS のテキストエディットに入力した2つの「ポ」です。同じ文字が並んでいるだけのように見えます。でも実はこの2つ、文字データとしてはまったく違うものなんです。

左はいつも私たちが使っている1文字の「ポ」ですが、右は「ホ+半濁点」の2文字のデータで1文字になっています。これが Unicode の特殊な文字 “結合文字列” です。見た目が同じなので違いがまったく分かりません。

そこで違いが分かるように簡単なソフトを作ってみました。
Unicode Normalization Test
Mac OS X 10.10.5 以降・2022.6.24更新

左に「ポ」と手入力して NFD ボタンを押してください。右に Unicode の特殊な文字に変換されたポが表示されます。下の文字コードを見ると「ホ」と「半濁点」の2つに分かれています。「2文字のデータで1文字になっている」とはこういうことです。

さらに興味深い文字を見てみましょう。

[Get Glyph]ボタンの下に「01D6」と文字コードを入力し、ボタンを押します。上にその文字が表示されます。小文字 u に音声記号が付いた文字ですね。[NFD]ボタンを押して変換してみます。なんと、2文字ではなく3文字で構成されていることが分かります。

次に[Get Glyph]ボタンの下に2組の文字コード「00FC 0304」を入力してボタンを押します(半角スペースを間に入れます)。まったく同じ字形が表示されますね。

つまり、この文字は3通りの方法で表示できてしまうのです。

  • 01D6
  • 00FC 0304
  • 0075 0308 0304

この3通りの文字を「テキストエディット」にコピー&ペーストしてみましょう。

テキストエディットでは、どの文字も1文字として選択されます。さらに検索をしてみると、どの文字にもヒットします。3つが異なる文字データであることをまったく判別することができませんし、判別する方法もありません。もちろんこれはユーザへの配慮でそうなっているわけです。

さて、ここで専門用語を2つだけ覚えてください。

「結合」「結合文字列」

これまで見てきたように、Unicodeには「複数の文字で1つの文字を表示させる」という特殊な方法が用意されています。この方法を「結合(Combining)」といいます。平易な言葉なのでつい読み流してしまいますが、Unicodeでは特殊な専門用語であることに注意してください。

そして、結合した複数文字のことを「結合文字列(Combining Character Sequence)」といいます。見た目は1文字ですが、実際は複数文字なので「列」です。

Unicodeでは「ポ」などの文字を「音声記号がくっついた文字」と考えます。「音声記号の半濁点がくっついたホ」と見るわけですね。これを文字の形だけでなく、本当に文字データでも「音声記号がくっついた文字」にしたのが結合文字列です。

なお、これは覚えなくてもかまいませんが、結合文字列の中の音声記号(半濁点など)は「結合文字(Combining Character)」といいます。これは結合文字列のためだけに用意された特殊な文字なので、単独で使われることはありませんし、単独で使ってもいけません。そして結合文字列「ホ+半濁点」の「ホ」の方は「基底文字(Base Character)」と呼びます。

macOSは結合文字列だらけ

さて、Unicodeの特殊な文字である「結合文字列」がどういうものかを見てきましたが、もしかすると、皆さんはこう疑問に思っているかもしれませんね。

「特殊な文字のことは分かった。でも、特殊なんだから、普通に作るテキストデータにそんな文字なんか無いのでは?」

実は、macOS には “結合文字列” がいたるところにあるのです。しかも、新しく簡単に作ることもできてしまいます。やってみましょう。

新規でフォルダを作ってください。「名称未設定フォルダ」という名前になりましたね。なんと、この名前の「ダ」が結合文字列なのです。「ダ」を「簡単なソフト」へコピー&ペーストしてみてください。2文字の結合文字列だと分かります。

macOS のフォルダやファイルなどの名称は、手入力をした場合でも、自動的に結合文字列にできる文字すべてが結合文字列に変換されます。ですから、名称をテキストにコピー&ペーストするだけで特殊な文字が混ざってしまうのです。

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です