五十音の「辞書順」の処理


公開 (UL): 2021-02-23
更新 (UD): 2021-02-23
閲覧 (DL): 2026-04-12

この記事のもくじ

→本文へ
当サイトは SNS の公式アカウントがないので,「議論ネタ」にする際は,皆さんのブログ,メーリングリスト,SNS や掲示板などで,適当にハッシュタグを付けたりリンクを掲載するなどしてご利用ください。

前の記事

2020-12-22
年月日から曜日を求める数式

次の記事

2021-03-04
全角⇔半角の変換

最近の記事

2024-02-11
XMPP - 長く使える安心チャット
2023-01-16
Android のキーボード・ショートカット一覧
2023-09-15
Perl の正規表現での A と Z の扱い
2022-08-09
代表的な画像ファイル形式一覧
2022-04-04
サイトのローカル試験と実ウェブ上の差を縮める手法(Perl)
新着情報
She appears also the top page.

新着情報 Recent docs.

Sorry, but most of these pages are only Japanese.
現場で活きる「電子工作」 «Get starting electronics handmaking!»
政権政党圧勝により介護福祉制度の改悪は必至! 現場の自助・自衛のための機器「手作り」入門!

人気記事 Frequent view pages.

おすすめ! Recommend

ご連絡 Contact

▼ メールフォームはこちら
SSL 証明書の更新に不具合が多いため,期限切れエラーが出た際は,お手数ですが「例外指定」をお願いいたします。

ファイルの暗号化
当サイト管理者(石川)宛にメール添付で送信するファイルを暗号化したい時は,唯一のパスワードを PPOP で取得できます。 PPOP gives a password for encryption of the file(s) attached your mail to the admini­strator of this site M.Ishikawa.
PPOP

MEMO / Email to the Author
あとで調べたい点のメモなどに利用可能。
下部ボタンでそのまま著者にメールできます。


CAPTCHA: easy math prob in Japanese

時事川柳 News Senryu

颯爽と  
アソー出てきて
  轍を踏む
Aso will finish the government of LDP also this time.

以前もこの方が(げや→)下野に導いたんでしょって。

(⌚2025-10-12)

ご支援 Support this site.

まだまだ コロナ失業中!!
CORONA-NEET, seeking works now!

この活動をご支援いただける方はこちらへ Could you support this site, see here (but Japanese).
都道府県庁さん, 地方自治体さんや教育委員会さん, 障害者就労支援機関さんやその他公的機関,省官庁さん, 「タダ見」しているだけでは, 格差が広がるだけだと思いませんか?
Welcome!
Alibaba    Google
The companies, thanks for many accesses every months! Are the articles I wrote helping for increasing your income? Although, I cannot get even a penny and jobs from that.

 たとえば,以下のいくつかの言葉を「辞書順に」並べると,次のようになるだろう。

▼ 辞書順
   さつき	皐月
   さっき	殺気
   ざつき	座付
   ざっき	雑記
   さっきん	殺菌
   さつま	薩摩
   さんばし	桟橋

 ところが,これを perl に組み込まれている sort 関数でソートすると,以下の順になってしまう。

▼ sort 関数による並べ替え
   さっき	殺気
   さっきん	殺菌
   さつき	皐月
   さつま	薩摩
   さんばし	桟橋
   ざっき	雑記
   ざつき	座付

 何だかバラバラのようだが,コンピュータ的にはこれで合っている。おそらく,他の言語でも一般的な組み込みソート機能を使ったら,同じような結果になるのではないか。でも,なぜそうなるか,原因と回避策などを考えてみたい。

● 原因

 それは,文字コードにある。sort 関数は,原則として,単純に文字コード順に並べ替える機能だ。
 で,その比較がどうされているかというと,まず,なぜか小さい文字(「ぁぃぅぇぉっゃゅょ」など)に,そうでないものよりも小さい文字コードが割り当てられているため,文字コード順に並べると,それらが先に来てしまうという点。それと,コンピュータの辞書順比較では,前にある文字が優先的に評価される,という2点が原因。
 小さい字のほうが先に来るため,「さつき(皐月)」は,2文字目の「つ」が促音の「っ」より大きい文字コードのために,促音の「さっき(殺気)」や「さっきん(殺菌)」のほうが前に来てしまう。
 さらには,逆に濁音と半濁音は清音の字より大きい文字コードが割り当てられているため,最初の文字が「ざ」のものは全ての「さ」より後になる。そのため,濁音で始まる「ざっき(雑記)」は,清音で始まる「さんばし(桟橋)」よりも後に来てしまうことになる。

 実際の日本語の辞書はそうではないはず。まず「全て清音読み」した順に並べられて,その中で「小さい字」や「濁音,半濁音」が使われているものが後に来るようになる。だから,「さつき,さっき,ざつき,ざっき,さっきん」はこの順になる。「さつま」や「さんばし」などの後に来ることはないはずだ。

● 対策

 どうすればいいか。これは,まず全て「小文字ではない清音」で比較し,それで等しい場合に,小さい字か濁音,半濁音かを調べる……という「二段比較」が必要だと思う。
 表計算ソフトの「並び替え」で,「最優先する列」と「二番目に優先する列」……など,並び替えの基準にする値として複数の列を指定できるが,それと似たやり方が必要だろう。

 たとえば前述の「さつき,さっき,ざつき,ざっき」の場合は,まず優先する比較キーとして,全て小文字ではない清音の「さつき」で比較する。当然それでは全て同じになってしまうので,2番めの比較キーとして,小文字か濁音か……を示す別の値を求める必要が出てくる。たとえば,以下のような数値を割り当てる。

 前述の4つの言葉は,小文字でない清音で比較すると全て「さつき」となって同じだが,前述の法則で「2番めの比較キー」を作ると,以下のようになる。

 この右側の数を元に「辞書順に」並び替えれば,日本語の辞書に出て来る順番になる。
 ここで,この数のほうも「辞書順に」並び替える必要がある。というのは,たとえば「さっきん」は 0100 と4桁になるが,数値で比較すると,「ざつき」の 200 より小さくなってしまう。もっとも,優先キーの「さつき」と比較すると,文字数が多いからその時点で後になるはずだが,念のため。

 この方法で並び替えれば,文字コードに関係なく,小文字でない言葉を小文字よりも前に来るようにすることができる。

◆ Perl の場合

 sort に渡して処理可能な順序定義関数を kanaCmp とすると……。

▼ kanaCmp ひらがな辞書順の定義関数(抜粋)
   my	%sortBase = # ひらがな → ソート文字&キーペアハッシュ
	( ……,	'っ' => 'つ1', # 促音
		'つ' => 'つ0', # 清音
		'づ' => 'つ2', # 濁音
		……,
		'は' => 'は0', # 清音
		'ば' => 'は2', # 濁音
		'ぱ' => 'は3', # 半濁音
	…… ); # 実際はひらがな全てに定義
   my	%kanaSortDic;
   sub kanaSortKeyPair { my ( $k0, $k1 ) = ( '', '' );
	if( ! exists $kanaSortDic{ $_[0] } ){
	( "a".$_[0] )=~ /a/; # ↓ UTF-8 限定の処理
	  while( $' =~ /[\xC0-\xFD][\x80-\xBF]+/ ){
	  $k0 .= substr( $sortBase{ $& }, 0, 3 );
	  $k1 .= substr( $sortBase{ $& }, 3, 1 );
	  }
	$kanaSortDic{ $_[0] }= { k0 => $k0, k1 => $k1 };
	}
	return $kanaSortDic{ $_[0] };
   }
   sub kanaCmp {
    my ( $a, $b ) = ( kanaSortKeyPair( $_[0] ),
		kanaSortKeyPair( $_[1] ) );
	return ( $a ->{ k0 } cmp $b ->{ k0 } )||
			( $a ->{ k1 } cmp $b ->{ k1 } );
   }
	sort { kanaCmp( $a, $b ) } @wordList; # ← 使用例

◆ OpenOffice Basic の場合

 OpenOffice のマクロ関数を使うとしたら,こんな感じ。ここで asc という関数は UNICODE にも対応している。表計算で,ひらがな表記の「読み」が A 列にあるとしたら,“=KEY0( A1 )”と“=KEY1( A1 )”といった式を設定したセル列を作って,それぞれ最優先,第2優先の列としてソートすることで使える。

▼ OpenOffice Basic 表計算マクロ関数
   function key0( str1 as string ) as String
   Dim res As String
   res = ""
	for n = 1 to len( str1 )
	p = asc( Mid( str1, n, 1 ) )
	  if 12352 < p and p <= 12438 then
	  res = res & Mid( "ああいいううええおおかかききくくけけここささししすすせせそそたたちちつつつててととなにぬねの"& _
		"はははひひひふふふへへへほほほまみむめもややゆゆよよらりるれろわわゐゑをんうかけ", p-12352, 1 )
	end if
	Next
   key0 = res
   end function
   function key1( str1 as string ) as String
   Dim res As String
   res = ""
	for n = 1 to len( str1 )
	p = asc( Mid( str1, n, 1 ) )
	  if 12352 < p and p <= 12438 then
	  res = res & Mid( "10101010100202020202020202020202021020202000000230230230230230000010101000000100000211", p - 12352, 1 )
	  end if
	Next
   key1 = res
   end function


© M.Ishikawa; TREEWARE 2026.