五十音の「辞書順」の処理


公開 (UL): 2021-02-23
更新 (UD): 2021-02-23
閲覧 (DL): 2024-11-12

この記事のもくじ

→本文へ
当サイトは SNS の公式アカウントがないので,「議論ネタ」にする際は,皆さんのブログ,メーリングリスト,SNS や掲示板などで,適当にハッシュタグを付けたりリンクを掲載するなどしてご利用ください。

前の記事

2020-12-22
年月日から曜日を求める数式

次の記事

2021-03-04
全角⇔半角の変換

最近の記事

2024-02-11
XMPP - 長く使える安心チャット
2023-09-15
Perl の正規表現での A と Z の扱い
2023-01-16
Android のキーボード・ショートカット一覧
2022-08-09
代表的な画像ファイル形式一覧
2022-04-04
サイトのローカル試験と実ウェブ上の差を縮める手法(Perl)
新着情報
She appears also the top page.

新着情報 Recent docs.

Sorry, but most of these pages are only Japanese.
「ぱそはだ」シリーズ «PASOHaDA: Parts Assignment and Soldering Only Handmade Design Assist.»
高度な技能不要の電子工作で自立介護 DIY。
簡単にできるネット防犯対策 «Simple measures against phishing mails and malwares.»
フィッシングメールを暴き,ウイルスの侵入を阻止する簡単な対策を紹介。
福祉改善を阻むオヤクショ思考 «Japanese subsidy system of communication aid device for disabilities cannot be applied those if it's with features except communication, IDK why.»
「意志伝達」しかできない高額な装置にのみ税金が使われる謎制度。
「理不尽採点」教育と「英語力低下」 «Japanese English skill ranking in the world has been down. I guess one of the reason is that the government's education policy lacks coherence.»
日本人の英語力が低下,しかも小学校から英語が必修になった世代ほど。「教育方針の一貫性のなさが原因」とする考察。
倫理意識の社会的低下 «One day, I set to stop DM from a banking corporation, but those continue to be sent after that. I'm feeling falling sense of ethics in Japanese society.»
某銀行からの DM が,およそ金融と関係ないもの多数。停止設定後も何ヶ月も配信が続く状況に,倫理意識の社会的低下を感じた話。
給使乖離現象 «"Server and User Design Gap" phenomenon (abbr: SUDG), it's the trend to lack of considerations in design for user of the service.»
愚かな経営者たちが考えた劣悪なウェブサービスにより,人々が一方的に不利益を被るという話。
日本の「IT 人材不足」の正体 «The simple reason why Japanese companies lack IT-skill.»
保険会社からのセキュリティガバガバメールが「IT 人材不足」の正体を暴く。

人気記事 Frequent view pages.

現在当サイト人気 No.1!
Android のキーボード・ショートカット一覧 «The list of Android Keyboard Shortcuts (EN ready).»
Android のスマホやタブレットにキーボードをつないだ時に知っていると便利なキー操作。
表計算で「令和」に対応する方法
How to adapt the Gengo era "Reiwa" on spreadsheet applicaiton.

古いアプリも OK。「表計算 令和」の検索結果上位御礼!
表計算ソフトで予定表を自動作成する超便利な方法 «How to make the schedule table automatically on spread-sheet.»
「毎月第○×曜日」的な法則は自動で作らせてラクしよう!
表計算ソフトに「個人情報保護機能」を仕込む方法 «Prevention to leak private-data with spread-​sheet macro function.»
「漏えい」のためのフェイルセーフ。「表計算 個人情報」の検索結果上位御礼!
Wary-Basher (ワリバッシャー)
DIY device that enables the handicapped to operate many things with a switch like push-button.

障害者の様々な操作をスイッチ操作で実現する器具。キットも発売中! 「作り方」PDF ダウンロード多数御礼!←地方教育委で人気。

おすすめ! Recommend

貧乏人を殺す行政の構造 «Structurally, the administrators kill the poors in Japan.»
ヘタすると多摩川に流されるところだった台風 19 号

この記事に対する → 調布市の反応
[PDF 118KB] 生活保護申請時のオヤクショ対策
申請の「水際作戦」を突破するための心得。「ホームレス総合相談ネットワーク」製作の図解を小サイズ化したもの。

出典 ☞ 路上からもできるわたしの生活保護申請ガイド (2017 年版) (外部リンク)
文字ベース天気予報 «Weather forecast in text mainly from JMA Json-data.»
古いブラウザやスマホ,音読ソフトでも大丈夫! 気象庁の JSON データを利用した文字ベースの天気予報(試験版)。
「事故防シート」について «Cared persons taking with "Jiko-​Bow-​Sheet" prevents from accidents.»
介護現場の負担軽減と事故防止のアイデア
【連載】 キーボードの「キー」の詳しい使い方 «The detial of usage each key on keybord.»
各キーの機能詳細。機能別五十音順一覧。
和易ゐ記 (WAI-WIKI) «WAI-WIKI is light­weight markup language for Japanese, and generates HTML on this server on-​demand.»
当サイトで開発/使用中の日本語向けに特化した軽量マークアップ言語

ご連絡 Contact

▼ メールフォームはこちら
SSL 証明書の更新に不具合が多いため,期限切れエラーが出た際は,お手数ですが「例外指定」をお願いいたします。 一時期,送信できなかったようです。すみません。今は大丈夫だと思います(テストは OK)。

ファイルの暗号化
当サイト管理者(石川)宛にメール添付で送信するファイルを暗号化したい時は,唯一のパスワードを PPOP で取得できます。 PPOP gives a password for encryption of the file(s) attached your mail to the admini­strator of this site M.Ishikawa.
PPOP

MEMO / Email to the Author
あとで調べたい点のメモなどに利用可能。
下部ボタンでそのまま著者にメールできます。 一時期,送信できなかったようです。すみません。今は大丈夫だと思います(テストは OK)。


CAPTCHA: easy math prob in Japanese

時事川柳 News Senryu

パーティー券  
民意も一緒に
  蹴り返し
Kick back both party tickets and people's opinions.

 自民党の一部(?)派閥がパーティー券のノルマを上回る分の売上げを議員にキックバックしておきながら政治資金収支報告書に不記載だった問題が広がりを見せている。なるほど,こうしたことが党内で常套化していたのだとすれば,岸田総理はじめ同党政治家にことごとく「民意を蹴り返すクセ」が付いているのは当然という感じもする。これっぽっちも「悪いこと」と思わなかったのだろうな。そんな人たちに誰が票を入れるのだろうか。少なくとも,岸田の広島と「頭悪いねぇ」と暴言を吐いた議員を選出した長崎に「ふるさと納税」はしないことにしよう。
参考: 自民県 絶対しないぞ ふるさと税

今回はもう一句!

危機感の  
ワリに二階は
  誰も居ず
Having sense of crisis, but nobody takes shelter of 2F.

 大雨などで危機感を持ったら二階のような高い所へ避難すべき的な話を聞いたよーな気がするのだが? パーティー券のノルマ上回り分キックバックの政治資金収支報告書不記載問題で,安倍派は何人も辞任したのに,同じく捜索を受けている二階派に辞任する話があるかというと,今のところ誰もいない。総理は「危機感を持って」とか言っているらしいが,どこが「危機感」なのやら。

(⌚2023-12-19)

ご支援 Support this site.

まだまだ コロナ失業中!!
CORONA-NEET, seeking works now!

この活動をご支援いただける方はこちらへ Could you support this site, see here (but Japanese).
都道府県庁さん, 地方自治体さんや教育委員会さん, 障害者就労支援機関さんやその他公的機関,省官庁さん, 「タダ見」しているだけでは, 格差が広がるだけだと思いませんか?
Welcome!
Amazon    Google
The companies, thanks for many accesses every months! Are the articles I wrote helping for increasing your income? Although, I cannot get even a penny and jobs from that.

 たとえば,以下のいくつかの言葉を「辞書順に」並べると,次のようになるだろう。

▼ 辞書順
   さつき	皐月
   さっき	殺気
   ざつき	座付
   ざっき	雑記
   さっきん	殺菌
   さつま	薩摩
   さんばし	桟橋

 ところが,これを perl に組み込まれている sort 関数でソートすると,以下の順になってしまう。

▼ sort 関数による並べ替え
   さっき	殺気
   さっきん	殺菌
   さつき	皐月
   さつま	薩摩
   さんばし	桟橋
   ざっき	雑記
   ざつき	座付

 何だかバラバラのようだが,コンピュータ的にはこれで合っている。おそらく,他の言語でも一般的な組み込みソート機能を使ったら,同じような結果になるのではないか。でも,なぜそうなるか,原因と回避策などを考えてみたい。

● 原因

 それは,文字コードにある。sort 関数は,原則として,単純に文字コード順に並べ替える機能だ。
 で,その比較がどうされているかというと,まず,なぜか小さい文字(「ぁぃぅぇぉっゃゅょ」など)に,そうでないものよりも小さい文字コードが割り当てられているため,文字コード順に並べると,それらが先に来てしまうという点。それと,コンピュータの辞書順比較では,前にある文字が優先的に評価される,という2点が原因。
 小さい字のほうが先に来るため,「さつき(皐月)」は,2文字目の「つ」が促音の「っ」より大きい文字コードのために,促音の「さっき(殺気)」や「さっきん(殺菌)」のほうが前に来てしまう。
 さらには,逆に濁音と半濁音は清音の字より大きい文字コードが割り当てられているため,最初の文字が「ざ」のものは全ての「さ」より後になる。そのため,濁音で始まる「ざっき(雑記)」は,清音で始まる「さんばし(桟橋)」よりも後に来てしまうことになる。

 実際の日本語の辞書はそうではないはず。まず「全て清音読み」した順に並べられて,その中で「小さい字」や「濁音,半濁音」が使われているものが後に来るようになる。だから,「さつき,さっき,ざつき,ざっき,さっきん」はこの順になる。「さつま」や「さんばし」などの後に来ることはないはずだ。

● 対策

 どうすればいいか。これは,まず全て「小文字ではない清音」で比較し,それで等しい場合に,小さい字か濁音,半濁音かを調べる……という「二段比較」が必要だと思う。
 表計算ソフトの「並び替え」で,「最優先する列」と「二番目に優先する列」……など,並び替えの基準にする値として複数の列を指定できるが,それと似たやり方が必要だろう。

 たとえば前述の「さつき,さっき,ざつき,ざっき」の場合は,まず優先する比較キーとして,全て小文字ではない清音の「さつき」で比較する。当然それでは全て同じになってしまうので,2番めの比較キーとして,小文字か濁音か……を示す別の値を求める必要が出てくる。たとえば,以下のような数値を割り当てる。

 前述の4つの言葉は,小文字でない清音で比較すると全て「さつき」となって同じだが,前述の法則で「2番めの比較キー」を作ると,以下のようになる。

 この右側の数を元に「辞書順に」並び替えれば,日本語の辞書に出て来る順番になる。
 ここで,この数のほうも「辞書順に」並び替える必要がある。というのは,たとえば「さっきん」は 0100 と4桁になるが,数値で比較すると,「ざつき」の 200 より小さくなってしまう。もっとも,優先キーの「さつき」と比較すると,文字数が多いからその時点で後になるはずだが,念のため。

 この方法で並び替えれば,文字コードに関係なく,小文字でない言葉を小文字よりも前に来るようにすることができる。

◆ Perl の場合

 sort に渡して処理可能な順序定義関数を kanaCmp とすると……。

▼ kanaCmp ひらがな辞書順の定義関数(抜粋)
   my	%sortBase = # ひらがな → ソート文字&キーペアハッシュ
	( ……,	'っ' => 'つ1', # 促音
		'つ' => 'つ0', # 清音
		'づ' => 'つ2', # 濁音
		……,
		'は' => 'は0', # 清音
		'ば' => 'は2', # 濁音
		'ぱ' => 'は3', # 半濁音
	…… ); # 実際はひらがな全てに定義
   my	%kanaSortDic;
   sub kanaSortKeyPair { my ( $k0, $k1 ) = ( '', '' );
	if( ! exists $kanaSortDic{ $_[0] } ){
	( "a".$_[0] )=~ /a/; # ↓ UTF-8 限定の処理
	  while( $' =~ /[\xC0-\xFD][\x80-\xBF]+/ ){
	  $k0 .= substr( $sortBase{ $& }, 0, 3 );
	  $k1 .= substr( $sortBase{ $& }, 3, 1 );
	  }
	$kanaSortDic{ $_[0] }= { k0 => $k0, k1 => $k1 };
	}
	return $kanaSortDic{ $_[0] };
   }
   sub kanaCmp {
    my ( $a, $b ) = ( kanaSortKeyPair( $_[0] ),
		kanaSortKeyPair( $_[1] ) );
	return ( $a ->{ k0 } cmp $b ->{ k0 } )||
			( $a ->{ k1 } cmp $b ->{ k1 } );
   }
	sort { kanaCmp( $a, $b ) } @wordList; # ← 使用例

◆ OpenOffice Basic の場合

 OpenOffice のマクロ関数を使うとしたら,こんな感じ。ここで asc という関数は UNICODE にも対応している。表計算で,ひらがな表記の「読み」が A 列にあるとしたら,“=KEY0( A1 )”と“=KEY1( A1 )”といった式を設定したセル列を作って,それぞれ最優先,第2優先の列としてソートすることで使える。

▼ OpenOffice Basic 表計算マクロ関数
   function key0( str1 as string ) as String
   Dim res As String
   res = ""
	for n = 1 to len( str1 )
	p = asc( Mid( str1, n, 1 ) )
	  if 12352 < p and p <= 12438 then
	  res = res & Mid( "ああいいううええおおかかききくくけけここささししすすせせそそたたちちつつつててととなにぬねの"& _
		"はははひひひふふふへへへほほほまみむめもややゆゆよよらりるれろわわゐゑをんうかけ", p-12352, 1 )
	end if
	Next
   key0 = res
   end function
   function key1( str1 as string ) as String
   Dim res As String
   res = ""
	for n = 1 to len( str1 )
	p = asc( Mid( str1, n, 1 ) )
	  if 12352 < p and p <= 12438 then
	  res = res & Mid( "10101010100202020202020202020202021020202000000230230230230230000010101000000100000211", p - 12352, 1 )
	  end if
	Next
   key1 = res
   end function


© M.Ishikawa; TREEWARE 2024.