UTF-8 文字(列)と UNICODE の変換


公開 (UL): 2020-05-04
更新 (UD): 2020-10-31
閲覧 (DL): 2026-04-07

この記事のもくじ

→本文へ
当サイトは SNS の公式アカウントがないので,「議論ネタ」にする際は,皆さんのブログ,メーリングリスト,SNS や掲示板などで,適当にハッシュタグを付けたりリンクを掲載するなどしてご利用ください。

前の記事

2020-05-04
エスケープ文字変換/復元

次の記事

2020-06-07
存在不明のパス名からディレクトリを構築する

最近の記事

2024-02-11
XMPP - 長く使える安心チャット
2023-01-16
Android のキーボード・ショートカット一覧
2023-09-15
Perl の正規表現での A と Z の扱い
2022-08-09
代表的な画像ファイル形式一覧
2022-04-04
サイトのローカル試験と実ウェブ上の差を縮める手法(Perl)
新着情報
She appears also the top page.

新着情報 Recent docs.

Sorry, but most of these pages are only Japanese.
現場で活きる「電子工作」 «Get starting electronics handmaking!»
政権政党圧勝により介護福祉制度の改悪は必至! 現場の自助・自衛のための機器「手作り」入門!

人気記事 Frequent view pages.

おすすめ! Recommend

ご連絡 Contact

▼ メールフォームはこちら
SSL 証明書の更新に不具合が多いため,期限切れエラーが出た際は,お手数ですが「例外指定」をお願いいたします。

ファイルの暗号化
当サイト管理者(石川)宛にメール添付で送信するファイルを暗号化したい時は,唯一のパスワードを PPOP で取得できます。 PPOP gives a password for encryption of the file(s) attached your mail to the admini­strator of this site M.Ishikawa.
PPOP

MEMO / Email to the Author
あとで調べたい点のメモなどに利用可能。
下部ボタンでそのまま著者にメールできます。


CAPTCHA: easy math prob in Japanese

時事川柳 News Senryu

颯爽と  
アソー出てきて
  轍を踏む
Aso will finish the government of LDP also this time.

以前もこの方が(げや→)下野に導いたんでしょって。

(⌚2025-10-12)

ご支援 Support this site.

まだまだ コロナ失業中!!
CORONA-NEET, seeking works now!

この活動をご支援いただける方はこちらへ Could you support this site, see here (but Japanese).
都道府県庁さん, 地方自治体さんや教育委員会さん, 障害者就労支援機関さんやその他公的機関,省官庁さん, 「タダ見」しているだけでは, 格差が広がるだけだと思いませんか?
Welcome!
Alibaba    Google
The companies, thanks for many accesses every months! Are the articles I wrote helping for increasing your income? Although, I cannot get even a penny and jobs from that.

● perl の場合

◆ UNICODE( 0-0x10FFFF )→UTF-8(2020-10-30 更新)

 U+10000 以降コード対応。

▼ perl で UNICODE( 0-0x10FFFF )→UTF-8
  sub UC16toUTF8 { my $c = $_[0]; # ( 0-0x10FFFF )
    return ( $c < 128 )? chr( $c ):
	( ($c < 0x800 ? (chr( 0xC0 +( ($c >> 6)& 0x1F ) ) ):
	( ($c < 0x10000 ? chr( 0xE0 +( ($c >> 12)& 0x0F ) ):(
	   chr( 0xF0 +( ($c >> 18)& 0x07 ) ).
	   chr( 0x80 +( ($c >> 12)& 0x3F ) ) ) ).
	   chr( 0x80 +( ($c >>  6)& 0x3F ) ) )
	). chr( 0x80 +(  $c & 0x3F ) ) );
  }

 2行めにある条件式を ( $c < 128 && $c != 0 ) にすると,C言語の ASCIZ 文字列内で「ヌル文字('¥0')」を扱う時にも使えるはず。

● JavaScript の場合

◆ 文字列→UNICODE(2020-10-31 更新)

 ある程度新しいブラウザなら,以下の関数が使えるもよう。

 以下,これらが使えない場合の回避関数。

 1文字だけの場合はこの辺りがシンプルかな。U+10000 以降のコードは,escape 関数により "%uXXXX%uYYYY" のサロゲートペアに直されることが前提。ただ,後半(YYYY)が 0xDC00~0xDFFF かどうかの確認は省略しているが。

▼ JavaScript で文字コードを得る
   function chcode( chr ){ // 1文字,U+10000 以降コード対応版
   var	ascii =' !"#$%&\'()*+,-./0123456789:;<=>?'+
   		'@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_'+
   		'`abcdefghijklmnopqrstuvexyz{|}~';
   var	c, d;
   	if( 0 <=(c = ascii.indexOf( chr ))) return( c + 32 );
   	  else { c = escape( chr );
   	  d = parseInt( c.substr( c.charAt(1)=='u'? 2: 1, 4 ), 16 );
   		if( (d & 0xFC00)== 0xD800 )
   		d =(((d & 0x3FF)+ 0x40)<< 10)+
   		   (parseInt( c.substr( 8 ), 16 )& 0x3FF);
   	  return( d );
   	  }
   }


© M.Ishikawa; TREEWARE 2026.