JIS X 0208
JIS X 0208(ジス X 0208)は、日本語表記、地名、人名などで用いられる6,879図形文字を含む、主として情報交換用の2バイト符号化文字集合を規定する日本工業規格である。現行の規格名称は7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7-bit and 8-bit double byte coded KANJI sets for information interchange) である。1978年にJIS C 6226として制定され、1983年、1990年および1997年に改正された。JIS漢字コード、JIS漢字、JIS第1第2水準漢字、JIS基本漢字などの通称がある。
目次
1 適用範囲および適合性
2 符号の構造
2.1 列番号/行番号
2.2 区点位置および区点番号
2.3 空き領域
2.4 文字の名前
3 漢字集合
3.1 概要
3.2 特殊文字、数字およびラテン文字
3.3 平仮名および片仮名
3.4 漢字
3.4.1 水準分け
3.4.2 配列
3.4.3 典拠不明の漢字
3.4.4 漢字の字体の包摂
3.4.5 過去の規格との互換性を維持するための包摂規準
4 符号化文字集合
4.1 8種類の符号
4.2 エスケープシーケンス
4.3 重複符号化の問題
5 歴史
5.1 第1次規格
5.2 第2次規格
5.3 第3次規格
5.4 第4次規格
5.5 第5次規格
5.6 将来
6 各社の実装
7 他の規格との関係
7.1 ISO/IEC 646 IRV
7.2 JIS X 0201
7.3 JIS X 0212
7.4 JIS X 0213
7.5 ISO/IEC 10646およびUnicode
8 参考文献
9 脚注
10 関連項目
11 外部リンク
適用範囲および適合性
JIS X 0208が定める文字集合は、主として、データ処理システムおよび関連する装置の間またはデータ通信システム相互の間の情報交換 (information interchange) に用いるための文字集合である。この文字集合はデータ処理および文書処理にも利用できる。
文字集合の部分実装は規格に適合しない。第1次規格の原案作成委員会が第1水準および第2水準への振り分けに気をつかったこと、第2次規格で一部の異体字の水準間の入れかえがおこなわれたことなどからすると、少なくとも第1次規格および第2次規格では、非漢字および第1水準漢字のみの実装が想定されたと推測される。しかし、このような実装が規格に適合すると明記されたことはない。
かつてはJIS X 0208:1997の規格票には適合性について規定されているにもかかわらず、この規格は適合性認証または自己適合宣言の対象となる製品規格ではないと考えられていた[1]。だが2009年現在では経済産業省および日本工業標準調査会が「国がJISマーク表示制度の対象となる商品等を限定する指定商品制を廃止し、認証可能なJIS製品規格がある製品が対象となります」と明言している[2]ため、適合性について規定のあるJIS X 0208:1997も適合性認証または自己適合宣言の対象となると考えられる。
符号の構造
JIS X 0208の符号は、基本的に7ビット2バイト符号または8ビット2バイト符号である。ただし、図形文字 (graphic character) のうちの1文字「SPACE」およびすべての制御文字 (control character) は1バイトで表現される。符号位置を表現するために、「列番号/行番号」および「区点番号」が使用される。符号に依存しない文字の識別手段として「文字の名前」が用意されている。
列番号/行番号
1バイト符号のビット組合せ (bit combination) を表現するために、列番号/行番号が用いられる。これは1バイトの16進数表記(00からFF)の上の桁と下の桁に相当する。具体的には、7ビットの上位3ビットまたは8ビットの上位4ビットを十進整数の0から7または0から15に対応させて、この数字を列番号とし、下位4ビットを十進整数の0から15に対応させて、この数字を行番号とする。
例えば、図形文字SPACEに対応するビット組合せは、7ビット符号で010 0000、8ビット符号で0010 0000である。これは、列番号/行番号によって2/0と表現される。
区点位置および区点番号
2バイト符号のうち、2バイトの第1バイトを同じくする符号の集合を、区 (row) といい、一つの区のうちの個々の符号を、点 (cell) という[3]。ある区のある点のことを、区点位置 (code-point) と呼ぶ。
2バイトの第1バイトおよび第2バイトには、それぞれ、列番号/行番号で表示して2/1から7/14までの94通りのビット組合せが許される。したがって、区は94個あり、一つの区には、94個の点がある。区点位置は94×94=8,836個ある。
区点位置は区点番号によって参照される。それぞれの区に1から94までの番号を与え、それぞれの区のうちの点に1から94までの番号を与える。そして、区点番号を、区の番号と点の番号によって「何区何点」と表現するか、区の番号と点の番号をハイフンでつないで表現する。例えば、文字「亜」の区点位置は、区点番号によって16区1点または16-01と参照される。
区点番号と図形文字との対応は、規格の付属書3において、区の番号を縦軸に、点の番号を横軸に取った94×94の図形文字符号表で示されている。
この構造は、中国のGB 2312や韓国のKS C 5601(現在のKS X 1001)でも採用された。
空き領域
2バイト符号のうち、9区から15区までおよび85区から94区までは空き領域 (unassigned code-points)、すなわち文字が規定されていない区点位置である。また、それ以外の区のうちでも一部の点は空き領域となっている。
空き領域は基本的に使用してはならない区点位置である。情報交換の当事者の合意があるときを除いて、空き領域に文字(外字)を割り当てて情報交換をしてはならない。
空き領域に文字を割り当てるときにも、規格に定められた図形文字を空き領域にも割り当てたり、空き領域の複数の区点位置に同じ文字を割り当てたりしてはならない。重複符号化を排除するためである。
なお、空き領域に文字を割り当てるときには、漢字の字体についての包摂規準に注意する必要がある。例えば、25区66点には「口高」および「はしご高」が包摂されて対応している。したがって、25区66点の文字を「口高」に限定して解釈し、「はしご高」を空き領域に割り当てることは、規格に定められた図形文字を空き領域にも割り当てることになり、規格違反となる。
文字の名前
この規格の符号化文字には、それぞれの名前が与えられている。文字の名前を使うことによって、符号に依存しないで文字を識別することができる。文字の名前は他の符号化文字集合の規格と整合して決められているので、ある符号化文字集合に含まれるある文字が、別の符号化文字集合に含まれるある文字と同一の文字であるか否かは、それらの名前が同一であるか否かで判断できる。
例えば、ISO/IEC 646の列番号/行番号で4/1の文字の名前も、この規格の3区33点の文字の名前も、同じくLATIN CAPITAL LETTER Aである。したがって、ISO/IEC 646の4/1の文字およびこの規格の3区33点の文字は、同じ文字であると結論できる。また、ISO/IEC 646国際基準版の2/2「QUOTATION MARK」、2/7「APOSTROPHE」、2/13「HYPHEN-MINUS」および7/14「TILDE」は、この規格にはない文字であることがわかる。
漢字以外の文字の名前に用いられる文字は、ラテン文字大文字、間隔およびハイフンである。漢字以外の文字には日本語通用名称も与えられているが、日本語通用名称は参考であって規定の一部ではない[4]。
漢字の名前は、対応する国際符号化文字集合 (UCS) の文字の16進表記の符号化表現から機械的に決められている。符号化表現の先頭に「CJK UNIFIED IDEOGRAPH-」を冠することで、漢字の名前が得られる。例えば、16区1点「亜」はUCSの4E9Cの文字に対応するので、この文字の名前はCJK UNIFIED IDEOGRAPH-4E9Cである。漢字には日本語通用名称は与えられていない。
漢字集合
概要
JIS X 0208が規定する、7ビット2バイトまたは8ビット2バイトの符号に対応する6,879の図形文字の集合を、JIS X 0208では漢字集合 (Kanji set) と呼ぶ。漢字集合には、漢字6,355文字およびラテン文字、平仮名などの524文字の非漢字が含まれる。漢字集合に含まれる図形文字およびそれが収められる区は、つぎのとおりである。
- 特殊文字
- 1区および2区に収められる。和字間隔1文字、読点、句点などの記述記号18文字、濁点、半濁点などのダイアクリティカルマーク8文字、「々」、「〆」などの仮名又は漢字に準じるもの10文字、括弧記号22文字、数学記号である学術記号45文字、通貨記号を含む単位記号11文字、「#」、「〒」などの一般記号32文字からなる合計147文字である。
- 数字
- 3区に収められる。「0」から「9」までの10文字である。
- ラテン文字
- 3区に収められる。大文字および小文字の52文字である。
- 平仮名
- 4区に収められる。「ゐ」および「ゑ」を含む清音48文字、濁音20文字、半濁音5文字、拗音および促音のための小文字10文字、の合計83文字である。
- 片仮名
- 5区に収められる。86文字である。平仮名に対応する文字に加えて、「ヵ」、「ヶ」および「ヴ」が含まれる。
- ギリシア文字
- 6区に収められる。大文字および小文字の48文字である。
- キリル文字
- 7区に収められる。大文字および小文字の66文字である。
- 罫線素片
- 8区に収められる。細線素片、太線素片および細線太線混在素片からなる32文字である。
- 漢字
- 16区から47区までの第1水準2,965文字および48区から84区までの第2水準3,390文字の合計6,355文字である。
特殊文字、数字およびラテン文字
漢字集合の特殊文字には、ISO/IEC 646の国際基準版 (IRV) 図形文字集合に含まれる一部の文字が欠けている。前述のQUOTATION MARK、APOSTROPHE、HYPHEN-MINUSおよびTILDEの4文字である。IRVのQUOTATION MARK、APOSTROPHEおよびHYPHEN-MINUSは、表のように、漢字集合では複数の区点位置に分離されている(西村 1978、JIS X 0221-1:2001規格票解説3.8.7)。IRVのTILDEは、漢字集合のどの文字とも対応づけられない。
ISO/IEC 646 IRV | JIS X 0208 | ||||
---|---|---|---|---|---|
列/行 | 図形 | 名前 | 区点 | 図形 | 名前 |
2/2 | " | QUOTATION MARK | 1-15 | ¨ | DIAERESIS |
1-40 | “ | LEFT DOUBLE QUOTATION MARK | |||
1-41 | ” | RIGHT DOUBLE QUOTATION MARK | |||
1-77 | ″ | DOUBLE PRIME | |||
2/7 | ' | APOSTROPHE | 1-13 | ´ | ACUTE ACCENT |
1-38 | ‘ | LEFT SINGLE QUOTATION MARK | |||
1-39 | ’ | RIGHT SINGLE QUOTATION MARK | |||
1-76 | ′ | PRIME | |||
2/13 | - | HYPHEN-MINUS | 1-30 | ‐ | HYPHEN |
1-61 | − | MINUS SIGN | |||
7/14 | ~ | TILDE | 対応する文字はない | ||
対応する文字はない | 1-33 | 〜 | WAVE DASH |
これは、漢字集合が世界で最も普及している符号化文字集合の上位互換でないことを意味し、この規格の欠点の1つに数えられる。
漢字集合およびIRVの集合に共通する特殊文字、数字およびラテン文字90文字についても、この規格では、ISO/IEC 646の配列を踏襲していない。90文字は漢字集合の1区から4区までに分かれて収録されている。
漢字集合の数字、ラテン文字などは「全角英数字」であって、IRVの文字とは異なるとの解釈に基づく実装が発生して、普及した原因には、これらの非互換性のためだと考えられる。
第1次規格以来、丸付き数字、「キロ」、「メートル」などの合字およびローマ数字は、文字の合成によって表現できるとされ[5]、独立した区点位置を与えられなかった。情報機器を製造する各社は、顧客が必要とするこれらの文字を、文字の合成により表現できるようにするのでも、規格に追加するよう求めるのでもなく、外字として独自に提供する道を選んだ。
1997年の第4次規格では、すべての文字が現在位置の前進動作を伴う文字すなわちスペーシング文字 (spacing character) であることが明確にされたうえ、文字の合成をおこなってはならないと規定された。このため、ダイアクリティカルマークつきのラテン文字は、2区82点のオングストローム (Å) を唯一の例外として、表現できないことになった。
平仮名および片仮名
JIS X 0208の平仮名および片仮名においては、JIS X 0201の片仮名に含まれない濁点つきの仮名および半濁点つきの仮名が含まれる。JIS X 0201の片仮名に含まれない「ヰ」「ヱ」および「ヮ」も含まれる。
JIS X 0208の仮名の配列は、JIS X 0201の片仮名の配列と異なっている。JIS X 0201では、小文字(小書きの仮名)は小文字で、大文字(清音の文字)は大文字で、それぞれ五十音順に配列されている(ヲァィゥェォャュョッーアイウエオ……ラリルレロワン)。一方、JIS X 0208では、小文字、大文字、濁点つきの文字および半濁点つきの文字を一括して五十音順で、五十音順で同順位の場合は小文字、大文字、濁点つきの文字、半濁点つきの文字の順序で、配列されている(ぁあぃいぅうぇえぉお……っつづ……はばぱひびぴふぶぷへべぺほぼぽ……ゎわゐゑをん)。この配列は、仮名文字列の簡易的な辞書順ソートを容易にするために採用された(安岡ほか 2006)[6]。
この規格には、先に制定されたJIS X 0201の片仮名の配列が踏襲されなかった。JIS X 0201の片仮名を「半角仮名」[7]として、この規格の片仮名と区別する実装が発生した原因は、この非互換性にあると考えられる。この点も、この規格の欠点の一つである。
漢字
この規格の漢字が、何を典拠としてどのように選ばれ、何に基づいて第1水準および第2水準に振り分けられ、どのように配列されたかは、1997年の第4次規格の規格票の解説に詳しい。それによると、つぎの4つの漢字表に含まれる漢字が、1978年の第1次規格の6,349文字に採用された。
- 標準コード用漢字表(試案)
情報処理学会漢字コード委員会が1971年に編纂したものである。下記の『対応分析結果』には6,086文字が見える。- 行政情報処理用基本漢字
行政管理庁が1975年に選定したもので、2,817文字からなる。選定のための資料として、行政管理庁は、『標準コード用漢字表 (試案)』をはじめとする複数の漢字表を対照した資料『行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果』(『対応分析結果』)を作成した[8]。- 日本生命収容人名漢字
- 『対応分析結果』を構成する漢字表の一つで、3,044文字からなる。日本生命が契約者の氏名から抽出した漢字とされるが、第1次規格の原案作成委員会の時点で原典が存在せず、『対応分析結果』に転記されていた[8]。
- 国土行政区画総覧使用漢字
- 『対応分析結果』を構成する漢字表の一つで、3,251文字からなる。国土地理協会が編集している日本全国の字までの行政地名の一覧表『国土行政区画総覧』に使用されていた漢字である。原案作成委員会は『国土行政区画総覧』そのものを調査せず、それに使用された漢字は『対応分析結果』を通じて規格に反映された。
第2次規格および第3次規格で、それぞれ4文字および2文字の第2水準漢字が追加され、漢字は6,355文字になった。また、第2次規格では字形の変更および水準間の漢字の入れかえがおこなわれ、第3次規格でも字形の変更がおこなわれた。これについては後述する。
水準分け
第1水準は、当用漢字字体表、当用漢字補正案および人名用漢字別表を基本として、多種の漢字表に共通して出現する文字が選ばれた。また、JIS C 6260(都道府県コード、現在のJIS X 0401)およびJIS C 6261(市区町村コード、現在のJIS X 0402)を参照して、都道府県名および市区町村名に使用される漢字がすべて第1水準に含まれるように意図された[9]。さらに、専門家による調整が加えられた。
第2水準には、上記の主要4漢字表に出現して第1水準から漏れた漢字が収められた。次に記すように、第1水準は漢字の音訓に基づいて並べられたので、音訓がわかりにくい漢字の中には第1水準から第2水準にまわされたものもある(西村 1978)。
一般的に第1水準は使用頻度の高い漢字、第2水準は使用頻度の低い漢字とされるが、水準分けはもちろんJIS漢字制定当時の基準であるので、時代の流れによって今日では「翔」や「煌」といった第2水準だがよく使われるようになった漢字、また逆に「糎」や「粍」といった第1水準だがあまり使われなくなった漢字も多数存在する。また、人名用漢字別表にはJIS漢字制定後に追加されたものの中には第2水準のものもいくつか存在する。
実際の人名が収録されたと思われた『日本生命収容人名漢字』は選定に寄与したとされるが、秋田県に多い苗字である草彅の『彅』が含まれていないなど網羅性に不備があったとされる[8]。また参照時点で原典が存在せず転記となっているなど正確性も不明であった。
1990年代以降はほとんどのシステムで第2水準漢字まで使えるようになり、文字コードもUnicodeへ移行しつつあるため、使用したい漢字が第1水準か第2水準か気にする必要はほとんどなくなった。しかし、数千字もある漢字フォントを作るには、相当の手間と時間がかかるため、フリーのフォントなどでは一部の漢字しか収録しないことがある。その際、水準を基準にして収録するかしないかを決めることもある(第1水準しか収録していないフォントもある)。
配列
第1水準漢字は、この規格独自の代表音訓、すなわち各漢字についてそれぞれ一つずつ定めた音または訓、の順に配列された[10]。原則として、音が代表音訓とされ、音が複数ある漢字については「使用度が優勢」と判断された音が代表音訓として採用された(JIS C 6226-1978規格票解説3.4)。音が存在しないか一般的でない漢字については、訓が代表音訓とされた。動詞の訓を代表音訓とするときは、終止形ではなく連用形が代表音訓とされた。
例えば、16区1点から41点までに代表音訓が「あ」で始まる41文字が配列されている。このうち、「葵」(キ、あおい、16-10)、「粟」(ゾク、ショク、あわ、16-32) など22文字は訓を代表音訓としている。「逢」(ホウ、あい、16-09)、「扱」(ソウ、キュウ、あつかい、16-23)などは動詞の連用形が代表音訓とされた例である。
代表音訓を同じくする漢字の中では、音を代表音訓とする漢字が先に、訓を代表音訓とする漢字が後に並べられ、音または訓を同じくする漢字の中では、部首および画数の順に並べられた。
第1水準にあっても第2水準にあっても、異体字は基本的に親字の直後にまとめて配列された。例えば、第2水準において、49区88点の「劍」の直後には、原則である画数順を乱して「劔」、「劒」および「剱」が配列されている[11]。
第2水準漢字集合は、部首および画数の順に配列された。部首および画数を同じくする漢字の中では、五十音順に並べられた。
典拠不明の漢字
区点 | 図形 | 種別 |
---|---|---|
52-55 | 墸 | 不明 |
52-63 | 壥 | 不明 |
54-12 | 妛 | 典拠不詳 |
55-27 | 彁 | 同定不能 |
57-43 | 挧 | 典拠不詳 |
58-83 | 暃 | 典拠不詳 |
59-91 | 椦 | 典拠不詳 |
60-57 | 槞 | 典拠不詳 |
74-12 | 蟐 | 典拠不詳 |
74-57 | 袮 | 典拠不詳 |
79-64 | 閠 | 典拠不詳 |
81-50 | 駲 | 典拠不詳 |
従来、漢字集合に一般の漢和辞典に見られない漢字が含まれていて、その典拠が不明であることが指摘されていた。例えば、第1次規格制定の1年後には、田嶋一夫(1979)が、『新字源』にも『大漢和辭典』にも見られず、略字としても把握できない漢字を63文字認めたことを報告し、「漢和辞典で確認できない漢字が、確かな基準で選択されたものであることを望む」とした。これらの漢字はやがて、幽霊文字、幽霊漢字などと称されるようになった。
第4次規格の原案作成委員会も、典拠不明の漢字の存在を問題視し、第1次規格の原案作成委員会がいかなる資料を参照したかを調査した。その結果、第1次規格の原案作成委員会が『対応分析結果』に大きく依拠して漢字を収集していたことが判明した。第4次規格の原案作成委員会が『対応分析結果』を入手して検討したところ、一般の漢和辞典に見られないにもかかわらず漢字集合に含まれている漢字の多くが、『対応分析結果』において『日本生命収容人名漢字』または『国土行政区画総覧使用漢字』とされていることがわかった。
『日本生命収容人名漢字』については、『対応分析結果』が参照した原典が現存しないことが判明した。『国土行政区画総覧』については、第4次規格の原案作成委員会に加わった笹原宏之が、第1次規格開発当時の版の全ページに出現する漢字を調査した。委員会はまた、多くの古字書を参照し、NTTの電話帳データベースでの人名用例を調査した。
このような委員会の徹底的な調査によっても、委員会は、表に示す12の漢字の典拠について確信を持つことはできなかった。これらのうちには、誤写による誤字体と推測されているものが多い。
漢字の字体の包摂
1997年の第4次規格の定義によれば、包摂(ほうせつ、unification)とは、複数の字体を区別せずに、それらに同一の区点位置を与えることである。第4次規格では、漢字の字体にかぎって、包摂する字体の範囲を明確に定めている。
なお、規格の定義によれば、字体 (ZITAI) は、図形文字の図形表現としての形状についての抽象的概念であり、字形 (ZIKEI) は、字体を手書き、印字、画面表示などによって実際に図形として表現したものである。一つの字体には無数の具体的かつ可視的な字形が存在する。一つの字体についての字形の異なりはデザインの差である。
ひとつの区点位置に包摂される字体の範囲は、その区点位置の例示字体およびその例示字体に適用することができる包摂規準によって決まる。すなわち、ある区点位置の例示字体は、その区点位置に対応する。そして、例示字体において、例示字体を構成する部分字体を包摂規準にしたがって置き換えたものも、その区点位置に対応する。
例えば、33区46点(僧)の例示字体として、「人偏に曽」が示されている。そして、包摂規準連番101には、部分字体「曽」、「曾(第1画および第2画は「八」)」および「曾(第1画および第2画は「ソ」)」が示されている。したがって、例示字体「人偏に曽」の部分字体「曽」を「曾(第1画および第2画は「八」)」または「曾(第1画および第2画は「ソ」)」に置き換えた文字も、33区46点に対応する。
第4次規格には、第1刷に対する正誤表で追加された一つを含めて、186個の包摂規準が定められている。
ある区点位置の例示字体が複数の部分字体からなるときに、それぞれの部分字体について包摂規準を適用できる。一つの部分字体に包摂規準を適用した後、その部分字体に重ねて包摂規準を適用することはできない。また、他の区点位置の字体をも包摂するような包摂規準の適用は許されない。
例示字体は、その区点位置の字体の一例にすぎず、規格が推奨する字体ではない。また、包摂規準は、一般に用いられている漢字とこの規格の区点位置との対応づけのためのみに用いるものとされている。規格は、例示字体および包摂規準に基づいて一般に用いられていない字体を創作することのないように求めている。
漢字集合の漢字は、完全に一貫した包摂規準に基づいて選ばれてはいない。例えば、41区7点は、第3画および第4画が交わる「彥」にも交わらない「彦」にも対応している (包摂規準連番72)のに対して、20区73点は第3画および第4画が交わらない「顔」のみに対応し、80区90点は第3画および第4画が交わる「顏」のみに対応している。
包摂、包摂規準および例示字体という用語は、第4次規格で採用されたものである。第1次規格から第3次規格までの規格票解説は、漢字と漢字との関係を、独立、対応および同値の3種類に分け、同値と認められた文字を「ただ一つの符号に合併する」と説明していた。同値には、「まったく同形と認めるもの」のほかに、「書体等の違いと認めるもの」および「字形の違いがわずかであると認めるもの」が含まれていた。
第1次規格には「この規格では……字形の詳細は定めない」と規定されていて(細分箇条3.1)、その規格票解説は「この規格は、文字概念とその符号を定めることを本旨とし、その他字形設計等のことは範囲としない」と述べていた(引用にあたって、原文のコンマを読点に改めた)。第2次規格および第3次規格にも、具体的字形設計を適用範囲としない旨が備考として示されていた(箇条1の備考)。第4次規格も、「この規格は、図形文字及びそのビット組合せを規定するもので、用途、個々の図形文字の具体的字形設計などは、この規格の適用範囲とはしない」と規定している(JIS X 0208:1997箇条1。引用にあたって、原文のコンマを読点に改めた)。
過去の規格との互換性を維持するための包摂規準
第4次規格には、過去の規格との互換性を維持するための包摂規準が定められている。これは、JIS C 6226-1983以降の字体がJIS C 6226-1978の字体と大きく異なる29の区点位置に限って適用される。29の区点位置について、JIS C 6226-1983以降の字体に相当する字体がAとして、JIS C 6226-1978の字体に相当する字体がBとして示されている。これらの区点位置については、区点位置ごとに、AまたはBのいずれの字体を採用してもよい。ただし、規格への適合性を主張するためには、区点位置ごとにAまたはBのいずれの字体を採用したかを、文書に明示しなければならない。
符号化文字集合
8種類の符号
JIS X 0208:1997では、規格票本体の箇条7ならびに附属書1および2において、つごう8種類の符号が規定されている。
- 「符号」および「符号化文字集合」は同義語とされている。
- JIS X 0211はISO/IEC 6429に一致する国内規格である。
- CL、GL、CRおよびGRの各領域は、それぞれ、列番号/行番号が0/0から1/15まで、2/1から7/14まで、8/0から9/15までおよび10/1から15/14までの各領域である。
- いずれの符号においても、2/0には図形文字「SPACE」を、7/15には制御文字「DELETE」を割り当てる。
- 漢字用7ビット符号
- 規格票本体に規定されている。CL領域にJIS X 0211のC0集合を割り当て、GL領域に漢字集合を割り当てる。
- 漢字用8ビット符号
- 規格票本体に規定されている。CL領域にJIS X 0211のC0集合を割り当て、GL領域に漢字集合を割り当てる。CR領域には、JIS X 0211のC1集合を割り当てるか、何も割り当てないかのいずれかとする。GR領域には何も割り当てない。
- 国際基準版・漢字用7ビット符号
- 規格票本体に規定されている。CL領域にC0集合を割り当てる。GL領域にISO/IEC 646の国際基準版 (IRV) 図形文字集合およびJIS X 0208の漢字集合を、それぞれ、SHIFT-INおよびSHIFT-OUTによって割り当てて用いる。
- 国際基準版・漢字用8ビット符号
- 規格票本体に規定されている。JIS X 0211のC0集合をCL領域に、ISO/IEC 646の国際基準版図形文字集合をGL領域に、漢字集合をGR領域に割り当てる。EUC-JPにおいて、JIS X 0201の片仮名用図形文字集合およびJIS X 0212の補助漢字を使用しないようにしたものに相当する。
- ラテン文字・漢字用7ビット符号
- 規格票本体に規定されている。国際基準版・漢字用7ビット符号における国際基準版図形文字集合を、JIS X 0201のラテン文字用図形文字集合に置き換えたものである。
- ラテン文字・漢字用8ビット符号
- 規格票本体に規定されている。国際基準版・漢字用8ビット符号における国際基準版図形文字集合を、JIS X 0201のラテン文字用図形文字集合に置き換えたものである。
- シフト符号化文字集合
- 附属書1「シフト符号化表現」に規定されている。Shift_JISである。
- RFC 1468符号化文字集合
- 附属書2「RFC 1468符号化表現」に規定されている。RFC 1468に規定されたISO-2022-JPに似ている。ただし、ISO-2022-JPは7ビットを1バイトとする符号であるのに対して、RFC 1468符号化文字集合は8ビットを1バイトとする符号である点が異なる。
第4次規格に規定されたこれらの符号化文字集合のうち、IANAに登録されているものは、シフト符号化文字集合のみである[12]。
エスケープシーケンス
漢字集合を符号拡張法のもとで使うこともできる。各Gバッファに漢字集合を指示するためのエスケープシーケンスはつぎのとおりである。ここで、ESCは制御文字ESCAPEである。
規格 | G0 | G1 | G2 | G3 |
---|---|---|---|---|
78JIS | ESC 2/4 4/0 | ESC 2/4 2/9 4/0 | ESC 2/4 2/10 4/0 | ESC 2/4 2/11 4/0 |
83JIS | ESC 2/4 4/2 | ESC 2/4 2/9 4/2 | ESC 2/4 2/10 4/2 | ESC 2/4 2/11 4/2 |
90JIS以降 | ESC 2/6 4/0 ESC 2/4 4/2 | ESC 2/6 4/0 ESC 2/4 2/9 4/2 | ESC 2/6 4/0 ESC 2/4 2/10 4/2 | ESC 2/6 4/0 ESC 2/4 2/11 4/2 |
重複符号化の問題
この規格の漢字集合をISO/IEC 646の国際基準版図形文字集合またはJIS X 0201のラテン文字用図形文字集合と組み合わせて使用するとき、両方の文字集合に共通して含まれる文字の扱いが問題となる。特別な措置がなければ、共通して含まれる文字は、1文字につき複数の符号位置が与えられる、すなわち、重複符号化(ちょうふくふごうか)されることになる。
JIS X 0208:1997は、両方の文字集合に共通して含まれる文字について、2個の符号位置のうちの一方である漢字集合の符号位置の使用を基本的に禁じて、重複符号化を排除している。同じ名前を有する文字が同じ文字と判断される。
例えば、ISO/IEC 646の国際基準版図形文字集合のビット組合せ4/1に対応する文字の名前も、漢字集合の3区33点に対応する文字の名前も、LATIN CAPITAL LETTER Aである。国際基準版・漢字用8ビット符号では、ビット組合せ4/1によっても、漢字集合の3区33点に対応する2バイトのビット組合せ10/3 12/1によっても、「A」すなわちLATIN CAPITAL LETTER Aを表現できることになる。規格はビット組合せ10/3 12/1の使用を禁じて、重複符号化を排除しようとしている。
漢字集合の符号位置の文字を「全角文字」として、国際基準版文字集合またはラテン文字用図形文字集合の文字と異なる文字として扱ってきた実装があることに配慮して、過去との互換のためにのみ、漢字集合の符号位置の使用が許される。例えば、過去との互換のために、国際基準版・漢字用8ビット符号の10/3 12/1には、「全角のA」が対応していると見なすことが許される。
漢字集合を国際基準版図形文字集合またはラテン文字用図形文字集合と併用すると、規格に忠実に従っても、文字の一意な符号化は保証されない。例えば、国際基準版・漢字用8ビット符号では、ハイフンをビット組合せ2/13の文字HYPHEN-MINUSで表現することも、漢字集合1区30点にあたるビット組合せ10/1 11/14の文字HYPHENで表現することも、いずれも正当である。そして、規格が両者の使い分けを決めていない以上、ハイフンは一意に符号化されない。同様のことが負符号、引用符などについても生じる。
「全角スペース」と通称される1区1点の文字IDEOGRAPHIC SPACE(日本語通用名称は「和字間隔」)および「半角スペース」と通称される2/0の文字SPACE(日本語通用名称は「間隔」)は、漢字集合を単独で使用する符号においても共存している。JIS X 0208においては両者がどのように異なるのかは規格に定められていなかったが、JIS X 4051「日本語文書の組版方法」において明確に規格化され2/0の文字SPACEは欧文の単語間の間隔に用いるスペース、1区1点の文字IDEOGRAPHIC SPACEは和字間隔として和字(日本語文字)の空き量を示すスペースと規定された。
歴史
一つの日本工業規格が制定、確認または改正されてから5年を経過するまでに、その規格の確認、改正または廃止の手続がとられる。制定以来4度の改正を経て、現在、第5次規格が有効である。
第1次規格
第1次規格は、通商産業大臣が1978年1月1日に制定したJIS C 6226-1978 情報交換用漢字符号系 (Code of Japanese graphic character set for information interchange) である。78JISとも呼ばれる。工業技術院の委託を受け、日本情報処理開発協会漢字符号標準化調査研究委員会が原案を作成した。委員長は森口繁一であった。
特殊文字は108文字、第2水準漢字は3,384文字であり、罫線素片が含まれなかった。したがって、漢字集合は、非漢字453文字および漢字6,349文字の合計6,802文字からなっていた。規格票は写研の石井明朝体で印刷された。
第2次規格
第2次規格は、1983年9月1日に第1次規格を改正したJIS C 6226-1983 情報交換用漢字符号系 (Code of Japanese graphic character set for information interchange) である。83JISとも呼ばれる。工業技術院の委託を受け、日本情報処理開発協会漢字符号系JIS委員会が原案を作成した。委員長は元岡達であった。
第2次規格の原案は、常用漢字表の公布、人名用漢字別表の施行、郵政省による日本語テレテックス標準化の検討などをふまえ、また、JIS C 6234-1983 ドットプリンタ用24ドット字形(現在のJIS X 9052)の原案作成と歩調を合わせて、つぎの変更がおこなわれた。
- 特殊文字の追加
- 特殊文字に39文字が追加された。39文字には、日本科学技術情報センターからの提案、JIS Z 8201-1981(数学記号)、JIS Z 8202-1982(量記号、単位記号及び化学記号)などから、合成によって表現できないとされたものが選ばれた。
- 罫線素片の新設
- 32文字からなる罫線素片が追加された。
- 異体字の区点位置の入れかえ
- 互いに異体字の関係にある第1水準漢字および第2水準漢字の22組について、区点位置が入れかえられた。たとえば、第1次規格では第1水準である36区59点の「壺」は、第2次規格では第2水準である52区68点に移され、もと52区68点であった「壷」が36区59点に移された。
- 第2水準漢字の追加
- 第1水準漢字3文字および第2水準漢字1文字は、空き領域であった84区に第2水準漢字として新たな区点位置を与えられた。もとの区点位置には、それぞれの漢字の異体字が収容された。例えば、第1次規格に含まれていなかった「尭」を第1水準に収録するために、22区38点の「堯」が84区1点に移動され、22区38点に「尭」が収容された。
- 字形の変更
- 約300文字の漢字の字形が変更された[13]。
約300文字の字形の変更のうちには、第1次規格の字体がいわゆる康熙字典体であったものを、異体字、とりわけ略字(拡張新字体)に変更したものがあった。例えば、字形が大きく変わったためによく批判の材料にされたのが、18区10点の「鴎」および38区34点の「涜」である。
いわゆる康熙字典体からその異体字への変更としては、もっと小さなものが多かった。例えば、25区84点の「鵠」である。また、第1次規格の字体が康熙字典体でなかったものを、いわゆる康熙字典体に変更したものもあった。例えば、80区49点の「靠」である。
これらは、第1次規格の設計意図を明らかにするために第4次規格で示された包摂規準によって包摂される範囲内となった。例に挙げた「鵠」および「靠」についての変更前後の字体差は、部分字体「告」についての包摂規準(連番42) の範囲内である[14]。
字形の変更の基準は第1水準漢字と第2水準漢字で違ったものになっている。具体的に言えば、略字化は第1水準漢字のほうが第2水準漢字よりも進んでおり、第1水準漢字の「溌」や「醗」は略字化されているが第2水準漢字の「撥」は略字化されていないといった違いがある。前述の「鵠」と「靠」についても「鵠」は第1水準漢字、「靠」は第2水準漢字といった違いがある。もっとも、第2水準漢字でも字形が変更されたものもあり、「戸」を含む文字や「冬」を含む文字などは第1水準漢字、第2水準漢字の違いなく変更されている。
しかしながら、先に挙げた「鴎」、「涜」など29の区点位置については、第4次規格では、第1次規格の設計意図と矛盾するものとされた。これらは、第4次規格において「過去の規格との互換性を維持するための包摂規準」を適用する区点位置になっている。
日本工業規格に分類記号「X」の情報部門が新設されたのにともなって、第2次規格は、1987年3月1日にJIS X 0208-1983に移行した。
第3次規格
第3次規格は、1990年9月1日に第2次規格を改正したJIS X 0208-1990 情報交換用漢字符号 (Code of Japanese graphic character set for information interchange) である。90JISとも呼ばれる。工業技術院の委託を受け、日本規格協会JIS X 0208情報交換用漢字符号系改正原案作成委員会が原案を作成した。委員長は田嶋一夫であった。
225文字の漢字の字体が変更され、第2水準に「凜」および「熙」の2文字が追加された。字体の変更のうちの一部および2文字の追加は、1990年3月に人名用漢字別表に追加された118文字に対応するためであった。規格票は平成明朝体で印刷された。
第4次規格
第4次規格は、1997年1月20日に第3次規格を改正したJIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7-bit and 8-bit double byte coded KANJI sets for information interchange) である。97JISとも呼ばれる。工業技術院の委託を受け、日本規格協会符号化文字集合調査研究委員会が原案を作成した。委員長は芝野耕司であった。
この改正の基本方針は、文字集合に対する変更をおこなわず、曖昧な規定を明確にし、より使いやすい規格とすることであった。文字の追加、削除または区点位置入れかえはおこなわれず、例示字体も一切変更されなかった。ただし、規格票は全面的に書き直され、補充された。第3次規格の規格票は解説を除いて65ページであったのに対して、第4次規格の規格票は解説を除いて374ページとなった。
改正の要点は以下にまとめられる。
- 符号化方式の明確化
- 第3次規格までは、JIS X 0202の符号拡張法のもとで符号化する方法のみが規定されていた。これは符号化文字集合の規格としては異例のことであった。第4次規格では、符号拡張法のためのエスケープシーケンスを使わない符号化方式が規定された。
- 空き領域の使用の原則的な禁止および空き領域の利用方法の明確化
- 第3次規格の規格票は、規格の一部ではない解説に、空き領域の一部は外字を割り当ててもよい領域であるとするような記述があった。第4次規格では、空き領域が基本的に使用禁止の領域であることが明確にされた。また、空き領域を利用するための条件が明示された。
- 重複符号化の原則的な排除
- 各文字に他の規格と整合する文字の名前が与えられた。また、ISO/IEC 646の国際基準版またはJIS X 0201と併用する符号化方式が規定された。併用にあたっては、同じ名前の文字が割り当てられた2つの符号位置のうちの一方のみが許され、重複符号化が原則的に排除されることになった。
- 漢字の典拠の調査
- 従来、『康熙字典』にも『大漢和辞典』にも見られない漢字がこの規格に含まれていることが指摘されていた。そこで、第1次規格がいかなる意図でいかなる典拠に基づきこれらの漢字を収録したのかが調査された。
- 漢字の包摂規準の明確化
- 第1次規格の原案作成のための資料などに基づいて、各区点位置が表現する字体の範囲についての第1次規格の意図の復元がこころみられた。そして、漢字の字体の包摂規準が明確に規定された。
- 事実上の標準の取り込み
- Shift_JISとISO-2022-JPがそれぞれパーソナルコンピュータと電子メールにおける符号化方式の事実上の標準となっていた。これらの符号化方式がそれぞれ、「シフト符号化表現」および「RFC 1468符号化表現」として規格に取り込まれた。
第5次規格
第5次規格は、2012年2月20日に第4次規格を改正したJIS X 0208:1997/AMENDMENT 1:2012 7ビット及び8ビットの2バイト情報交換用符号化漢字集合(追補1) 7-bit and 8-bit double byte coded KANJI sets for information interchange (Amendment 1) である。2010年11月30日の常用漢字表改定に対応して、引用例の変更、附属書6の[常]の削除、附属書12の追加がなされた。なお、JIS X 0213と異なるマッピングが記載されており、そのため、解説にてJIS X 0208規格のJIS X 0213規格への将来的な統合方針が記載された[15]。
将来
JIS X 0213(拡張漢字)は「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として」設計され、JIS X 0208の漢字集合を拡張した文字集合を規定する。JIS X 0213の原案作成者たちは、JIS X 0213の利点として、印刷標準字体への対応、新しい人名用漢字への対応などを挙げ、JIS X 0208からJIS X 0213への移行を推奨している。
JIS X 0213の原案作成者たちの期待に反して、2000年の制定以来しばらく、JIS X 0213の普及は進まなかった。JIS X 0213:2004の原案作成委員会は、2004年に「“大半の情報機器で共通に利用できるのはJIS X 0208だけ”という状態が続いている」と書いた(JIS X 0213:2000/追補1:2004解説2.9.7)。
パーソナルコンピュータ用OSとして圧倒的なシェアを有するWindowsは、2006年11月にリリースされたWindows VistaでJIS X 0213のレパートリに対応した。macOSはすでに、2001年にリリースされたバージョン10.1以降、JIS X 0213に対応しており、Linuxの多くも、JIS X 0213に対応できるようになっている。したがって、今後は、Windows Vistaおよびその後継OSの普及とともに、パーソナルコンピュータではJIS X 0213のレパートリを問題なく使用できるようになってゆくと考えられる。
JIS X 0213の原案作成者の中には、JIS X 0213の普及の先に、JIS X 0213とJIS X 0208との統合を構想する者もいるという(佐藤 2004)。
しかしながら、JIS X 0208が今後も利用され続け、規格として存続し続けることを予測させる事実も、多く挙げられる。
第1に、日本の携帯電話に採用される文字のレパートリは、現在のところJIS X 0208を基本としたものである。これをJIS X 0213に対応するものへと移行させる計画は、まったく公表されていない。
第2に、後述するように、JIS X 0213は厳密にはJIS X 0208の上位互換ではない。総合目録データベース[16]、青空文庫[17]など、JIS X 0208を採用してその包摂規準に忠実に従ってきた大規模なデータベースを、データの一貫性を保ったままJIS X 0213に対応させることは困難と考えられる。
第3に、多くのシステムが、JIS X 0208の空き領域に外字を定義して使っているという現実がある。例えば、WindowsではIBM拡張文字やユーザ定義文字用の領域、携帯電話では絵文字が割り当てられている。外字の符号位置がJIS X 0213の符号が利用する符号位置と衝突するため、これらのシステムをJIS X 0208からJIS X 0213へ移行させるのは困難である。UCS/Unicodeへ移行させて、その上でJIS X 0213のレパートリを使うことも一案であるが、システム管理者は、UCS/Unicodeのサロゲートペア(代用対)や文字合成の実装が十分に安定したと判断できるまで、それらの実装を要するJIS X 0213のレパートリの採用を躊躇するだろう。
各社の実装
以下に、各社によるJIS C 6226・JIS X 0208の実装を、社名の五十音順で列挙する。
アップル:MacJapanese
日本電気:JIPS
日立製作所:KEIS
富士通:JEF漢字コード
マイクロソフト:Microsoftコードページ932
この節の加筆が望まれています。 |
他の規格との関係
ISO/IEC 646 IRV
前記のように、漢字集合はISO/IEC 646国際基準版 (IRV) 図形文字集合の上位互換ではない。漢字集合および国際基準版図形文字集合は、JIS X 0208に規定された国際基準版・漢字用7ビット符号または国際基準版・漢字用8ビット符号によって、ともに利用できる。EUC-JPによっても、ともに利用できる。
JIS X 0201
漢字集合はJIS X 0201のラテン文字用図形文字集合に含まれる2/2「QUOTATION MARK」、2/7「APOSTROPHE」および2/13「HYPHEN-MINUS」を欠いている。漢字集合はJIS X 0201の片仮名用図形文字集合に含まれるすべての文字を含んでいる。
漢字集合およびラテン文字用図形文字集合は、JIS X 0208に規定されたラテン文字・漢字用7ビット符号またはラテン文字・漢字用8ビット符号によって、ともに利用できる。漢字集合、ラテン文字用図形文字集合およびJIS X 0201の片仮名用図形文字集合は、JIS X 0208に規定されたシフト符号化文字集合 (Shift_JIS) によって、ともに利用できる。漢字集合および片仮名用図形文字集合は、EUC-JPによって、ともに利用できる。
JIS X 0212
JIS X 0212(補助漢字)は、JIS X 0208に含まれない文字を必要とする情報交換のために、JIS X 0208の補助としての文字およびその符号を規定する。JIS X 0212は、JIS X 0208が非漢字として1区26点に収録している「〆」を漢字として16区17点に収録している。また、JIS X 0208の第2次規格が字形を変更した区点位置のうち、28区点位置の変更前の字形に相当する文字を収録している。これらのほかに、JIS X 0208と共通する文字は収録していない。
JIS X 0208およびJIS X 0212は、EUC-JPによって、ともに利用できる。また、JIS X 0208およびJIS X 0212は、UCS/UnicodeのCJK統合漢字の原規格となっているので、UCS/Unicodeを使って両規格の漢字を共存させることができる。
ただし、JIS X 0208の第4次規格には、JIS X 0212との関連について一切規定されていない。これは、JIS X 0208の第4次規格の原案作成委員会に、JIS X 0212の文字の選定方法および同定方法に批判的な意見[18]があったからと考えられる。第4次規格の規格票解説は、JIS X 0212の文字同定の問題点を指摘したうえで、「文字同定が不可能である以上、共同運用も不可能と考え、JIS X 0212との関連については、一切規定しないこととした」と述べている(解説3.3.1。引用にあたって、原文のコンマを読点に改めた)。
JIS X 0213
JIS X 0213(拡張漢字)は、JIS X 0208の漢字集合を拡張した漢字集合を規定する。規格票解説によれば、この文字集合は「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として設計された」ものである。
JIS X 0208とJIS X 0213は併用されない。JIS X 0213の漢字集合は、JIS X 0208の漢字集合で表現できるすべての文字を含む、非漢字1,183文字および漢字10,050文字の合計11,233文字からなり、JIS X 0213に規定された符号で運用される。
JIS X 0213は一見するとJIS X 0208に規定された符号化文字集合の上位互換な符号化文字集合を規定または参考として提供しているように見える。しかし厳密にはJIS X 0213はJIS X 0208の上位互換ではない。これはJIS X 0213の原案作成委員会も認めるところである(JIS X 0213:2000規格票解説5.3.2、JIS X 0213:2000/追補1:2004規格票解説3.2.2)。
JIS X 0213がJIS X 0208の上位互換でないというのは、JIS X 0213ではJIS X 0208の一部の区点位置について包摂分離がおこなわれたというところによる。すなわちJIS X 0208において明示的に包摂されて一つの区点位置で表現されていた相異なる字体に対し、JIS X 0213ではそれぞれ独立の面区点位置が与えられている場合がある。このため、JIS X 0208の符号によって符号化されたデータがJIS X 0213の符号に変換できないことがある。
例えばJIS X 0208の33区46点(僧)には、「人偏に曽」の字体、「人偏に曾(第1画および第2画は「八」)」の字体および「人偏に曾(第1画および第2画は「ソ」)」の字体が包摂されている。JIS X 0213ではこれについて包摂分離をおこない、1面33区46点に「人偏に曽」および「人偏に曾(第1画および第2画は「ソ」)」を包摂して、1面14区41点を「人偏に曾(第1画および第2画は「八」)」とした。したがってJIS X 0208の33区46点をJIS X 0213に移す際に、1面33区46点と1面14区41点のいずれに移すべきかが機械的には定められない[19]。
もっとも、現実にはJIS X 0208のm区n点とJIS X 0213の1面m区n点を一対一に対応させることがおこなわれていて、それによって大きな混乱は生じていない。大きな混乱がない理由としては、多くの書体がJIS X 0208の例示字体にならった字体を採用してきたこと、利用者の多くが包摂規準の存在を意識していないことなどが考えられる。
ISO/IEC 10646およびUnicode
JIS X 0208の漢字はISO/IEC 10646 (UCS) およびUnicodeのCJK統合漢字の当初からの原規格である。JIS X 0208のすべての漢字が、UCS/Unicodeの基本多言語面のいずれかの符号位置に対応する。
JIS X 0208の非漢字も、すべて、基本多言語面のいずれかの符号位置に対応する。ただし、一部の特殊文字について、JIS X 0208:1997で与えられた文字の名前に基づくUCS/Unicodeとの対応とは異なる対応を実装しているシステムもある。
参考文献
著者名を第1キーとし、発表年を第2キーとして配列する。
内田 富雄 (1990年). “JIS X0212(情報交換用漢字符号—補助漢字)の制定”. 標準化ジャーナル 20 (11): 6-11.
- 小形 克宏 (2006a). “JIS C 6226-1983 (83JIS) で例示字体を変更したうち、97JISで包摂とされなかったもの (PDF)”. 2007年1月29日閲覧。
- 小形 克宏 (2006b). “JIS C 6226-1983 (83JIS) 例示字体変更のうち、包摂の範囲内だったもの (PDF)”. 2007年1月29日閲覧。
佐藤 敬幸 (2004年). “JIS X 0213(7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合)の改正について”. 標準化ジャーナル 34 (4): 8-12.
芝野 耕司 (1997a). “JIS X0208(7ビット及び8ビットの2バイト情報交換用符号化漢字集合)の改正について”. 標準化ジャーナル 27 (3): 8-12.
芝野 耕司 (1997b). “JIS漢字の拡張計画”. 標準化ジャーナル 27 (7): 5-11.
芝野 耕司 (2000年). “JIS X 0213(7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合) の制定”. 標準化ジャーナル 30 (3): 3-7.
芝野 耕司 (2001年). “JIS漢字について”. 標準化と品質管理 54 (8): 44-50.
芝野 耕司(編著) (2002). 増補改訂 JIS漢字字典. 日本規格協会. ISBN 4-542-20129-5.
芝野 耕司 (2002年). “漢字・日本語処理技術の発展: 漢字コードの標準化”. 情報処理 43 (12): 1362-1367. http://www.ipsj.or.jp/katsudou/museum/paper/magazine/IPSJ-MGN431217.pdf.
田嶋 一夫 (1979年). “JIS漢字表の利用上の問題: 漢字処理システムにおける漢字のデザインと管理”. 情報管理 21 (10): 753-761.
西村 恕彦 (1978年). “漢字のJIS”. 標準化ジャーナル (171): 3-8.
野村 雅昭 (1984年). “JIS C 6226 情報交換用漢字符号系の改正”. 標準化ジャーナル 14 (3): 4-9.
安岡 孝一 (2001a). “日本における最新文字コード事情(前編)”. システム/制御/情報 45 (9): 528-535.
安岡 孝一 (2001b). “日本における最新文字コード事情(後編)”. システム/制御/情報 45 (12): 687-694.
安岡 孝一 (2006年). “JIS漢字案 (1976) とJIS C 6226-1978の異同”. 東洋学へのコンピュータ利用 第17回研究セミナー: 3-51. http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications/2006-03-24.pdf.
安岡 孝一; 安岡 素子 (2006). 文字符号の歴史: 欧米と日本編. 共立出版. ISBN 4-320-12102-3.
脚注
^ JIS X 0208は、経済産業省が2007年1月17日に公表した新JISマーク表示制度の対象となり得るJISリストに含まれていない。
^ 日本工業標準調査会:新JIS制度-新JIS制度についておよび新JISマーク制度について(METI Chubu/経済産業省中部経済産業局)
^ 国際登録簿に登録された符号表に見られるように、1997年の第4次規格の前までは区および点はそれぞれ、sectionおよびpositionと英訳されていた。英訳が変更された背景には、ISO/IEC 10646-1:1993を翻訳した規格であるJIS X 0221-1995 (UCS) において、group、plane、rowおよびcellに、それぞれ群、面、区および点という日本語訳が与えられたことが指摘できる。ただし、JIS X 0208の区および点と、UCSの区および点は、異なる概念である。
^ 文字の名前は、ラテン文字で与えられて国際的に通用するので、生物の学名になぞらえることができる。これに対して、日本語通用名称は、生物の標準和名になぞらえることができる。
^ JIS C 6225-1979(情報交換用漢字符号系のための制御文字符号)に、「合成開始」および「合成終了」の制御文字が規定されていた。JIS C 6225は1987年にJIS X 0207に移行し、1997年に廃止された。
^ 仮名文字列の本格的なソートのためには、音引き、繰り返し記号などを考慮しなければならない。日本語文字列のソートは、JIS X 4061(日本語文字列照合順番)に定められている。
^ 「半角カタカナ」とも呼ばれる.
- ^ abc名字・名前と漢字 第9回 | 大修館書店 WEB国語教室
^ 安岡 (2001a) によれば、作業もれがあったらしい。安岡は印旛郡、印旛村の「旛」(58-57) および泗水町の「泗」(61-89) が第1水準に含まれないことを指摘している。
^ 19区の30点および31点において、代表音訓順の配列が乱れている。すなわち、正しくは蛙(かえる)、馨(かおり)と配列されるべきところ、馨、蛙と配列されている。
^ このほか、「剣」は第1水準の23区85点にあり、第2水準の「釼」は金偏の漢字として78区63点にある。
^ IANAによるCharacter setsは、JIS X 0208:1997附属書1を引用することでShift_JISを定義している。
^ 野村 (1984) によれば、字形が変更されたのは、区点位置間での入れかえを含めて294文字である。芝野 (1997a) および第4次規格の規格票の解説によれば、字形が変更されたのは300文字である。
^ 包摂規準の範囲内でどのような字体を採用するかは書体設計者に任せられている。利用者の環境によって「鵠」および「靠」のいずれもいわゆる康熙字典体で表示されるかもしれないし、いずれもいわゆる康熙字典体とは異なった字体で表示されるかもしれないし、いずれか一方のみがいわゆる康熙字典体で表示されるかもしれない。
^ 『JIS X 0208:2012』解説
^ 総合目録データベースの目録情報の基準 第4版の11.1.1には、JIS X 0208の包摂規準を採用することが明示されている。宮澤彰「学術情報と漢字」『漢字と社会』(前田富祺、野村雅昭編、朝倉漢字講座4、朝倉書店、2005年)を参照すれば、包摂規準の適用が非常に厳密におこなわれていることがわかる。
^ 青空文庫の工作員マニュアルには、JIS X 0208の包摂規準を採用することが明示されている。
^ 例えば、第4次規格の原案作成委員会の委員長をつとめた芝野耕司 (1997a) は、補助漢字の選定方法は「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」、「1万字を越える水準の文字集合の検討としては、大きな問題がある」と述べている(引用するにあたって、原文のコンマを読点に改めた)。
^ これはISO/IEC 646のHYPHEN-MINUSをJIS X 0208のHYPHENまたはMINUS SIGNのいずれに移すべきかが定まらないのと同様である。
関連項目
- 日本工業規格の符号化文字集合
JIS X 0201 7ビット及び8ビットの情報交換用符号化文字集合- JIS X 0202 情報技術—文字符号の構造及び拡張法 (ISO/IEC 2022)
JIS X 0208 7ビット及び8ビットの2バイト情報交換用符号化漢字集合- JIS X 0211 符号化文字集合用制御機能 (ISO/IEC 6429)
- JIS X 0212 情報交換用漢字符号—補助漢字
JIS X 0213 7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合
JIS X 0221 国際符号化文字集合 (UCS) (ISO/IEC 10646)
- 拡張新字体
- 幽霊文字
外部リンク
- 情報処理学会情報規格調査会 (IPSJ/ITSCJ) が管理する国際登録簿
- Japanese Character Set JIS C 6226-1978
- Japanese Character Set JIS C 6226-1983
- Update Registration 87 Japanese Graphic Character Set for Information Interchange
日本工業標準調査会データベース検索 - 最新の規格票が閲覧できる。
日本規格協会データベース検索 - 最新の規格票が購入できる。- JIS X 0208と0213規格票の包摂関連項目
- Cyber Librarian - JIS基本漢字
|