<OCR用語>
- RS−232−C/アール・エス・ニイサンニ・シー
- [RS-232-C]
正式名称は,EIA−232−C。
EIA(アメリカ電子工業会)とベル研究所との間で定められたデータ端末とデータ通信装置(モデム等)との接続に関するシリアルインタフェース規格。
Interface Between Data Terminal Equipment and Data Communication Employing Serial Binary Data Interchange
(1)ITU−TS(国際電気通信連合電気通信標準化センタ)V.24−V.28,ISO−2110,JIS−X−5101において電気的仕様,コネクタピン配置,信号線規定および転送方式が規定されている。
(2)最大ケーブル長は15m程度まで
(3)最大データ転送速度は,20kbit/sまで
(4)コネクタ仕様変更でローカル・パブリック,リモート・ループバックおよび,テストモード用の接続回路を追加したEIA−232−Dを制定(1986年)。
- RS−422−A/アール・エス・ヨンニイニイ・エィ
- [RS-422-A]
EIAがRS−232−Cの拡張的位置付けとして規定したインタフェース。
(1)RS−232−Cの「ケーブル長が短い」「対雑音性能が悪い」という欠点を差動形平衡相互接続で改善したインタフェース。
(2)最大ケーブル長1.2km,最大データ転送速度10Mbit/sまで。
(3)電気的仕様はITU−TS(RS−232−Cの項参照)V.11で規定されている。
- RSA/アール・エス・エイ
- [RSA] [Rivest Shamir Adleman]
「標準電子承認システム」の方式。
リベスト,シャミール,アドレマンの3人が開発した鍵暗号方式。
- RSVP/アール・エス・ヴィ・ピィ
- [RSVP] [resource ReSerVation Protocol]
ネットワークの端から端まで,通信帯域を予約するプロトコル。
□回線上の画像や音声の乱れを抑える。音声には絶大な効果がある。
- RFC/アール・エフ・シー
- [RFC] [Request For Comment]
インターネットの研究・標準化機関であるIETFが管理する,公式な複数文書。
□文書にはTCP/IP等の規格がある。
- RO/アール・オー
- [RO] [Read Only]
読出専用。 ROM(Read Only Memory) 読出専用メモリ
- RGB出力/アール・ジー・ビィシュツリョク
- [RGB OUTPUT] [Red Green Blue OUTPUT]
カラー・イメージスキャナやカラーテレビカメラ等での,赤,緑,青の3原色に〔Red/赤,Green/緑,Blue/青〕分解した映像信号(読取データ)出力。
□3本のケーブルで(RGBを)つなぐRGB端子等。
- RTF/アール・ティ・エフ・フォーマット
- [RTF] [Rich Text Format]
文書OCRでの出力フォーマットとして多く採用される。
□マイクロソフト(株)が提唱している電子文書フォーマットで,ワードプロセッサソフトウェアのWordは,この方式により,文書フォーマットを含めた情報交換・管理を行うことができる。文書OCRは,出力形式としてRTFフォーマットをサポートするものが多くなってきている。
- IRQ/アイ・アール・キュー
- [IRQ] [Interrupt ReQuest]
割り込み要求。ハードウェアのCPUへの割り込みは周辺装置がCPUに比べて動作速度が遅いために工夫された仕組みで,CPUは周辺装置に命令を出した後周辺装置が動作の完了を通知(割り込み)して来るまで,一旦監視下から外して本来の処理に戻ることができる。また周辺装置コントローラ側からCPUに通知したい内容がある時もCPUへ割り込み信号を送ることでCPUのサービスを受けることができる。
(1) 16ビットISAバス(拡張スロット)から利用可能信号線は★以外の11本
マスタ側 装置割当 スレーブ側 装置割当 IRQ−0 ★システムタイマ 8 ★リアルタイム・クロック 1 ★キーボード(KB) 9 ソフトウェア割り込み 2 ★カスケード接続用 A (リザベーション) 3 シリアル・ポート2 B (リザベーション) 4 シリアル・ポート1 C PS/2マウス 5 パラレル・ポート2 D ★数値演算プロセッサ 6 FDコントローラ E HDコントローラ 7 パラレル・ポート1 F (リザベーション)
(2)OCR等も本体ハード内での処理でIRQやNMIを使用している。また,制御装置としてのパソコンやWS等に終了情報や異常通知を割り込み信号で伝える。
NMI(Non Maskable Interrupt)は無条件に最優先で割込みが掛かる。
バス・マスタの優先順位でもDRAMリフレッシュに次ぐもの。
- IEC/アイ・イー・シー
- [IEC] [international electrotecnical commission]
国際電気標準会議のこと。
- IETF/アイ・イー・ティ・エフ
- [IETF] [Internet Engineering Task Force]
インターネット技術の標準化組織。
□IPv6(Internet Protocol ver.6)についてのRFC(Request For Comments)等を発行。IPv6は豊富なアドレス,Plug & Playやマルチメディア対応等の改良版。
- IHV/アイ・エイチ・ヴィ
- [IHV] [Independent Hardware Vender]
独立系ハードウェア供給者。大手メーカ系列やグループに属さず,独自のコンセプトを持ち,コンピュータや通信機器関連のハードウェアを製造するメーカ。
- ISAバス/アイ・エス・エイ・バス
- [ISA bus] [Industry Standard Architecture bus]
I/Oおよびメモリへのデータバス幅が16ビット,メモリ空間が24ビットに対応したバス。アイサ・バス,ATバスともいう。PC/AT互換機のバスの仕様。ISAバス機はCPUとDMAコントローラのみがバス・マスタとなれる。
□信号線はバス幅によって異なるが概略次の様になる。
アドレスバス(1Mバイト 20本 SA0〜SA19/16Mバイト 7本追加LA17〜LA23)
データバス(16本 SD0〜SD15),アドレス制御(3本)
バスサイクル制御(10本),バス制御(6本),割込み〔IRQ〕(11本)
DMA転送(15本),電源(6本),グランド(4本)
DMA Direct Memory Access IRQ Interrupt ReQuest
- ISO/アイ・エス・オー
- [ISO] [international organization of standardization]
国際標準化機構スイス・ジュネーブに本部を置く,工業分野の規格,標準化を行う機関。(正式名の変更で頭文字の順序は合わないがISOで通している)
□アイ・エス・オー9000/ISO9000/ISO9000
国際的に決められた製造管理品質システムの管理規格。
- ISDN/アイ・エス・ディ・エヌ
- [ISDN] [Integrated Services Digital Network]
高度情報通信網。 様々な情報をインテグレートして伝送する通信網で,様々な情報とは,電話(音声),データ(コード),ファクシミリ(イメージ),ビデオテックス(映像)等で,性格の異なる情報を高速かつ大量に電送(伝送)するサービスを1本の回線に統合できる。
(1)ディジタル回線であるISDNはコンピュータネットワーク構築に適している。
(2)ITU−TS(旧CCITT)発表の統合通信網をISDN/サービス統合ディジタル通信網と呼ぶ。これは通信サービスの国際標準とみなすことができる。
(3)目的は,ユーザ網インタフェースを一元化して,高速で高品質な通信を,安価な料金で提供し将来への拡張性を保証することである。日本ではNTTが開発したINSネットがあり,国際化に適応できる様,ISDNとの整合性を検討。
(4)OCR関連では「FAX−OCR」をISDN経由で実現するシステムがある。
- ISP/アイ・エス・ピー
- [ISP] [Internet Service Provider]
インターネット網に,個人や企業がパソコン等から利用できるサービスを,提供する業者のこと。
電話回線,専用線での接続サービスがある。
- ISV/アイ・エス・ヴィ
- [ISV] [Independent Software Vendor]
「独立系ソフトウェア供給者(直訳)」で通常はコンピュータメーカ等と関係を持たず独立したソフトウェアの開発社,販売社(ソフトウェアハウス)のこと。
□IHVと共にベンチャー企業としてスタートしたところも多くユニークな製品で業界をリードするところも出てきている。
- INS/アイ・エヌ・エス
- [INS] [information network system]
英文に「高度」は無
高度情報通信網。日本のNTTがISDN対応として構築している通信回線。
(1)現在の利用例としては,テレビ会議やG4ファクシミリ等の映像/画像関連の他全国展開の企業等でのネットワークのインフラとして活用されつつある。
(2)アイ・エヌ・エス・64/INS−64
INSの内,小規模事業者や一般家庭用。伝送速度64キロビット/秒
将来,各家庭まで光ファイバーで,高速・広帯域ISDNは結ばれる。
(3)アイ・エヌ・エス・1500/INS−1500
INSの内,高速,大容量の情報伝送を必要とする大企業向けで,伝送速度は,1.5メガビット/秒。
- IMA/アイ・エム・エー
- [IMA] [Interactive Multimedia Association]
米国マルチメディア協会。関連技術の普及活動など。
- ICDAR/アイシーディエィアール
- [ICDAR] [ICDAR MEDIA OFFICE]
JEIDAのデータベースの項を参照。
JEIDAデータベース
- ITF/アイ・ティ・エフ
- [ITF] [interleaved format]
JIS−X−0502−1987 ITF(インターリーブド・フォーマット)インタリーブド2of5。Interleaved Two of Fiveの頭文字。バーコード。
(1)0〜9の数字のみ表現可能で,キャラクタ数は常に偶数個になり,バーコードの中で最も情報密度が高い。
(2)1キャラクタは5本のエレメントからなり,その構成はワイド2本と,ナローが3本となっている。NW−7(「エヌダヴリュー=7」ナロー&ワイド)参照。
- ITU/アイ・ティ・ユー
- [ITU] [International Telecommunication Union]
国際電気通信連合。ITU−TSは同連合の電気通信標準化センター
□旧CCITT(電話回線やFAX等の規格・勧告を出してきた。)
- ID/アイ・ディ
- [ID] [identify]
[同定]
広くコンピュータ用語として使用する場合、「識別子」。
OCRの場合、異なる種類の帳票が混在しても読取れる様に,帳票種類毎に付けられた文字列。
(1)数字の2桁が良く使われるが,用途や種類に応じて,3桁,2桁+2桁等の他に英字を組合わせたものもある。
(2)ほとんどフォーマット内容に差がない帳票群や,応用範囲を拡げるため,同一のフォーマットでも記入の内容により別のIDを付与したりする場合,共通の代表IDをグループIDとして設定して,フォーマットの管理や新たに,少し内容の異なるフォーマットを定義したりする際に,便利な様にすることができる。同一フォーマットのグループにつけた代表IDをグループID,また個別IDをサブIDという場合もある。(GID,SID)
帳票IDともいう。
- ID行/アイ・ディギョウ
- [ID line]
IDが存在する読取り対象行のことで,通常は最上段に設けられる。
(1)IDの読取り不良は,帳票全体の読取りを不可能にするため,通常は,帳票毎に前もって固定位置に印刷されている。ID文字には,周囲の書込み等がはみ出さない様に,特に帳票設計時には慎重さが必要である。また,斜行などでOCRやファクシミリの他イメージスキャナの視野から外れてしまわない様にするため,帳票周辺部のギリギリの位置には,設定しない様にしなければならない。
(2)テンポラリーな帳票では,ID行のIDも手書き記入で,フレシキブルな対応を実現するものもあるが,この場合は,数字2桁程度にしておくべきである。
- ID認識/アイ・ディニンシキ
- [ID recognition]
OCR機能で,帳票種類を識別するためID(固定位置に印字または手書き)の文字列を読取り,定義体の中の該当するものを,その帳票を読取るために引出す。
□帳票識別と同義。指定のID文字列位置に文字が無かったり,読み取ったIDの文字列と思われるものが,格納※された定義体のIDの中に該当するものがない場合は,対象外の帳票として,「帳票リジェクト」となる。※〜認識装置本体,上位制御装置に格納されている。認識装置上にないIDを読込んだ時は,上位の制御装置の中から探し,存在した場合はOCR/CRUにダウンロードする。
□文書OCR以外でもフォーマット・フリーで,事前の定義体登録などが無くても運用できる帳票OCRシステムも開発された。運用者を煩わさずに定義体を自動設定するものと,新規帳票ごとに半自動(マニュアルアシスト)で簡便に登録するスタイルのものが多い。文書OCRと違って,どこをどの様な字種で何桁の出力とするか等,レイアウト(文字切出)情報だけでは精度良く読取るためには情報不足となる。事前登録の定義体のあるものの方が確実なシステムといえる。
- IDフィールド/アイ・ディ・フィールド
- [ID field]
帳票ID(文字列)の存在するフィールドのこと。
(1)ID行中のID文字列部分は通常,単独の読取りフィールドとして定義される。
(2)ID行中には,他の読取り項目を設置せず,IDフィールドのみを設定している帳票例も多い。(一種類の帳票のみ処理する場合や,OCR起動時に帳票種類を選択するシステムではIDそのものが不要である。)
- IDE/アイ・ディ・イー
- [IDE] [Intelligent drive Electronics]
AT互換機で(主に内蔵ディスクに)使用されるハードディスクの接続規格。
(1)ドライブ1台当たり,最大容量が504MBまで,連続接続は2台まで。2台はマスタ・スレーブの設定をディップスイッチででき,マスタ側は起動システムを持つことができる。ドライブ内蔵型。〔Enhanced IDE(拡張IDE)は次項〕
(2)拡張IDEは,ドライブ1台当たり7.8GBまで管理可能。コネクタ2つで2系統で,(2×2)計4台をつなぐことができ,プライマリ,セカンダリと称し,通常,内蔵ハードディスクをプライマリ,CD−ROMをセカンダリに割り振る。
- IPA/アイ・ピー・エィ
- [IPA] [International Phonetic Alphabet]
国際音標文字。アルファベット。
- IPA/アイ・ピー・エィ
- [IPA] [Information-technology Promotion Agency]
通産省の特別認可法人,情報処理振興事業協会の略称。コンピュータ・ウィルス対策で有名。
- ASPI/アスピー
- [ASPI] [Advanced SCSI Programming Interface]
高度化SCSIインタフェースドライバ。代表的なアプリケーションインタフェースを持つSCSIインタフェースドライバの一つ。
スカジー・インタフェース 「エイ・エス・ピー(・アイ)」
- ISIS/アイシス
- [ISIS] [Intermediate System to Intermediate System]
主として高速スキャナ向けのスキャナドライバ,ビューワー,ファイルハンドリングのための規格。
□米国Pixel Translation社から提唱
ルータに関するOSIのネットワーク層のプロトコルの1つ。
- IDL/アイドゥル
- [IDL] [Interface Description Language]
データベースサービスシステム等に処理を依頼する際の,やりとりの方法を記述するための共通言語の一般的表現。
□アイドル/主にteenage idolを指す(崇拝)
- IEEE−488bus/アイトルピー・ヨンハチハチバス
- [IEEE-488 bus]
標準的なパラレルインタフェースの一つ。 米国ヒューレット・パッカード(HP)が計測機器用のインタフェースとして提案したものをベースにIEEEが1975年に標準規格化したもの。コンピュータと周辺機器を最大15台までディジーチェーン(次々と分岐)で接続できる。
(1)半二重双方向通信方式で,8ビット・データ幅(パラレル)インタフェース。転送は最大1MByte/sec程度,最大ケーブル長は全体で20mである。
(2)コンピュータと周辺機器を,最大15台までディジーチェーン接続が可能。
GP−IB(General Purpose Interface Bus汎用目的インタフェースバス)とも。
- アーキテクチャ
- [architecture]
元々は建物の構造や建築方法のことであるが,コンピュータではIBM社が使い始めた。通信でもネットワークの構成要素の機能やプロトコルを体系化したものを指す。
- アービトレーション
- [arbitration]
バス接続ボード間のバス専有権調整機能。バスの取合いを調整する。(仲裁)
- アイコン
- [icon]
ソフトウェアの機能を判りやすい絵で画面に表示したもの。マウスでクリック選択するだけで,それを起動したり,PCにコマンド投入することが可能。
□アイコンがファイルを表しているものもあり,ファイルのオープンやクローズ,他ファイルとの関係をTREE(ツリー)構造表示等ができるものもある。
- アウト・ソーシング
- [out-sourcing]
コンピュータシステム等で,使用する機器類を外部業者の設営したものを利用し,独自の設備や使用ソフトを購入したり作成したりせずに,必要な処理を実現する。
(1)日進月歩のコンピュータ技術への対応としては,導入した途端に陳腐化するのに業を煮やして,設備化せず,レンタルやリース利用に切り換えるユーザも多いが,ソフトも運用(処理)も全て外部委託するユーザも確実に増加している。
(2)「認識処理」を丸ごとアウトソーシングしクリーンデータを受取る,あるいはそのデータを基に受注処理等の業務を進めてしまうシステムもある。
- アウトラインフォント
- [outline font]
印刷文字の形をドットで表現するのではなく,輪郭線をベクトル表現したもの。
□拡大しても斜線が階段状にギザギザになったりしないで済む。ベクトルフォント。輪郭線の内側を塗り潰して文字線とする。
- アカウント
- [account]
パソコン通信の場合はユーザIDを指す。 課金/歩進の意味も。
□インターネットの場合はユーザID@ドメイン名。
- ACCESS(R)/アクセス
- [Access(R)]
米国マイクロソフト社の登録商標。
- アクセス・タイム
- [access time]
装置から応答があるまでの時間。ディスク等で読取りヘッドが目的の位置に到達するまでの時間。
何らかの応答を得るまでの時間。
- アクセプト
- [accept]
OCR関連では,読取り可能のことを一般に指す。
□読取り帳票を,アクセプト/リジェクト/エラーに仕分けして,確認修正作業を行う。アクセプトはコレクト(correct 〜正読)でもある。
- アクセプト・スタッカ
- [accept stacker]
OCRで,アクセプトされた帳票を収納するスタッカのこと。
(1)2スタッカ方式では,Aスタッカともいい,ソフトウェアにより収納する帳票の性格/内容を指定できる機種も多い。(他は,RまたはBスタッカともいう)
(2)ノーマル・スタッカともいう。 リジェクト・スタッカの項参照
- アクセプト・スタッカ歩進/アクセプト・スタッカホシン
- [accept stacker account]
アクセプト・スタッカに収納したOCR帳票の枚数をカウントするもの。
(1)読取り中に,ある枚数が溜まったら確認修正他の作業を行い,作業を効率化する場合等,この歩進をトリガにすることが可能な機種もある。
(2)上位システムに通知して,ブザー等を鳴らして,リジェクトや論理エラー発生と同様に知らせる機種もある。一定時間が過ぎても歩進が進まない(アクセプト・スタッカに溜まらない即ち,リジェクト帳票が多数発生)ことをトリガーにすることも可能で,記入ミス等や書式間違い等の早期発見に役立つ。
- ASCII/アスキー
- [ASCII] [American Standard Code for Information Interchange]
ANSI(米国規格協会)が制定した情報交換用標準符号のこと。アラビア数字アルファベット等が規定されている。7ビット全128文字。英字/数字,特殊記号の他,制御符号が32あるのが特徴。
アスキー・コード
- ASCII code/アスキー・コード
- [ASCII code]
ASCII(ASCIIの項参照)の文字・記号。
□日本ではこのアスキーコードを基にしたISO R646-1967を受けJIS化されたのがJIS C6220-1976でISOの7ビットのアルファベット系と7ビットのカタカナコード,またこれらを混合し,8ビット系コードの3種類で構成され,ANKコードとも呼ばれる。
図版
- アスペクト・レシオ
- [aspect ratio]
縦横比のこと。帳票やディスプレイ画面等の縦横比/高さと幅。
(1)帳票での縦横比は斜行防止等のためスキャナの制限が付くことが多い。
(2)帳票記入のしやすさにも影響する。1項目分の表現桁数が多くても,あまり横に長い帳票にすると,端で行を間違えたりして,書き辛いものになる場合も。
- アダプタ
- [adapter]
コンピュータに他の装置をつなぐ時に間に入る装置。OCRアダプタ等
□コンピュータと電話回線をつなぐ場合は,「回線アダプタ」が装置やプリント板の形で,双方をつなぐ。FAXとデータをやり取りするFAXアダプタが有名。
- アップル・コンピュータ
- [Apple computer inc.]
パソコンMacintoshで有名な米国の会社。アップルは同社の商標。
- アップルトーク
- [Apple Talk]
マッキントッシュのネットワークのプロトコル。伝送路としては,LocalTalkがあり,簡単で安価(最高230.4kビット/秒の伝送速度)。Ethernetも使える。
- アドバイス
- [advice]
(提言・忠告)「適切なアドバイス」
提言。OCRシステムでの関連者への適切なアドバイスは,システムの効果的な運用に不可欠である。システム構築,帳票設計・印刷,確認修正方法/ユーザインタフェースや起票者へのアドバイス等で予想以上の導入効果が得られる。アドバイス項目は
(1)構築するOCRシステム(最適な規模,確認修正等の要員,上位アプリへのつなぎ)
(2)使用する帳票・伝票の設計(記入のしやすさ,確認のしやすさ等も考慮したものへ)
(3)記入者へのアプローチ(記入者教育他,誤読文字のフィードバック等の方法)
- アドレス
- [address]
[住所 番地〜データ格納]
メモリ等の記憶装置のどこに,データが入っているかを示す,データ格納場所の識別番号。
- アドレス・バス
- [address bus]
アドレスを指定するために設けられたバス。
□データをやり取りするデータ・バスと区別。
- アナログ画像信号/アナログガゾウシンゴウ
- [analog image signal]
ディジタル信号での画像やその処理に対し,アナログ(連続)値での画像信号。
- アナログ画像処理/アナログガゾウショリ
- [analog image processing]
ディジタル信号での画像やその処理に対し,アナログ(連続)値での画像処理。
- アニリン
- [anirin]
コールタールから抽出された無色の液体で異臭あり。赤色染料(赤紫色)の原料。
- アパーチャ・グリル
- [Aperture Grill]
ブラウン管等の表示装置で,光源となる電子銃からの光のにじみをなくすために使われるシャドウマスクの代わりに金属性のワイヤをスダレの様に用いるもの。
□シャドウマスクに比べ透過性が良く,輝度を高く保てる。
図版
- アプリ(ケーション)・ソフト(ウェア)/アプリケーション・ソフトウェア
- [application software]
ユーザ(オリエンテッド)・プログラム。使用者が作ったプログラム。
(1)OCRでもシステムにアプリを組込めるタイプが増えつつある。
(2)OCRでの「アプリソフト」とは,関連機器(確認修正端末他)やシステムから出力されるクリーンデータを使い,具体的な処理を行うプログラム等。
(3)OCRとセットの「OCR会計処理」ソフトウェアや,文書読取OCR関連では(和文英訳/英文和訳他)翻訳ソフトウェアが,それに当たる。
- アプリケーション・プログラム・インタフェース
- [API] [Application program interface]
Windows等のOS/オペレーティングシステム上で規定され,これに従って記述されたアプリケーションプログラムは,OSが同じ場合は異機種間でもソースコードレベルで互換性がある。
APIはAmerican Phonetique Internationale国際音声学協会の略(IPA)でもある。
- アベレーション
- [aberration]
レンズの収差のこと。収差
- アミューズメント
- [amusement]
OCR導入のアミューズメントパーク
アミューズメント・パーク等でもOCRの利用が進んでいる。
〔適用業務例〕
(1)入場者管理(リピート利用促進のため,入場者情報の収集にアンケート調査等とセットで記入してもらったデータをDB化し,イベント等のDM発送等を定期的に行える様にする。),ゲーム(占いなどでの基本データの先行入力を利用して)他の催しでも活用する。入場者IDをゲートで読取り,名前での呼びかけなど。
(2)各店舗(仮設テント等からでも有効活用)からの売れ行き情報や,入場者の生の声を即座に本部へ回送するFAXメールシステムでコード化可能情報のFAX−OCR機能利用でのDB化と関連部門へのリアルタイム配付。
アンケート調査(での利用)の項 参照。
- アライナ機構/アライナキコウ
- [aligning mechanism]
斜行防止/矯正
OCRやFAX,プリンタ他で単票(一枚毎カットされた)用紙の給紙機構で,取込んだ用紙が,機構内部を真っ直ぐに進む様に用紙進路を補正し機構内部での紙詰まり(ジャム)や斜行を未然に防ぐもの。
(1)種々の幅の用紙を取扱える様に,用紙走行方向と同方向の用紙端の内のいずれか片方を走行路の壁に突き当てて,用紙の傾きを緩和する方法が一般的である。
(2)直径が少しづつ異なる鋼球を並べ,用紙の上面を紙と一緒に転がる様にしたり,円錐台状のものを複数,その錐面を紙面の上に同様に転がす等して,素早くかつ無理な力が掛かって用紙を傷めない様にしながら,真っ直ぐに進む様に補正する。
(3)手挿入タイプのFAXでは,用紙が斜行する比率が高いので,FAX−OCRを利用するには,少なくとも原稿台(ホッパ)があるものを選ぶべきである。
(4)FAXでは用紙を両側から挟込む様なホッパ・ガイドを用紙幅に合わせることで傾きやジャムの防止を図る。ホッパ・ガイドを有効に使う必要がある。
フラットベッドタイプスキャナ〜用紙が蓋を閉じた時の風圧でズレたり,用紙サイズが小さめのものは正立させ難く,傾きやすいので注意が必要。
ホッパガイド
家庭用の簡易ファクシミリではホッパがなく手挿入のものもあり斜行必定。ガイド付きファクシミリで,用紙幅に合わせて使用(アライナ機構無し)
図版
- アルゴリズム
- [algorithm (al・go・rithm)] [algorithm]
処理方式
認識処理等の方式。対象の文字字形から特徴を取出すやり方(手法)等。
(1)文字認識処理でのアルゴリズムには,パターンマッチング法(主に活字認識)と特徴抽出法(主に手書き文字認識)の2つに分けられるといわれるが,抽出した特徴を正規化した位置で,パターンマッチング的な照合をおこなっている手書き文字認識のアルゴリズムも多い。
(2)タブレットからオンライン(実時間)で文字認識する場合とOCR/CRU他のスキャナから文字のイメージを取込んで(帳票に書かれた後の文字)の認識では基本的に得られる情報の質に違いがあり,オンライン認識の方が,概して処理は容易である。なぜなら,例えば「十」の文字を,オンライン認識では二つの線として捉えることができる。しかし,OCR等では良くて4つの線に,クロス部を把握できない場合は,「T字路」が2つある「5本線の集合」に見えたりする。また,書かれた順番等も判らない。画数の多い文字で線が同一箇所に重なってもオンライン認識では本数が把握できるが,OCR等の場合は,太い線にしか見えない場合もあり,かなりのハンデといえる。(オンライン文字認識装置)
- アンケート
- [enquete] [a questionnaire (enquete)]
OCRを使ったアンケート調査
多数に同じ質問をして傾向や選択肢の比率を見る。
〔適用業務例〕
(1)大量の調査シートをOCR化しておき,結果集計処理を迅速に行うことができる。
(2)選択番号記入でも数字の読取り,選択肢ではマーク記入が多く,OCRにとって容易で,コメント欄等の書込みのみイメージ保存して,別途処理すると効率的。
(3)回答をFAX送信してもらい,FAX−OCRで自動集計する等の利用例もある。(斜行対策や天地逆,90度回転等の機能がシステム側に必要であるが。)
(4)コメント欄も,漢字等の読取りで,キーワード抽出等が利用できる。文章処理が行えれば,コメント欄の内容もコード化対象とすることができる。
(5)雑誌等の綴込みハガキで該当項目を(○印やレ点記入で選択したものを)読取ることで大量のデータの分類や集計を自動化できる。郵送後のハガキの状態によるところもあるが,かなりの部分を自動化できるのも確かである。
- アンドリスキャン
- [AND rescan]
再読取方式の一つ。二度以上読んで全ての結果が同じもののみ正解とし,残りはリジェクトとする。誤読は絶対に困るときや特にデータ量を削減したいときには有効である。
ただし,記入文字が「シ」を「ツ」と書かれたものは,「ツステム」を単語照合して,後処理でリカバーしなければならない。一文字単位で記入者の意図を反映するのは困難で,リスキャンしても「ツ」と読めるものはリジェクト化できない。
(1)エラー(誤読)の減少量よりリジェクト数が極端に増えるだけ,の場合もある。どの様な記入者を対象としているか,データ精度の要求範囲等も検討材料にしてリスキャン(再読み)モードをうまく活用すべきである。
(2)「?」で出力するとインバリッドコードとして,システム側がチェックする様なシステムもあり,リジェクトをともかく減らして,何らかの文字コードに置換えたい場合は,ORリスキャンを実施する。
(3)何回か読直し,より正しいと思えるものを選択したい場合は多数決リスキャンを実施すると良い。
(4)処理時間との兼合いもあるが運用内容に合った機能を選択することが大事である。
- ANSI/アンシー
- [ANSI] [American National Standard Institute]
米国規格協会。工業分野の規格統一や標準化作業を行う。
(1)JIS,ドイツのDIN等と同じ様に規格そのものとして使われることも。
(2)ANSIで以前,手書き文字(ASCIIコード範囲)を規定しようとしたが立ち消えに。ゼロとオーの区別ではオーに棒を刺してリンゴの様にした形が提案されていたが,6等との混同が指摘され,国際的な共通字形には発展しなかった。この他,フランス等で良く使われる『フラグワン』や『襷(たすき)掛けの7(本体は2画で「ヌ」の様な形状)』のものの許容で,国際的な共通字形はまとまらなかった。(突き抜け無しの4等は日本に馴染まない?)
- 明るさ/アカルサ
- [brightness]
輝度のこと。主に確認修正時の表示画面の明るさ。標準使用状態での基準信号入力時の白色の最大輝度をcd/m2を単位として表す。カンデラ/平方メートル。
□cd/m2はnt(ニト)とも表現される。cd/cm2はsb
- 明るさ調節/アカルサチョウセツ
- [brightness control]
輝度調整のこと。主に表示装置の画面の明るさの調整で,ブラウン管方式のものではバイアス電圧を変えて調整する。またLCD等のバックライト方式のものは照明光源の明るさを調整することになる。太陽のマーク等で表示されているのが普通で,コントラスト調整と合わせて,目の疲れない見やすい状態に合わせる。
(1)確認修正時の表示画面を見やすくし,疲労の少ない,かつ誤読の見落としも少ない作業環境を確保する。(OCRスキャナ光源の明るさを調整することは通常無い。)
(2)イメージスキャナで原稿の濃淡に合わせて調整できるものはある。(コピー並)
- 悪影響/アクエイキョウ
- [bad influences for OCR system]
OCRシステムに悪影響を及ぼす原因は多々ある。マシン性能的なもの,起票の際に人間が原因となるもの,工場他の施設を含む自然環境からの影響等である。
(1)文字の認識精度に悪影響を及ぼす最大のものは,次項2つの「悪字」である。
(A)印刷文字読取りでは,
a)インクリボンの寿命を大幅に越えての使用で,文字の他,罫線のかすれやマダラ模様が発生したり,白紙の打出しになったものは正常には読取れない。
b)静電ドラム方式でのトナーのムラや不足,転写ドラムのそのもののキズや,転写中のノイズが,紙面汚れの原因となって悪字となるもの。
c)インパクトプリンタやタイプライタ・ヘッドの活字の欠けや歪み他,特にパターンマッチングの単純重ね合わせのシンプルな方式で悪影響を及ぼす。
(B)手書き文字読取りでは
d)個人的な癖字…(数字についてはかなりの変形も許容される用になった※が)あまりの飾り文字や,個性的な,一部の人にしか判らない文字は数字<英字<カタカナ<記号<漢字<ひらがな,と難しくなる。
※ループ付の2や閉じた4等は,バリエーションとして許容範囲とするシステムが多くなってきている。
e)筆記具…………油性/水性のボールペンでの,インクの「かすれ」や「潰れ」,「汚れ」,筆圧や鉛筆の太さでの,用紙の凹み等。
f)下敷き…………滑らかな表面の机で,または下敷きを使って記入するのは良いが,その表面にキズや汚れがあると線が途切れたり歪んだりする。
(2)運用者要因としては,
(A)帳票設計/確認修正画面設計/出力フォーマット定義での不適切
g)帳票設計……………OCR化前の帳票の記入項目数に合わせようとすると,詰込み過ぎて,書き難さや確認修正のやりにくさ等に直結する。
h)確認修正画面………クリーンデータ化での時間浪費や修正ミスが発生しやすい。
i)出力フォーマット…安易に作成すると他のアプリソフトの入力として使用できない。
(B)装置メンテナンス 特にスキャナの状態が悪いと,2値化レベルがふらついて,不安定な2値画像となる。センサの一部に紙面とは無関係に,白や黒に固定の出力となる不良箇所が発生し給紙方向に白線や黒線ができたり,給紙機構が不調だとスキューやジャムが発生して帳票リジェクトになったりもする。
(3)自然環境からは,天候が最も影響する。一時的なものと,季節的なものがある。
(A)FAX−OCR等では雷(電話回線等へのノイズ)等の影響も大きい。
(B)温度・湿度・静電気は,装置・用紙ともに影響する。
天候等の他に,変電所や放送電波塔等の施設から出る高周波ノイズも電話回線に影響を及ぼし,着信イメージの劣化(ラインエラーによる脱落や重複)が起こる原因となることもある。
- 悪字/アクジ
- [bad letter] [bad letter (error letter)]
OCR読取りでの「悪字」には,次の様なものがある。
疣字/切れ字/コンニャク文字
(1)「切れ字」切れ字の項 参照
(i)印刷文字では,ストロークが途中で切れたり,末端が消失した品質低下の印字。
パターンマッチングでの認識処理では,特に末端部の消失文字は,その部分だけ切出したパターン(の幅や高さ)が小さくなるため,拡大(正規化)して辞書パターンと照合すると,誤読やリジェクトの原因となる。また,欠けを想定し辞書パターンと辺毎に合せ込んで照合する方式等がある。
パータベイション
(ii)手書き文字では,下敷きのキズ(凹み)が反映して文字線が途切れたり,盛り上がったゴミに乗上げて,文字線が乱れたりする他,ボールペン等の筆記具の不具合で文字線が途切れたり,かすれたりした文字のこと。
捨て書き
(2)「疣字」イボ字(俗表現)の項 参照
主に手書き文字で,字形の本来の構成要素以外の突起等を付けた飾り文字の一つ。
図版
癖字の中には右角を折り返して(ループに巻いて)書かれたものがあり,右肩にイボ/ヒゲが出た様な状態になる。端点が一つ増えた形になる。芯線化の過程で,カーブや角で元には無いヒゲ状の突起が出て,結果的に疣字と同じ状態になる場合も。(特徴抽出の項)
(3)蒟蒻(コンニャク)文字/irresolute(こんにゃく→devil's-tongue paste)
手書き文字での最悪パターン。ミミズののたくった様な,捕らえ所のないフニャフニャした文字のこと。直線構成の片仮名も平仮名の様に丸まってしまい区別が付かない他,筆圧も弱く書かれ,切れ字にもなりやすい。(→俗にいう「フニャ珍文字」フニャフニャして,誠(まっこと)珍なる文字)
(4)溝掘り文字/groove cutting
こんにゃく文字と反対に,紙面に強く力を入れて紙に文字を彫込む様に記入した文字。帳票を重ねて書くと,下の紙にまで凹みができて鏡面反射の原因となる。下敷きか,固くて滑らかな表面の机の上に帳票を一枚毎置いて,適切な筆記具で書くのがベスト。強く書くと,鉛筆では芯が折れたり欠けたりして汚れの原因になる。インクの滑らかに出るボールペンでの記入が望ましい。
- 厚さ/アツサ
- [thickness]
当該OCRで使用できる帳票用紙の厚さのこと。
(1)一般に,「用紙厚さ」は「四六版連量(kg)」で表示され,35から150の範囲を許容するものが多い。(→45〜135kgは,大多数の機種で可能)
(2)用紙は「厚さ(重さ)」と「腰の強さ」で使用OCRに適合したものを選択し,湿気や静電気でも起こるダブルフィードやジャム,斜行の発生を未然に防ぐ。
(3)当該OCRの搬送系の構造によって,例えば,反転部の半径の小さいもの等では分厚いものや腰の強いものは,詰まってしまう可能性があり,圧着※葉書の様なものは,往復タイプやスルータイプの機構を持つOCRを選ぶ必要がある。
※圧着紙 〜折畳んで圧力を掛けて張合わせ一枚にした紙〜 ターンアラウンドで使用され,張合せの状態のまま,あるいは広げて中央に折り目のある状態での読取りが必要になるもの。圧着葉書の項参照
用紙厚さ,用紙連量/坪量(連量は坪量の約0.86倍),給紙機構
- 圧縮/アッシュク
- [compression]
データ圧縮
画像,動画,音声等の情報の伝送や記録に際して,画像自体の冗長成分を,情報符号化の手法によって除去して,含む情報を損なうことなく(復元可能状態で)情報量を(大幅に)縮小させること。
□圧縮で情報欠損があり,また伸長でも不完全な復元となっても認識処理には直接影響しない範囲であれば圧縮率や圧縮伸長の処理時間を優先される場合もある。
□圧縮伸長でデータ欠損無しの方式も多い。
原画像→圧縮画像→伸長画像(原画像と差無し)
データ圧縮,MR圧縮,MMR圧縮,MH圧縮,MPEG
JPEG/伸長
圧縮方式等を参照
- 圧縮方式/アッシュクホウシキ
- [compression method]
「MH MR MMR」等
「圧縮」,データ(主にイメージデータ)圧縮を具体化する手段/方法。
(1)画像の伝送や記録に際し,画像自体が有している冗長成分を情報符号化の手法により除去し,情報量を大幅に縮小させる方式。データ圧縮の項に詳細。
(2)国際電信電話諮問委員会(旧CCITT)勧告のG3,G4ファクシミリにて規格化の圧縮方式もその一例。
- 圧着葉書/アッチャクハガキ
- [Pressured postal card]
糊を使わず貼合わせた葉書
封書を葉書として郵送できる様に考案されたもの。糊付けしないので開封簡単。ドライシーリングとも呼ばれる方法で接着された2つ折りの葉書。
(1)用紙を二つ折りにして,強力な圧力だけで重なり面を張合わせ,1枚の様にした葉書で,記載内容は張合わせた内側にあるものは,封書と同じ機密性が保たれる。
(2)用紙は糊付けされている訳ではないので,一度剥がすと手では二度と接着しない。
(3)OCRも,ターンアラウンド帳票として,この用紙を読取る場合の方法例。
(i)密着状態(非常に厚手の用紙と同じ状態)で読取る。
(ii)広げて中央に折り目のある状態で読取る。
(iii)片側が切り離された状態で読取る。
一般に,通常のOCR帳票よりは難しい読み取りを強いられる。
(4)OCRで良く使われる反転(半円状にカーブして折返す)機構等では,葉書が反りにくく,紙送りがうまく行かず,詰まってしまう可能性も高い。
(5)折り目のある,それも腰のある紙で,くの字に反った状態では,アライナ機構もうまく働かず,斜行などが避けられない可能性も高い。
(6)ミシン目等で切離したり,ハサミ等で切り取られた用紙の端は,直線でない場合が多く,(5)同様に斜行や,紙粉が溜まって読取り不良の原因にもつながる。
- 後処理/アトショリ
- [post processing]
一文字単位の認識処理の精度には同形文字などの限界があり,認識精度を高めるため,認識処理後に種々のチェックや辞書との単語照合等を実施すること。
(1)チェックディジットや前後の文字とのつながりの中で,「範囲チェック」等の論理チェックはOCR本体の付属機能として実施される場合が多い。
(2)単語としてのチェックは,確認修正端末(専用WSやPC他)や上位制御装置のアプリケーションソフトウェアで実施されるものが多く,住所辞書や姓名辞書,個人登録辞書等で単語のレベルで,認識処理での各文字毎の「候補文字列」等を活用して照合され,より正しいと思われる結果を引き出す。
(3)文章としてのチェックは,さらに高度な後処理で,OCR本体で実施される例は極めて少なく,コントローラ側で「構文解析」「形態素解析」等が行われる。
(4)後処理は「認識」の後の処理のことだが,同様の処理は「認識」を伴なわない場面でも実施され,「知識処理」とも呼ばれる。(→キー入力原稿にも実施)
スペルチェック
単語照合
知識処理
- 穴(閉じ穴)/アナ
- [punch hole]
処理されたOCR帳票等を束ねて保存するための穴のこと。
□帳票の使用前に,一括してパンチ穴を開けたりすると,穴の周辺部分が重なった紙同志を引掛けた状態になり,記入時に一枚毎にはがしても,穴の周辺にバリが残り,給紙機構でのジャムや斜行の原因になりやすいので,穴周辺部に凹凸がない様に平らにする等,また,OCRの機種により,パンチ穴を開ける場所に制限がある場合があり,注意が必要である。
- 穴開け/アナアケ
- [evaporation]
光ディスク等で記憶のため,円盤表面に穴を開けて情報をディジタル記憶する。
- 網点印刷/アミテンインサツ
- [screening printing]
ドロップアウト・カラーでの文字枠印刷等で濃さを制御するために,インクの点の大きさによってインクの量を調整して行う印刷。
□点の大きさは変えずに,点の数で濃さを調節する印刷方法もある。スキャナでドロップアウトするのは,あくまで波長によるもので,人間の目での見た目の濃さではないが,誤解される場合が多く人間の目にもドロップアウトする様な帳票が良く見かけられ,記入し辛いものとなっている。
- 網点写真/アミテンシャシン
- [screening photo]
凸版,オフセット印刷で濃淡を点の大きさによって表した写真。
□1インチ幅に網点が何列あるか,網点の大きさ,細かさは線数単位で決まっている。凹版の版の深浅だけで濃淡を表現する方法もある。
- 暗時出力/アンジシュツリョク
- [dark signal]
イメージ・センサへの入射光を遮断した時のイメージ・センサの出力電圧。
(1)暗時出力は,画素毎の不均一性や温度により変動し,ビデオ出力のSN比を悪化させる。特に露光量が小さく,ビデオ出力が大きく取れない時,その影響が大。
(2)暗時出力は,暗電流を定電流源と考えることができるため,蓄積時間に比例し,温度上昇に対し増加する。暗時出力のビット毎の不均一性を,暗時出力不均一性(DSNU:dark signal non-uniformity)といい,平均値を平均暗時出力(ADS:average dark signal)という。CCDセンサには,暗時出力と等価なレベルが得られる画素を持つものがあり,これを用いると暗時出力を外部回路で補償可能。
- 暗視野/アンシヤ
- [dark vision] [dark vision/dark view]
文字や記号の部分が凹んだものを,その凹み部分を光らせ,周囲を相対的に暗い状態にして読取る方式での「暗視野照明」で用いられる。
(1)金属表面にエンボスされた(刻印)文字等の読取りでは,文字部分の凹みを影として「黒」とし,周囲を照明の反射のある明るい部分として「白」として把握し通常のOCRでの2値化と同様の処理を行う「明視野」タイプのものと,刻印の凹み部分が照明光の当て方で反射して光り,周囲の平らな部分より明るい状態を作り,OCR等とはネガポジの処理イメージを得る「暗視野」タイプとがある。明暗差は金属表面の塗装の有無で,凹み部分が相対的に無塗装で明るい場合も。
(2)キャッシュカード等の様に,刻印部分が逆に裏から打出されて,浮上がっている場合,OCRの読取り対象はエンボスカードから転写された伝票の場合が多い。
(3)車のボディ番号の様な場合は,ボンネット内の上面や壁面に刻印され,照明光の当て方で,対象箇所を光らせて(他と区別が付く様にして)刻印場所(位置)の特定も含めて処理する必要があり,暗視野での,照明と高輝度部分の探索技術が重要となる。
- 案内点/アンナイテン
- [guide mark]
手書き伝票等で,文字枠内に,記入者の文字の大きさや形を規制するために枠と同じドロップアウトカラーで文字枠中央の上下に入れる点のこと。
(1)文字枠の下寄り半分に小さく文字を書く人が意外と多い。心理学的には枠の下に寄せて(上に空間を取って)書くのは安定感が得られるためと説明される。
(2)字形は良いのに大きさの都合で読取り不良となるのを防ぐため,案内点を目安に文字の大きさを確保しようとするもので,下図の様に案内点の回りを回ることで文字枠に対して十分な大きさが確保され,ひいては特徴抽出がしやすくなる。
(3)数字や英字の読取りで,この2点から周囲の枠上へクモの巣の様に疑似的な線を引いて,その線と記入された文字の線とが,交わるか否かを特徴として捕らえる初期の手書き認識方式で,基準となる2点の位置を文字枠内で明確に示すために印字される点のこと。クモの巣は,数字で7本,英字で11本など。
図版
- 案内文字/アンナイモジ
- [guide mark] [guide mark (letter)]
手書き伝票等で,文字枠内に,記入者の文字の大きさや形を規制するために枠と同じドロップアウトカラーで文字枠中央に入れるマークのこと。(下図参考)
(1)最も良く使われているのは,下図1の「8」の文字の中央を縦に割った形のもの。
「1」は中央の縦に割れた部分に上下に十分な長さで記入。
「2」は,上半分は「8」の上半分の丸みに沿って描き,たすきに沿って,右上から左下へ,また下の横線は8の下部に直線で引く。
「3」は「2」と同じく,上半分は「8」の上半分の丸みに沿って描き,右側は「8」の右側に沿い,下半分は「8」の下半分の丸みに沿って描く。
「4」は縦棒を「1」と同様に中央の縦に割れた部分に上下に十分な長さで記入,「L」字形を縦棒に絡めて,横棒が「8」のクロス部に来るように描く。
「5」は「8」の左上は逆Lを描き,下の馬蹄型部分は「8」の下部に沿う。
「6」は「8」の上部をなぞり,左側面は直線で下り,下は「8」の下部に沿い中央で閉じる。
「7」は上部に「ワ」を描き,「8」の右上から左下へ,たすき部分に直線で,降下する。
「8」は案内文字をなぞって描く。
「9」は「6」と逆に描く。上部は「8」中央のクロスから時計回りに上半分をなぞり,右上からは「7」と同様の斜線を引く。
「0」は「8」の上下の丸みをなぞり,左右は直線で上下を結ぶ様に描く。
図版
(2)現在は8の文字が記入に支障にならない様に点線で印刷したり,7や5等の角のある文字にもなじむ様に,左上を角っぽくした,また中心線を少し傾いた直線にした変形「8」の字を採用し,1や4を書きやすくしている例もある。(下図2参考)
図版
(中央縦線有)
- 鞍部点/アンブテン
- [saddle point]
多次元空間内で,(ある3つの軸で張られる3次元空間で)一つの地点で,ある断面方向では,∪字谷の底に見え,直交する他の断面方向には,∩字状の山頂に見える点を鞍部点という。
(1)数学的に不安定な点で,文字認識での特徴空間で,この様な点は∪字谷方向では安定化に向かうが,鞍部点では∩字の頂上となり一気に不安定な(入力の微妙な違い,少しのノイズで様相が全く変わってしまう)状態になる。
(2)曲線を3点近似で表示する場合も,サンプル数が少ないと,実際の曲線状態とは異なった関数で近似してしまったり,局所的な最小値に落ち込んだり,最大値に阻まれたりして,真の安定点に到達できなかったりする。
図版
- EIA/イー・アィ・エィ
- [EIA] [Electronic Industry Association]
アメリカ電子工業会。
- EISAバス/イー・アイ・エス・エィ・バス
- [EISA bus] [Extended Industry Standard bus]
32ビットCPU対応のバスで階層化回転優先方式を採る。(1988年発表)
(1)回転方式〜バス・マスタ毎の優先度は決めずに,一定時間毎に使用権を回す方式。
(2)階層化〜チャネル内でさらに回転させることで,このためにはアービタが必要となるが,優先度の高いものに優先権を与えやすくなる。
- EAN/イー・エィ・エヌ
- [EAN] [European Article Number]
「ヤン」と称される
ヨーロッパ規格/EAN-13 AN-8コード バーコード
□Japanese Article Number JANコードとは互換
- ESP/イー・エス・ピィ
- [ESP] [Energy Star Program]
米国環境保護庁が推進するパソコンと周辺機器の省電力推奨策。アイドル時の消費電力を低減しようというもの。(省エネ,不要熱排出削減)
□米国環境保護庁 EPA:Environmental Protection Agency
- EN/イー・エヌ
- [EN] [European standards]
ヨーロッパ規格
欧州規格。
- EMI/イー・エム・アイ
- [EMI] [Electromagnetic Interference]
不要輻射。機器が環境に対して不本意な電磁界を輻射すること。
□スプリアス発射(高調波の輻射),空中輻射や,電話線の他商用電源線等を通じ伝播するライン輻射がある。電磁界漏洩。
□近くにEMIを起こす機器があると,ラジオに雑音が入ったり,テレビの画像が歪んだり,色がずれたりする。
- EMSメモリ/イー・エム・エス・メモリ
- [EMS] [Expanded Memory Specification]
MS−DOSは1MBを越えるメモリ空間を管理できないため,アプリが必要な場合にはメモリの拡張が必要になる。MS−DOSが管理可能な640kBから1MBまでにページフレーム領域を設けて,その領域に1MBを越えるメモリを割り当てるメモリ。→XMSは拡張規格。EMSは3項の(2)の略の場合も。
- EMC/イー・エム・シー
- [EMC] [Electromagnetic Compatibility]
電磁気環境両立性。EMIとEMSを包含したもの。
(1)EMI(Electromagnetic Interference)不要電磁波輻射
(2)EMS(Electromagnetic Susceptibility)電磁気排除能力
- EL/イー・エル
- [EL] [Electro Luminescence]
ディスプレイ装置の一つ。電場発光※を利用したもの。
(1)電場発光 「物質が励起状態から基底状態へと遷移する際に発光するもの。」
(2)薄 膜 型 ガラス基板に有機質あるいは無機質の発光体薄膜を形成して透明電極で電圧をかける。
(3)分 散 型 有機物中に発光体を分散させたもの。一般には,ELは表示装置としてよりも液晶ディスプレイのバックライトに用いられる分散型が有名。
- EOR/イー・オー・アール
- [EOR] [Exclusive OR]
排他的論理和
二入力の例 A B → EOR (普通のOR) 0 0 0 0 1 0 1 1 0 1 1 1 1 1 0 * 1
□AとBとの値が異なるときのみONになる。
(ORの場合)
いずれか一方で成立するため2入力の場合は,0から見るとNAND
- イーサネット
- [Ethernet]
米国DEC,インテル,ゼロックスが共同開発した,コンピュータに組込んで使うバス構造のLANの伝送規格。IEEE−802.3として規格化された。
(1)伝送速度10Mbps,CSMA/CD※の回線制御方式。IEEE802.5準拠はトークンリングと呼ぶ。1本の伝送路を多数のユーザで使うため,送信要求のある端末が伝送路を監視して信号(キャリア)の有無を調べて,信号が無い時にデータ送出する方式。
※(Carrier Sense Multiple Access with Collision Detection CSMA/CD)
(2)使用ケーブルで,10BASE5,10BASE2,10BASE-Tの3種類で,ケーブル種類は,太い同軸細い同軸より対線(ツイストペア)配線の形態は,前者2つがバス型,後者がスター型である。
- ECM機能/イー・シー・エムキノウ
- [ECM] [Error Correction Mode]
ファクシミリで,送信に失敗した部分を再送信して正確な画像を送る機能。
「エラー・コレクション・モード」
(1)FAX−OCR受信画像品質確保に必須。この機能無しでは,受信できなかったライン (ファクシミリスキャナでの入力) について,それまでに受信した最後のラインをコピーする形で穴埋めする前ライン置換で画像が補填されることになり読取り対象としての画質が大幅に低下する。「8」等で中央部分が前ライン置換されると「0」に見えたりして誤読の原因となる。着信側では着信イメージだけからは,左右の広い範囲から形状変形しているものを見つけない限り発見不能で結局シート全体を再送信してもらう必要が出てくる場合もある。
(2)このとき,Kパラメータ等が効いてくる。MR圧縮他の項を参照
- ECP/イー・シー・ピー
- [ECP] [Extended Capabilities Port]
米国電気電子技術者協会が定めた,高速なデータ転送を実現するためのパラレルポート規格。(IEEE:Institute of Electrical and Electronics Engineers)
□元々はマイクロソフト社と米国HP社が提案したものでIEEE P1284のサポートする5つのモードの一つ。
- E13B font/イー・ジュウサンビー
- [E13B font]
JIS X 9002−1990 〔字形のサンプルはフォントの項に一括〕
(1)MICR文字の一つ。数字10文字0〜9と,特殊文字4種の14字種で構成。
(2)字形はコンピュータ化の象徴の様にデザインに取り込まれたりしている。
図版
- ETSI/イー・ティ・エス・アイ
- [ETSI] [European Telecommunication Standard Institute]
欧州電気通信標準化機構。『欧州電気技術標準化委員会はCENELEC』
- ETL/イー・ティ・エル
- [ETL] [Electro Technical Laboratory]
正式には通商産業省・工業技術院電子総合技術研究所(略称・電総研)
□パターン認識の研究は筑波学園都市内に施設がある。
□OCR特に手書き文字のデータベース作りに貢献。認識方式開発も盛ん。
- イー・ティ・エル文字データベース/イー・ティ・エルモジデータベース
- [ETL character DB] [ETL character database]
通商産業省・工業技術院電子総合技術研究所(略称・電総研)でまとめた文字のデータベースのこと。(Electro Technical Laboratory〜ETL)
□ETL/1〜9
N→アラビア数字(0〜9の10字種)
K→カタカナ(ア〜ンとー長音,濁点,半濁点51字種)
A→英字(大文字A〜Zの26字種)
H→ひらがな(あ〜ん51字種)
S→特殊文字(各採取時期により字種数が異なる)
収納したMT(磁気テープ)は9トラックで,大半が1600BPI記録
図版
- EDI/イー・ディ・アイ
- [EDI] [Electric DATA Interchange]
電子データ変換のこと。VANや,限られた範囲での企業間の電子データ交換も,コンピュータネットワークのインフラ整備により,伝票処理のコンピュータ化を企業内から取引系列,業界グループ,異業種間の取引にまで広げてきつつある。
(1)国際的な取引にもEDIを進めていくには,ビジネス・プロトコルの統一が必要。
(2)米国規格協会はANSI.X12を制定,ヨーロッパでもEDIFACTの国際標準化を進めている。日本でも通産省が流通業界を対象にして,1992年から調査研究を開始した。物流業界は多様な荷主と中小企業の比率の高い輸送業者が関係し,米国を筆頭に国際的な参入障壁の撤廃要求と相まって,取引の迅速化と透明化とが共に求められており,ボーダレス取引には国際EDIへの対応が必須となりつつある。
(3)(財)日本情報処理開発協会・産業情報化推進センター(CII)が,電子部品業界の標準のEIAJを拡張し,他の業界やEDIFACTと互換性のあるプロトコル(CII標準)の開発を進めている。
(4)プロトコル〜交換する情報の表現規約。
- EPSF/イー・ピィ・エス・エフ
- [EPSF] [Encapsulated PostScript File]
米Adobeシステム社が策定したグラフィックデータフォーマット。
□同社のページ記述言語PostScript。 PostScriptインタプリタの無いPC向け。
- EPP/イー・ピー・ピー
- [EPP] [Enhanced Parallel Port]
拡張パラレルポート。複数台の装置を数珠つなぎ(ディジーチェーン)にして接続できる。
双方向通信,最大8Mバイト/秒。
- E−mail/イー・メール
- [E-mail]
電子メール。パソコン通信やインターネットで文書やデータをやりとりする。イメージデータもカラーで送ることも可能になり,動画像も。
- ISO/イソ
- [ISO]
アイ・エス・オー(ISO)の項 参照(アイソとも呼ばれる)
- ISOネジ(捩)/イソネジ
- [ISO screw]
ISO規格に則ったネジで,頭部に点が刻印されて目印となっている。
- 12Fフォント/イチニィエフ
- [12F Font]
活字フォントの一つ。0〜9の10種。縦6本,横3本の基本ストロークで構成され,このストロークの有無で文字識別を行える様に設計された字形。
図版
- イエロー
- [yellow]
ドロップアウトカラーの一つ。人間の目には白地の紙面との区別が付きにくい。
(1)人間の目にも光った感じで見辛く,あまりドロップアウトカラーとしてはお勧めできない色である。(意地悪色)
(2)人間は380〜770nm程度の範囲が見える(視認可能)が,黄色は550〜590nmで緑系(500〜600nm)に分類される。
(3)「黄色で酸っぱい感じを得る」人が2割いるといわれている。
- イメージ
- [image]
OCR関連では,読取り対象の文字やマーク等を含む画像のこと。OCR機能でIDや簡単な解説を付ける対象の画像も意味する。
- イメージ(データ)圧縮/イメージアッシュク
- [image compression] [image (data) compression]
イメージ・データはコード・データに比べて容量が膨大なため,蓄積や伝送では圧縮して扱われるのが普通である。画像(静止画像)データでは,JPEG他の圧縮方式が実用化されている。
圧縮の項 参照
JPEGジェイペグの項 参照〔Joint Photographic Experts Group〕
MH/MR/MMRの項を参照(FAX他)MPEG(エムペグ)
- イメージ・エリア
- [image area]
帳票設計でのイメージフィールド。
□文字認識処理の他に,「サイン」や「印影」等のイメージとして取込むエリアで文字認識対象をイメージ・エリアとしてダブって定義しても良い。
- イメージ・オーシーアール
- [imageOCR]
文字認識処理だけでなく,帳票上の一定の範囲をイメージ入力することのできるOCRのことで,現在大半の機種がイメージ入力を可能としている。
(1)OCR機能の付加価値としてのイメージ入力手段で,二値イメージの場合が多い。
(2)漢字読取機能の無いOCRで,画面表示して,記入された漢字のイメージを見てカナ漢字変換等を行ったり,そのまま出力帳票にイメージプリントする等で利用される。多値レベル(写真等の入力)や密度変換,圧縮回転等のイメージ処理の機能を持つものも多い。
- イメージ・カット・フィールド
- [image cut field]
イメージフィールドともいう。 イメージ切出しフィールド
- イメージ・スキャナ
- [image scanner]
文書や書画を光学的・電気的に走査(スキャン)して,表面に記された文字や,絵等のイメージ情報を電気(主としてディジタル)信号に変換して出力する装置。
□「仕様」の『解像度』については,搭載しているイメージセンサの実力を正しく表しているものを見極めなければならない。
(1)最近,パソコン他でソフトウェアでの認識処理が実用レベルになってきているが,処理対象のイメージデータ入力のためのイメージスキャナを指定するものもある。
(2)OCRシステムとしての専用ハードウェアの部分が,イメージ・スキャナ部のみに特定用途向けのものを除き,将来はなってしまう可能性も,非常に高いといえる。
〜モノクロイメージスキャナ/カラーイメージスキャナ/ハンディスキャナ
ディジタルカメラの項 参照(ディジタル・カメラ)
フラットベッドスキャナ/原稿移動式/原稿固定式/光電変換装置
- イメージ・センサ
- [image sensor]
文字や絵等のイメージ情報を,一次元または,二次元の画像として検知して電気信号に変換するセンサ素子。半導体センサ(CCD等)。
(1)一次元対応では,ラインセンサとも呼ばれ,FAX等で使用される。
(2)二次元対応では,面素子やエリア・イメージ・センサと呼ばれる。印影読取り等狭い面積の画像を面で読取るもの等に使用されている。
図版
LEDアレイ光源
CCD Charge Coupled Device電荷結合素子の項参照
縮小光学系(型)/密着型
- イメージ・データ容量/イメージ・データヨウリョウ
- [Image DATA amount]
イメージ・データは効率的に圧縮しても,コード・データに比べて容量が大きい。このためシステム設計の際には,帳票等から取込むイメージ・データの量を考慮したディスク他のメモリの所要量の算定が必要である。
(1)FAX−OCRシステムでは一旦,帳票イメージ全体を取込む必要がある。圧縮(MH/MR/MMR等)されてはいるが,格納ディスクの容量は運用での受信予定枚数やピーク処理等を考慮して,余裕を持って設定しなければならない。
(2)通常のOCR運用でも,サインや印影,ポンチ絵等のイメージ・データを取込むときはメモリ所要量の算定が欠かせない。
- イメージ・バッファ
- [image buffer]
イメージ・データ(イメージ情報を量子化したデータ)を処理するため一時的に格納/記憶する装置。
〜あらゆる記憶装置がバッファとなりうる。
□サーバやPC,WS等でイメージを扱う時は,メモリ容量の増加が必要な場合も多い。画像回転や間引き/拡大等の処理をする場合にも一時記憶として,作業のための展開場所として必要になる。
- イメージ・フィールド
- [image field]
OCR帳票の中で,イメージ情報を切出してメモリ蓄積したり,コードデータとセットにして格納する対象範囲のことで,サインや押印をイメージとして取込むのに指定されるエリア。定義体で文字認識のフィールドと同様に登録される。
(1)文字認識フィールドと重なっても良い。(読取り対象をイメージとしても保存)氏名等,漢字認識するとともに,サインとしても保存したい場合等に有効。
(2)リジェクト修正でディスプレイ画面(修正画面)に,リジェクト文字イメージを貼り付けるのはシステム(修正プログラム)側で行う場合が多く,使用者が指定する必要はない。
- イメージ確認修正機能/イメージカクニンシュウセイキノウ
- [image referring correction]
読取り結果の,特に誤読チェックのためには,元の文字イメージが不可欠であり元の帳票を見ずに,またFAX−OCRの様に見ることができない場合,画面に帳票全体のイメージ,または対象フィールド,個別文字単位にイメージを読取り結果と合わせて表示して,確認する機能。文字単位のイメージ表示はほとんどのOCRで「基本機能(定義体登録がなくても動作する)」として可能である。
- イメージ切出機能/イメージキリダシキノウ
- [image cut]
OCRで帳票上の指定場所についてイメージデータとして取込む機能のこと。
(1)印影やサイン等の非コード化対象をイメージ情報として取込むため,認識対象と同様に定義体に登録しておき,認識対象データと共に格納できるものが多い。
(2)OCRでの確認修正は,特にリジェクト文字や論理エラーフィールドについてはシステム側で自動的に文字イメージを取込み,読取結果の近辺への掲出が可能な機種・システムが多い。また誤読が無いかの確認のために,フィールド単位等でイメージを出す機能を持つものも多い。「確認フィールド」等の指定で,誤読や論理エラー,リジェクトが無くても必ず,結果をチェックするため,フィールド単位のイメージを表示することができるものも多い。
- イメージ受信画像読取/イメージジュシンガゾウヨミトリ
- [received image reading]
FAXまたはイメージスキャナ等,OCRシステム以外のスキャナから取込んだ画像を転送(伝送)し,受信画像を対象に認識すること。
□ソフトOCRが普及してきた現在では,認識対象はFAX−OCRの様に回線で外部から伝送されたり,個別にイメージスキャナで新聞や雑誌の紙面から取込んだり,フロッピーディスク等に格納されたものを読み出したりして,認識する対象のイメージデータをそのOCRシステムの外部から入手するのは珍しく無くなってきた。
- イメージ処理/イメージショリ
- [image processing]
画像処理
画像に何らかの加工や処理を施して,自分の目的に合った表現や,より高い付加価値を持たせることを一般的に画像処理という。
(1)画像処理にはアナログ画像処理とディジタル画像処理があるが,ディジタル画像処理のことを,単に画像処理ということが多い。
(2)日常様々な場面で目にする画像情報に対し,その中から自分に役立つものだけをうまく拾いだし,記憶し,また必要なら,それらを思いだし,紙に描いて他人に伝える。これら画像に対して行う処理。
圧縮方式の項参照
- イメージ情報/イメージジョウホウ
- [image information]
人が視覚的に,そのまま理解できる情報,絵画や地図,図表,文字等。
(1)計算機による処理が可能なものは,何らかのコード・データに変換できるものが中心だったが,絵などで「寂しい絵」とか「楽しい絵」等の判断もコンピュータ処理される時代となり,文字やマーク以外のイメージそのものも対象となった。
(2)OCR関連では,文字イメージのコード化がもちろん中心であるが,マーク読取りで,運用者がデザインしたマークを登録できたり,罫線や見出し等の背景も切分けて読取ることができる様になった。バーコード等も読取られてコード化される前は同様にイメージ情報である。カルラ他2次元情報もイメージ情報からのコード化。
(3)また,2値化画像データ処理が中心だったが,マルチレベルのイメージデータを取込め,最適な2値化操作する等も可能に。2値データで濃淡を表すディザも。
(4)カラースキャナやカラープリンタの普及で,OCR処理も原画がカラーのものを扱う必要性が出てくると思われる。単純な2値化操作では済まなくなる。
- イメージ濃度補正/イメージノウドホセイ
- [image density correction]
入出力や使用目的によって濃度域を補正すること。
□一般的にγ(ガンマ)補正が良く用いられる。
ガンマ(γ)補正の項 参照。
- イワタ
- [IWATA font]
明朝体等の代表的なデザインフォントの一つ。他にモトヤ,秀英等。
- インクジェット・プリンタ
- [ink-jet printer]
インクを細かな粒子にして(主として荷電状態で)制御して,紙面に飛ばし文字や図形を描く印刷装置。
(1)活字をハンマーで叩いて文字を打出すインパクト型やピンで字形を打出すドットプリンタ,またゴルフボールやディジー型のヘッドを持つタイプライタ等の他にオフィスの静寂な環境確保で,利用が拡大しているノン・インパクトタイプではFAXやWPで良く使われる感熱型や,コピーマシンの様なドラム転写型の他にこのインクジェットがある。同時に4種(3原色と黒)のインクを飛ばす機能を持つタイプも製品化されている。(各色を分けて塗布するタイプが主だった。)
(2)印刷文字OCRとしては,メンテナンス状態が良いときは対象として印字方式を選ばないが,このタイプは細い管や穴からインクを飛ばす都合上,インクの目詰まりや偏向制御不良で字形が崩れたり,汚れが発生すると読取りにも影響する。
(3)ヘッド例(インク室容量を変化させる)
図版
エル・ピー(ライン・プリンタ),エル・ビー・ピー(レーザ・ビーム・プリンタ)
ドットプリンタプリンタの項を参照
- インクデータ
- [ink data]
筆順も含めた記入文字の情報のこと。
- インストール
- [install]
→システム・インストール
ハードウェアだけでは何の処理もできないため,処理するプログラムやそれが動作するプラットフォーム(OS)をシステムに入れ込むこと。
- インターネット
- [internet]
世界をカバーするコンピュータ・ネットワークのこと。
(1)技術的な面では,UNiXの通信プロトコルTCP/IPの内,IPをベースに相互接続されたネットワーク。→Transmission Control Protocol/Internet Protocol
(2)1969年に米国防総省が,国防関連の研究所や企業の研究者が相互に情報交換できる様に,ARPANETを構築した。1986年には国防関係以外の研究者にも開放されたNSFNETが運用を全米科学財団(NSF)により開始された。
(3)研究目的に限らない利用目的を制限しないネットワークも期待され,企業間のビジネスに使える商用ネットワークが,UUNETテクノロジー社により1987年にスタートして現在のインターネットのプロバイダーの先駆となった。
(4)インターネットは企業内のLAN等にも接続され,関連するコンピュータの数は4000万台を越す膨大なものになっている。コンピュータウィルス対応や企業秘密の外部への漏れを防ぐファイアウォール等を設けたイントラネットも利用が広がりつつある。コンピュータは,計算機の域から通信との融合でマルチメディアコミュニケーションメディアとして脱皮しようとしているが,インターネットはその最先端にあるといっても過言ではない。
イントラネット(企業内)
- インターネット接続会社・プロバイダ/インターネットセツゾクガイシャ・プロバイダ
- [ISP] [Internet service provider]
インターネットへの接続を提供する組織。
- インタフェース
- [interface]
ハードウェアやソフトウェアを相互に接続するための装置、ソフトウェアあるいは規約を指す。人間とコンピュータとの相互関連を指す場合もある。
●元々は,部品と部品の組合せでその間に生ずる条件や約束事のこと。
- インターリーブド
- [Interleaved]
インターリーブド2out of5
バーコードの項参照
- インダストリアル
- [Industrial]
インダストリアル2out of5
バーコードの項参照
- インタレース
- [interlace]
(飛越し走査)
テレビやモニタ等の表示装置で,水平方向の走査線を上から下へ画面を移動して管面を発光させる時に1ライン毎に飛ばして管面を一回なぞり,次に飛ばした位置のみ管面を走査(1/2分割して2回で表示)する方式。(ノン・インターレース方式)
- インテリジェント化/インテリジェントカ
- [intelligent] [intelligent// intellectual development/ enhance]
データ入力で単純な電子化だけでなく,人間が行う様な総合的な判断を採り入れ関連データの参照等を行い,データ内容に信頼性・信憑性を持たせること。
- イントラネット
- [intranet]
企業内のコンピュータネットワークのこと。
図版
- インナー・スペース・チェック
- [inner-space check]
フィールド内の文字間スペースの有無をチェックするデータチェック方式。
フィールド内チェック参照。
- インナー・ブランク・チェック
- [inner-blank check]
フィールド内の文字間スペースの有無をチェックするデータチェック方式。
フィールド内チェックの項参照。
- 異種帳票読取り/イシュチョウヒョウヨミトリ
- [mixed format document reading]
内容の異なる帳票を混在して(分別せずに),OCRやFAX等に積込み,読取処理を行わせること。異種帳票読取りとも。
(1)帳票の共通位置に帳票IDを設け,これを読取ることで帳票内容に合う定義体や処理内容を把握し,それぞれの帳票毎の処理を行う。
(2)IDにより内容の違いは把握するが,OCRやFAXのスキャナに帳票を積込む場合,同時に読込む帳票幅は同じ方が良い。もし読込み方向に幅の異なる帳票を同時に積込むと,幅の狭い帳票は幅の広い方の帳票の中で搬送中に右に寄ったり左に寄ったりして,斜行やジャムを起こし,読取不良や紙詰まり等になりやすい。
(3)取込み幅が同じなら,例えばA4帳票(ポートレート)と,その半分の大きさのA5帳票(ランドスケープ)を重ねても処理できる機種が多くなっている。
(4)FAX−OCRでは,多種類の帳票が,多数のFAXから送信される様な運用も考えられるため,受信側のシステムで帳票幅をチェックして,帳票(幅)種類毎に回線番号や処理アプリケーションを複数設ける,等で対応する必要がある。
- 異機種間接続/イキシュカンセツゾク
- [different-type machine connection]
メーカやOSの異なる機種を回線などを通じて相互に接続して使用すること。
- 遺伝子/イデンシ
染色体の中にあって遺伝をつかさどる物質。DNA
□人間の細胞の中には,それぞれ同じ遺伝子がらせん状にたたみこまれた状態で存在して広げると2mにもなるといわれる。しかし,95%は他の種と同じで,残り5%で人間および個人の特定情報となっており遺伝的体質や遺伝病等の研究がこれから更に進む。4つの塩基※の結合順で情報が表記される。食料や医療の分野では避けて通れないものに。
※Aアデニン Tチミン Cシトシン Gグアニン
- 遺伝的アルゴリズム/イデンテキアルゴリズム
- [GA] [Genetic algorithm]
生物の進化の過程における自然淘汰,染色体の交叉や,突然変移等を模して考案されたアルゴリズム。頻繁に現れる組合せの最適化問題に適した解法。
□ニューロ処理文字認識で出てくる用語。
ブロック伝播 誤差逆伝播法
- 閾値(いき値)/イキチ
- [threshold]
境界値。限界値。しきい値。抽出特徴等を有効と見るか無効とするかの境目等。
- 一枚給紙/イチマイキュウシ
- [single sheet/document feeding]
ホッパに一枚だけ帳票を置いて読込ませる場合と,帳票を積込むホッパー自体が無い簡易機種で手挿入(manual feeding)する場合とがある。
給紙機構の項参照。(一枚給紙モード,一枚毎,確実にクリーンデータ化する)
- 一文字枠/イチモジワク
独立枠。一文字毎に区切られた文字枠。分離文字等も一文字の特定が容易である。
□標準的な帳票では梯子枠(隣同士が同じ文字枠線を共有する)が多く用いられる。
〔ハ〕梯子枠 〔ヒ〕表形式枠 〔フ〕ブロック枠
- 一括修正モード/イッカツシュウセイモード
- [batch correcting mode]
一括読取りにより,データファイル等に蓄積した未修正の読取りデータを,認識処理とは別フェーズで読取り結果や対象文字イメージ等をディスプレイに表示し内容の確認や修正,データ追加等を行う。□バッチ修正(更新)モードとも。
- 一括読取モード/イッカツヨミトリモード
- [batch reading mode]
読取処理で認識結果を無修正で,一括してファイル等に出力する方法。
(1)連続読取りモードともいう。
(2)リジェクトや論理エラーが出ても,その都度,修正のために処理を中断しない。修正に必要な情報(帳票イメージ,文字切出イメージ,読取結果/候補列他)を保存し,読込終了後に確認修正追加の作業時に利用する方法も多く行われている。
(3)人間でも誤読する字形以外,誤読の極めて少ないものは,リジェクトスタッカに溜まった分,あるいは格納データで,リジェクトフラグの立ったものだけの確認修正でクリーンデータ化を行い効率化が図れる場合がある。
- 一体型/イッタイガタ
- [single body] [single body (all in one type)]
OCRで,「スキャナ(光電変換部/給紙機構)」と「認識処理部」とが一つの筐体にまとまっているもの。分離型
- 糸巻き型歪み/イトマキガタヒズミ
- [spool distortion]
入力画像が上下左右の中央部で凹む歪み。ピンクッション歪み。
- 疣字(イボ字)/イボジ
- [character with serifs]
ヒゲ(飾り)付き文字のこと。文字に余計な飾りや,文字線の書き始めや,書き終わり箇所に余分な鉤やハネを付けた癖字のこと。右角でループを作って折返す様な癖字は右肩がコブ付きの形状となる。飾り文字ともいう。
(1)オンライン認識等では誤読に繋がることも多い。
(2)OCR認識でも文字本体と比べ,あまりに「ヒゲ」部分が大きいと読取り結果に影響する。
切れ字(キレ字)の項参照
- 色/イロ
- [color/colour]
OCRでは帳票の印刷色,特に文字枠印刷のドロップアウトカラーを指す場合が多かった。「黒(=非ドロップアウトカラー)枠印刷」帳票の許容で,帳票設計での赤・橙(オレンジ/暖色)系または,青・緑(ブルー/寒色)系の2系統のドロップアウトカラーだけからと比べ,色の選択肢が増え,帳票の種類分け等が色で可能になった。また,暖色/寒色のフィルターの切替等も不要になった。
□英語ではCOLORは色を表す最も一般的な言葉。他にSHADEがあるが主に色の濃淡や明度の度合いを示す時に用いられる。またTINTはほのかな明るい色合いを示す。通常英語では「黒色」を「BLACK COLOR」とはいわず「BLACK」だけで表現。複数形は国旗や軍旗の意味になることもある。
□BLACK/WHITE BW(白黒/モノクロの表示)
□RAINBOWの7色はRED(赤),ORANGE(橙),YELLOW(黄),GREEN(緑),BLUE(青),INDIGO(藍),VIOLET(紫)
□フルカラー・プリンタでは1670万色が可能なものも出現。印刷方式で適しているのは昇華型熱転写方式と銀塩写真方式で,ディスプレイ表示したものを色も付けて再現することが可能になった。
昇華型は加熱量を調節してドット単位での階調が付けられ,CMY(シアン,マゼンダ,イエロー)の各色で256階調が可能なため約1670万色が表現できる。
- 色空間/イロクウカン
- [color space]
多くの色を視感覚と相関する様に,系統的に配列すると,地球儀の様に立体的になる。(3次元球空間)北極を白,南極を黒とすると縦軸に明度,中心軸からの距離は彩度,経度に当たる角度を色相という。
(1)あらゆる色が系統的に表される三次元の色空間を色立体という。
(2)三次元物体での実際的管理は不便なのでCIEが推奨する表色系が使用される。
(3)CIE表色系は最も基本的な表色系で,CIE1931等色関数(1931年制定)から求められる色度座標xyを直交軸にした馬蹄形が,美術の教科書等でおなじみでJISにも採用されている。(等色関数(X,Y,Z))
(4)CIEが1976年に推奨したL*a*b*表色系は,前記3刺激値XYZから求められる明度Lを高さ,aを左右,bを前後の尺度とする表色系で,色差が各々の座標の距離と同じなので変色退色等の色の管理に適している。
(5)YIQ,HLS系,または,RGB(反射率/濃度)やCMYの各色を座標軸に使用した色空間が利用されることもある。 Cシアン/Mマゼンダ/Yイエロー
(6)一般的に記録装置の色材は「CMY」系であり,表示系の色材や読取り系の入力センサの光学フィルタは通常「RGB」系であるため,異なる色空間相互間での変換,逆変換が重要になる。
(7)近年,入力機器・表示装置・出力機器の各々や相互間で,表現可能な色空間が異なる機器間で同じ色調再現を可能にする方法論である,カラー・マネジメント・システム(CMS)が注目されている。
彩度 サイド Saturation,色相 シキソウ Hue,明度 メイド Lightness,
色立体(三次元色空間),シー・アイ・イー(CIE国際照明委員会)が推奨する表色系 ,等色関数(CIE1931)〜JIS
L*a*b*表色系 変色退色の管理に適する。
YIQ,HSL系,
RGB(反射率/濃度),CMYの各色を座標軸に使用したもの
カラーマネジメントシステム(CMS)
- 色(の)恒常性/イロノコウジョウセイ
- [Color Constancy]
日常,太陽の元で見るリンゴの赤と,同じリンゴを蛍光灯の下で見た赤は同じに見え,リンゴ自体の色が変わったとは感じない。光源の都合で反射してくる波長領域が変わり視覚的にも変わっているが,元の(太陽光等の自然な光の下での)色を頭の中で再現できる。 帳票に使う色の選択。目立つ色/落ち着く色。
- 色信号/イロシンゴウ
- [color signal]
色に関する情報をもった信号の総称。
(1)例〜RGB信号(カラー・イメージ・スキャナの出力信号)
(2)ビデオ信号/RGBの輝度レベル信号とRGBの輝度を除いた色差信号で成立。
(3)色差信号を搬送用の正弦波信号に載せたものを「色信号」と呼ぶ。
- 色分解/イロブンカイ
- [color separate]
一般に,色情報はRGB等の3成分に分解されて出力されるものが多く,色成分信号を得ることを「色分解」といい,光源やフィルタ(色分解フィルタ)を切換えて,個別に得たり同時に3色を得るものなどがある。
□ カラー印刷されたり,カラーの絵画や図案等を再現するのに,カラーフィルタで複数の色を選択抽出して,多色刷り印刷の原本を作る。
- 色分解方式/イロブンカイホウシキ
- [color separation]
対象原稿の持つ分光反射分布を,特定の波長帯成分の色信号に分解し,原稿の色情報を取込む方式。
☆原稿に白色光源を当て,赤緑青の3色のフィルターを切り換えて,3回走査する3パス方式のフィルタ切り換え方式。
☆原稿に,赤色/緑色/青色のそれぞれの光源を順次当てて読み取る光源切換式。
☆カラーCCDを用いて,白色光源照射で1回の走査で読取る3色同時方式。
可視光 人間の目は400nm〜700nmのあたりの波長を感知できる。
図版
- 色補正/イロホセイ
- [color correction]
原画に忠実な色再現を行うための操作。
□写真や印刷では,シアン/マゼンダ/イエローの色の3色素を用いて,色再現を行うが,副吸収と呼ばれる不要な色を吸収する成分を,現実の色素は持つため,色が濁る等の影響を取除く「色補正」が必要となる。
→マスキング…………色分解フィルターのマスクを用いて濁り成分を相殺する。
→線型マスキング……3×3マトリクス演算を電気回路で実現(カラーコピー)
→2段マスキング……マスキング実施後に着目色のみ色補正する。
→最小自乗法的手法…マトリクス演算の係数の設定で平均誤差を最小に
- 色立体/イロリッタイ
- [color ball]
あらゆる色が系統的に表される3次元の色空間を色立体という。
西洋梨を横にした形状で教材として美術室に置いてある様な色立体は,持運びに不便なため通常はCIE国際照明委員会が推奨する表色系/冊子が使用される。
- 印影読取り/インエイヨミトリ
- [seal check]
銀行/役所
印鑑照合の意味で使うことも(印鑑照合の項参照),単なるイメージ取込みの場合もある。
□金融機関等で,登録してある印鑑と同じかチェックするために,押印イメージをスキャナ等で(赤色取込み)読取ること。読取ったイメージを,既に登録されたものと比較する際に,パターンマッチング的な手法で自動的に検証するものの他,ディスプレイに2つのイメージを表示して人間が判断するシステム等がある。
- 印鑑照合/インカンショウゴウ
- [seal check]
帳票に押印された印影をイメージで取込み,事前に登録されているものと同じか照合すること。登録時とは経年変化や印肉の付き方,押し方等で,ズレが生ずる場合が多いため,単純なパターンマッチング手法では難しい面もある。
(1)解像度が低いと,斜めに押されたものを読取ったものと,登録時の正立したものとの差が大きくなりリジェクトしやすくなる。このため入力スキャナは「朱印」を読取れ(ドロップアウトしないで)かつ,200dpi以上の,また縦横同一の解像度のものが望まれる。(傾いた画像を回転補正しても歪まない。)
(2)正しい印鑑でも,周辺部に欠け等が生じた場合は,自動で再登録する等の機能も重要である。欠け等の発生以前に押印されたものもカバーしなければならない。
(3)押印欄には(印)等の印刷を避け,押しやすく,イメージ品質を保てる様にする。
(4)ゴム印等で手書き欄に記入の代わりに押印されたものは,文字サイズから手書き文字読取りで処理される場合が多い。印鑑照合の様に特定イメージとの比較とは異なり,手書き/活字の切替がある場合も含めて,文字認識の一つである。
- 印刷活字/インサツカツジ
- [printed character]
印刷メーカであらかじめ,帳票上に印字されたものやプリンタで打たれたOCR読取り対象の印刷文字。
(1)JIS OCR−X
(a)JIS OCR−A ジィス・オーシーアール・エイの項参照
1976年制定の数字,英大文字,記号のフォント
(b)JIS OCR−B ジィス・オーシーアール・ビィの項参照
1976年改定の数字,英字,記号のフォント
(c)旧JIS OCR−B 旧ジィス・オーシーアール・ビーの項参照
(1976年に改定になる前のもので,43文字について変更があり,新旧では数字の0と英字のOが形状を交換したりし,混在は避けた方が良い。)
(d)JIS OCR−K ジィス・オーシーアール・ケィの項参照
1980年に制定されたカナフォント。
(2)数字フォント
(a)12F イチニィエフの項参照(0〜9)
(b)407 ヨンマルナナの項参照(0〜9と,─と□)
(c)E13Bイー・ジュウサンビーの項参照(0〜9と4特殊文字)
(3)英数字記号フォント
(a)CMC7シー・エム・シー・セブンの項参照(0〜9,A〜Z他)
(b)クーリエクーリエの項 参照(タイプライタ・フォント)
パイカ パイカの項 参照(タイプライタ・フォント)
(c)プレステージ・エリートプレステージ・エリートの項 参照(タイプライタ・フォント)
ボールド
- 印刷仕様/インサツシヨウ
- [printing specification for sheet form]
正常な認識処理を保証するために,対応のOCR,CRU他やソフトOCR等で必要とされる帳票設計上の印刷に対する要求仕様のこと。
□OCR機能での「文字切出」や「認識」の処理の性能を最大限に引き出せる様に当該OCRによって異なる仕様となる項目も多々ある。
(1)OCR他での指定は,1行中の最大読み取り桁数や,1枚の用紙での最大読取り行数,最大記入(文字)数が主要項目である。
(2) 参照項目(詳細規定項目〜制限次項) 〔イ〕 印字枠
印刷精度
定義体等で登録されたものとのズレを極力少なくするため
(i)基準辺の裁断誤差を抑える。
(ii)読取対象プレプリント部分(行マークや印字文字)の印刷精度を高める。〔キ〕 基準辺(端)
OCRによっては右端/左端片方で斜行補正等を行う。
行マーク
行ピッチ
行の上下間隔。文字枠高さとクリアエリアの必要幅による。〔ク〕 クリアエリア 読取対象文字を正しく切出す為に必要となる余白域 〔サ〕 最大記入数 (最大文字記入数)
最大行数 (シート内最大行数)
最大桁数 (行内最大桁数)
最大フィールド数 (行内/シート内)〔ト〕 ドロップアウトカラー (インク/枠) 〔フ〕 フィールド 〔ホ〕 補正マーク 〔モ〕 文字ピッチ 「文字間隔」
文字枠 「黒色文字枠」「黒枠」「ドロップアウトカラー枠」〔ヨ〕 読取り領域
読取り文字数
読取り行数
- 印刷文字/インサツモジ
- [printed character/font]
OCR読取対象は,当初Aフォント等,マシン読取りに都合の良い様にデザインされたものが中心だったが,類似形状を避けるためのBフォント等やKフォントも制定された。数字(0〜9アラビア数字)は一般プリンタ印字の読取りを可能にしている機種やソフトが多い。
活字,印刷活字,印刷文字の項 参照。
- 印字案内枠/インジアンナイワク
- [print guidance]
帳票上で印刷文字の印字位置の目安を示す枠のこと。
□認識処理では無くても良い(印刷はドロップアウトカラー)が,プリンタ等で,連続印刷等の時には,試し印刷で,この案内枠に納まる様に微調整することが必要。〔イ〕印字目標枠ともいう。
- 印字機構/インジキコウ
- [printing mechanism]
OCRで読取った帳票の(表面または裏面の)指定位置に,処理年月日や処理の済んだことを示す記号やマークまたは数字英字,また処理シーケンス番号等を印字する機構で,ナンバリング機構,スタンプ機構ともいう。
□帳票が読取り終了か未だかを識別し,また該当帳票を探し出すのに便利な番号等。
- 印字仕様/インジシヨウ
- [printing specification for character]
OCRで正常な読取りを保証するための読取対象の印刷での要求仕様のこと。
□近年のOCR技術の進歩は著しく,種々の規制は緩和されてきた。しかし,専用スキャナを介さない,例えばFAXからのイメージも認識対象になる等,むしろ利用場面の拡大で,画質は劣化するものも対象となるため,元の印刷がしっかりしている必要性は高まっているともいえる。またソフトOCRや低価格OCRで簡便な認識処理での対応等では,印字仕様を守った印刷物が良い精度を保てる他,ターンアラウンド利用等でのプリンタの機種選定や運用のガイドライン(リボン交換時期やトナーの補充時期)を決めるのに役立つ。
☆JIS X−9004−1983(「光学式文字認識のための印字仕様」)で規定。
(1)使用する用紙の光学特性
用紙の「不透明度」「反射率」「汚点」を規定
(2)印字した個々のOCR文字の光学的および寸法上の特性
文字線幅,COL,ボイド,スポット,PCS,コントラスト変動比を規定
(3)帳票上に印字したOCR文字の位置についての基本的仕様。
文字間余白,文字間隔,字並び誤差,クリアエリア,ドロップアウトカラーの印字案内枠(印字目標)
→プリンタ等での印字位置確認枠ではなく罫線や間仕切りの場合も
- 印字文字/インジモジ
- [printed character]
活字の項 参照。
- 印字枠/インジワク
- [print character entry frame]
認識対象となる印字文字の印字領域を示す枠のこと。
(1)印字案内枠のことで,手書き文字での文字枠と性格を異にする。
(2)プリンタ等で大量印刷する前に,ズレがないか確認するのが容易に。
- WYSIWYG/ウィジーウィグ
- [WISIWIG] [What You See Is What You Get]
What You See Is What You Getの略「見たものを手にする」の標語の頭文字。
(1)1974〜1980年にかけてゼロックス社が開発し,ワークステーションAltoに搭載したレーザプリンタの標語。従来のワイヤドットプリンタや活字プリンタによる(プリンタ機種による),特定のフォントのみのプリントアウトではなく,ディスプレイ上で見た通りのイメージや多種類の(デザイン/サイズ)フォントが混在したプリントアウトが入手可能になったことを意味する。
(2)後に,アップル社が,MacでPage Maker(DTPソフト)と,ポストスクリプト搭載のレーザプリンタをセット販売する際に使用され世界的に有名になった。
(3)現在は,形や大きさだけでなく,カラーディスプレイのハードコピーに対しても使用されている。
- WYSIWYG Editor/ウィジーウィグエディタ
- [WYSIWYG Editor] [WYSIWYG=what you see is what you get]
表示画面上に表現した文書や帳票を,そのままの形式で,プリントアウトできる機能を備えたエディタ。
□OCRシステムでの読取り結果を加筆修正したものを画面で見ている状態でプリントアウトしたり編集したりする機能。
- ウィルス
- [Virus]
ビールス
コンピュータシステムのファイルやデータを破壊する危険なプログラム,個人のプログラムやシステムに被害を及ぼす悪戯のプログラムのこと。多くは自己複製自己増殖するためウィルス/ビールスと呼ばれる。
□OCRシステムでクリーン化されたデータも,以前の様なFPDデータで閉じた範囲で使用されるだけでなく,回線を通じてコンピュータに取り込まれたりする際に,データ化け等にみまわれる危険が伴ってきている。
(1)対応するワクチンも各種作られ配付されているが,新種が出ると効かないため,本物の病原菌と同様に,いたちごっこの感がある。
(2)13日の金曜に突然,悪さを始めるもの等もあり対応策は遅れている。
(3)ディスプレイ表示の文字が次々に落下して,画面の文字が消えて行く等,愉快犯。
- Winsock/ウインソック
- [Winsock] [Windows socket]
ウインドウズネットワークでTCP/IPプロトコルを操作できる様に規定した標準的なインタフェース。(インターネットで使用される)
- Windows95/ウインドウズキュウジュウゴ
- [Windows 95]
Windows3.1の後継として米国マイクロソフト社が開発したパソコン用OS。
内部処理を32ビット化して「Windows95」として米国で1995年夏に出荷開始した。
- Windows NT/ウインドウズエヌティ
- [WindowsNT]
米国マイクロソフト社がハイエンドパソコン向けに製品化した高機能OSでNTはNew Technologyの略。32ビットのAPI(Application Program Interface)を持つ。最初のバージョンNT3.1は,米国で1992年7月に発表,1993年8月から出荷開始。ネットワーク環境での業務利用に耐える基盤作りを目指している。
- ウェーブレット変換/ウェーブレットヘンカン
- [wavelet transformation]
動画や静止画を圧縮する際に用いられる階層符号化方式の一つで,特にカラー画像圧縮に適している。
□離散コサイン変換の欠点を,基底関数を変形させることにより回避している。
〜高周波数帯域では短周期の基底を使用し,また,低周波数帯域では長周期の基底を使用して,時間に関する分解能を上げて圧縮でのノイズ要因を抑える。
JPEG,MPEG,離散コサイン変換
- Web Space/ウェッブ・スペース
- [Web Space]
米国シリコングラフィックス社が提供する、WWWブラウザに組み込み3次元グラフィックスを表示するためのヘルパーアプリケーション。
(1)3次元グラフィックスのVRMLに対応し,既に多くのプラットフォーム上で稼働し,今後の主流になると見られている。
- ウロコ
鱗
明朝体の文字は横(水平)線が細く,終点が▲のウロコで止められる。
□縦棒は太く,横線と対比をなす。
ゴシック文字
明朝体
図版
- 右端スペースチェック(ブランクチェック)/ウタンスペースチェック
- [right space check] [right space (blank) check]
フィールド内の右端の空白の有無をチェックするデータチェック方式。
ライト・ブランク(スペース)・チェックともいう。
- 薄型ディスプレイ/ウスガタディスプレイ
- [thin display]
平面型はFlat Display Panel FPD
PDPや液晶の他,ブラウン管と同原理で動作する薄型ディスプレイも製品化へ。
□OCRデータの確認修正や定義体登録等で,不可欠な装置としてディスプレイがある。省スペース化が図れる,PDPや液晶タイプが広まる中,ブラウン管と同原理で動作し,かつ薄型を実現したディスプレイがLCDと異なるタイプで試作され,高画質でありかつ,LCDに比べて面状に突起を均一に並べたりする微細加工が不要で,量産にも適しており注目されている。(開発元/キヤノン)
- 渦巻き照合法/ウズマキショウゴウホウ
- [scrollwork matching]
主に活字文字認識のパターンマッチングを用いる方式で使用される。
□センター合わせとパータベーションの両方を行える利点がある。まず,センター合わせでマッチングを取り初期値(類似度あるいは相違度)を設定。初期値が照合した辞書パターンと十分な類似性が認められないが,大きく離れたパターンでもないと判断されるときは,マッチング位置を段々と外にずらしていき,欠け等で中心位置が本来の場所よりずれてしまった様な入力パターンも最適な照合位置を見つけることができる場合がある。先ず中心(センタ)合わせでスタート。右へ出て,中心の回りの8点で照合(1〜8)する。9で中心から更に一つ外へ出る。一つ外の回りを1からと同様に移動し,繰り返す。
図版
- 運用環境/ウンヨウカンキョウ
- [environment of running]
環境の項に一括。
カンキョウ環境
キニュウ(記入)環境
- 運用効率化(改善)/ウンヨウコウリツカ
- [for better running]
認識処理技術の高度利用のためには,〔1〕記入文字の品質を左右する「記入者起票者への対応」
(1)〜(3)と〔2〕帳票設計(運用者)(4)(5)や〔3〕確認修正等の運用者がシステムに取込むべき点での改善(6)(7)の二つに大きく分けられる。
(1)「記入環境の整備」 座る/立つ? 下敷き/机 推奨文字サンプル印刷
→〔キ〕「記入環境(キニュウカンキョウ)」
(2)「筆記具の選択」…ボールペン/鉛筆/シャープ(メカニカル)ペンシル
→〔ヒ〕「筆記具/推奨筆記具(ヒッキグ/スイショウヒッキグ)」
(3)「記入者教育の実施」 特定者/記入字種選別 □
→〔キ〕「記入・起票者教育(キニュウ・キヒョウシャキョウイク)」
(4)「用紙設計での配慮」記入しやすい帳票
→〔ヨ〕「用紙設計(ヨウシセッケイ)」 記入枠/レイアウト
(5)「字種選択」 記入者の質も考慮要
→〔ヨ〕「読取対象字種(ヨミトリタイショウジシュ)」
(6)「修正・確認」(結果表示方法〜(センター運用))
→〔シ〕「修正画面(シュウセイガメン)」
(7)「リジェクト 箇所のピック アップ」……原票表示
→〔リ〕「リジェクト箇所表示(リジェクトカショヒョウジ)」
- 運用者/ウンヨウシャ
- [negotiator] [negotiator: non-operator]
OCRシステムの運用者は,起票者のレベルや記入環境から,クリーンデータの利用環境(入力データとして活用される場面)まで,幅広く,またPCの世界の広がりに合わせて,OS等にも造詣が深くないとつとまらなくなっている。
(1)様々な部門の人との協調も必要で,ある意味では調停者でもあらねばならない。
(2)単なるオペレータではデータのクリーン化要員でしかない。クリーン化データのアプリソフト(ユーザプログラム)にも気を配る必要がある。
- 運用者心得/ウンヨウシャココロエ
OCR関連の処理では,大胆でかつ細心に。
(1)ビビッても良くないが,荒っぽくても困る。見下しても,崇めても良くない。
(2)「ヨレヨレの用紙を目視で打鍵する」ことも含んだシステムの構築が重要でありFAX−OCRへの拡張を予定する場合は,最悪,帳票を手元にFAX(またはプリントアウト)出力して目視で打鍵することも含んだシステムを構築すべき。
(3)天変地異等で最悪,大昔のキー入力オンリーの状態に,一旦戻ることを余儀なくされても,データの流れや形態が変わっても,臨機応変に対応できるシステムを日頃から心掛け,データ入力が途切れることは,コンピュータシステムの血流が止まることであることを十分に承知しておかなければならない。
- 運用者心理/ウンヨウシャシンリ
「誤読0(無し)」を余りに追求しすぎないことが肝要である。
(1)「誤読ゼロ」を,どの様に実現するかを課題として,えてして解決への遠回りをしがちである。どこを割り切るかが一番大切で,人間が一番優れているパターン認識をマシンで処理する際の落とし穴にはまらない様にくれぐれも注意すること。
(2)「誤読ゼロ」でないと使用できない,と思い込まない。誤読の大半は記入者に起因する場合が多く,その記入者(起票者)を「改善」しない限り,根本的な解決は望めない。しかし,その「誤読」の内容や数量いかんによっては,運用で十分に誤読を修正することができ,データ入力の省力化,迅速化が図れる。
- 運用制限/ウンヨウセイゲン
- [restrictive applications]
もちろん,「どの様なデータでもOCR化できる」という訳ではない。
(1)『「紙」に書いてもらった後,読込む』という,OCRの処理形態を十分に有効活用できるものばかり,とは限らないのは当然である。
(2)「改ざん」等の防止が困難な場面では,一定の条件設定が必要で,それらが無理な場合は運用を制限せざるを得ない。不正の手段に使われてはならない。
- A5(サイズ)/エィ・ゴ
- [A5]
欧州で多用される用紙サイズのA系列のもので,大きさが148×210mm
(1)小型帳票として良く使われるサイズで,持運びや野外や立記入等に適した大きさ。
(2)FAX−OCRでも,A4幅で送信され,小規模な注文書等に適している。
- A3(サイズ)/エィ・サン
- [A3]
欧州で多用される用紙サイズのA系列のもので,大きさが297×420mm
(1)OCR帳票としては,ほとんど用いられないが,共同購入(生協)等で前商品を余さず表示(購入数量を下に記入)する場合など使用されることもある。
(2)FAXではほとんどの機種で「縮小」されて伝送される。FAX−OCRの帳票としては不向きなサイズ。A4/A5またはB4を勧める。
- A8(サイズ)/エィ・ハチ
- [A8]
ドキュメント・モードでの最小帳票サイズとしているメーカが多い。
○74×52mm
- Ax(A系シート)/エィ・バツ
- [Ax]
欧州で多用される用紙サイズで,A0から順次,半分の大きさにAnとなる。
寸法の変わり方はB系も同じ。
図版
- A4(サイズ)/エィ・ヨン
- [A4]
欧州で多用される用紙サイズのA系列のもので,大きさが210×297mm
(1)OCR帳票としては最も良く使われるサイズで,ポートレート/ランドスケープ共に,記入のしやすい大きさでもある。
(2)FAXでも送信方向/幅を210mm側で伝送される形でFAX−OCRの帳票として良く使われる。
A5の帳票もA4幅で伝送することを勧める。
- AI/エィ・アイ
- [AI] [Artificial Intelligence]
人工知能のこと。OCR等の「パターン認識」も人工知能の一つ。
- AIFF/エィ・アイ・エフ・エフ
- [AIFF] [Audio Interchange File Format]
マッキントッシュで使用されるWAVE FILEの形式。WAVE FILE →音声や音楽
○WindowsではWAVE形式。但しAIFF(アイフ)とWAVE(ウェーヴ)には形式互換が無いのでコンバートが必要。
- ASEM(アセム)/エィ・エス・イー・エム
- [ASEM] [Asia ]
アジア欧州会議。アジア系言語も含めた文字コード統一を図る。
- AC/エィ・シー
- [AC] [Alternating Current]
交流のこと。一般家庭には日本では交流100Vが供給されている。一定周期で電流の向きが変わる。東日本50Hz,大井川以西は60Hz等。←→直流DC
- ACD/エィ・シー・ディ
- [ACD] [Automatic Call Distributor]
自動着呼分配器のこと。Automatic Call Distributionの略のことも。
(1)複数の局線の着信呼を複数の受付台に自動的に分配するするもの。
(2)監視台のついているシステムでは,受付状況の把握や割込み,モニタリング等が可能で,航空会社や通信販売会社などでの受付業務がスムーズに行える。
(3)FAX−OCR等で複数回線と複数のCRU(認識処理装置)またはシステムを効率稼働させるのにも役立つ。
- AT/エィ・ティ
- [AT] [Alternative Type]
1984年にIBMが発表した80286を搭載したパソコン。
□IBMは1981年に初代のパソコンを8088搭載で発表した後,83年にはHD搭載のXT,84年にAT,87年にPS/2(80386搭載)と続く。
- ATM/エィ・ティ・エム
- [ATM] [Adobe Type Manager]
米国アドビ・システムズ社が開発したアウトラインフォント管理ソフトのこと。
□ATMでフォント自体を指すことが多い。(MPEG等の呼称と同じ)
- ATM/エィ・ティ・エム
- [ATM] [Asynchronous Transfer Mode]
非同期転送モードの略。「同期モード」はSTM(Synchronous)
(1)情報を固定長のセルと呼ばれる単位で転送する方式,ハードウェアで交換処理を行うため,150Mbps以上の高速通信を実現できる。現在の200〜1000倍に。
(2)大容量処理が必須のマルチメディアネットワークの実現には不可欠とされる交換技術で,今後の情報通信ネットワークを支えるもの。
- ATM/エイ・ティ・エム
- [ATM] [Automated (Automatic) Teller's Machine]
自動預金機「現金自動預け払い機」(郵便局では貯金,銀行他では預金)
(1)最近は非同期通信の略で有名になったがATMだが,OCR関連では金融機関の自動預金機の略の方が申込書等を読込むイメージOCR等と連携して使われる。
(2)ATMは英語の辞書では,この意味での掲載が多い。
- ATM専用線/エイ・ティ・エム・センヨウセン
NTTがサービスするATM向け専用線。
- AT bus/エィ・ティ・バス
- [AT bus]
IBMのパソコン“IBM PC”の後継“IBM PC AT”およびその互換機の共通バス仕様。
□1981〜PC,1983〜PC XT,1984〜PC AT,1987〜PS/2
□AT〜ALTERNATE TYPE?
- エィ・ティ互換(AT互換機)/エィ・ティゴカン
米国IBM社が開発したPC/ATというパソコンと同じ様に設計されていて,それ用のソフトウェアを特別な修正無しに動かす事のできるパソコン。
- ATV/エィ・ティ・ヴィ
- [ATV] [Advanced Television]
米国版次世代テレビジョン。有効走査線1080本。 2:1インタレース方式
MPEG2の圧縮。 HDTVは走査線1125本。
- ATT/エィ・ティ・ティ
- [AT&T] [American Telephone and Telegram Corporation]
米国電信電話会社。(旧)日本電信電話公社〜NTT
- ADF/エィ・ディ・エフ
- [ADF] [Auto (matic) Document Feeder]
自動給紙機構のこと。
□一枚ずつ手挿入しなくても,複数枚の帳票の端を揃えて帳票幅にガイドを合わせホッパに積んで置くだけで,一番上または下から用紙を一枚づつ引出す機構。
- ADPCM/エィ・ディ・ピー・シー・エム
- [ADPCM] [Adaptive Differential Pulse Code Modulation]
適応型差動パルスコードモジュレーション。アナログ音声波形をディジタル化する手法で,隣合うデータの差分を用いて変換する。波形の振幅差に応じて変換。
16ビットのサンプルを4ビットに圧縮する。(サウンドファイル圧縮技術)
- AVI/エィ・ヴィ・アイ
- [AVI] [Audio Visual Interleaving]
米国マイクロソフト社が開発した動画ファイルフォーマット。
- HTML/エイチ・ティ・エム・エル
- [html] [Hyper Text Markup Language]
インターネットを支えるデータ形式,WWWブラウザが解釈するマルチメディア対応のテキスト形式。HTMLエディタでHTML文章を作成。
- HTTP/エイチ・ティ・ティ・ピー
- [http] [Hyper Text Transfer Protocol]
WWWブラウザがWWWサーバからデータを読出すときの通信手法。
- HDTV/エイチ・ディ・ティ・ヴィ
- [HDTV] [High Definition TV]
高品位テレヴィジョン。ハイヴィジョン。走査線1125本,音声はPCM変調。
ATVより進んでいる?
- SI/エス・アイ
- [SI] [system integration]
システム・インテグレーションの略。
- SE/エス・イー
- [SE] [System engineer/Software Engineer/service engineer]
システムを開発する技術者/ソフトウェアを開発する技術者。
サービスエンジニア/セールスエンジニアの略の場合もある。
- SQL/エス・キュー・エル
- [SQL] [Structured Query Language]
IBM社のリレーショナルデータベース/RDBの問い合わせ用言語として開発され(SEQUEL)た。現在は,国際的な規格となっておりPCから汎用大型機までデータベースへのアクセス言語の業界標準となっている。
- SQLサーバ/エス・キュー・エル・サーバ
- [SQL server]
WindowsNT上で動作するRDBのサーバ。
- SCAM/エス・シー・エイ・エム
- [SCAM] [SCSI Configurated Automatically]
SCSIアドレスの自動設定。プラグアンドプレイ(PnP)の実現へ一歩前進。
エス・キャム
- SCSI/エス・シー・エス・アイ
- [SCSI] [small computer system interface]
スモール・コンピュータ・システム・インタフェース(通称・スカジー)のこと。
(1)米国のフロッピーディスクメーカのシュガート社が,開発したSASI(Shugart Associates System Interface)規格をベースにして,ANSIが標準インタフェースとして採用した規格で,ハードディスク以外の各種デバイス☆もIDによって区別し接続できる。(1996年6月)
(2)ディジーチェーンで最大7台接続可能。
(3)データ転送速度は,非同期モードで1.5MB/S,同期モードで5MB/S。
(4)SCSI−2が1990年に上位規格として制定され,バスタイミングを高速化したFastSCSIや,バス幅を16/32ビットに拡張したWideSCSIが盛り込まれている。
ASPI/アスピーの項参照。米国Adaptec社が提唱するSCSIホストアダプタインタフェースの代表的なもの。実質的な業界標準に。SCSI(スカジーと読む)の項参照
☆ハードディスクの他に,CD−ROM,MO,イメージスキャナ,プリンタ等のSCSIデバイスを接続することができる。
- SGML/エス・ジー・エム・エル
- [SGML] [Standard generalized Markup Language]
汎用マークアップ言語規約の略。ISO9979-1986 JIS X4151-1992
□国際標準の固有システムに依存しない文書の論理構造を示すための言語。
□テキストを識別し,テキスト構造の異なる部分を識別して,記述できる様にするための規約である。CALS文書の国際標準となっている。これに従えば,構造単位の処理,アクセスが可能になる。CALS(Commerce At Light Speed)」
- STN/エス・ティ・エヌ
- [STN] [super twisted nematic]
電圧をかけたときのネジレ角の大きいタイプの液晶ディスプレイの方式。
(1)STN液晶は構造が簡単で製造コストが安い。〔単純マトリクス型〕
(2)画素数に限界があり解像度を上げにくい,コントラスト比が低い,残像が多い,斜めからの視認性が悪い。これらの欠点を改善したものがTFT型である。
- SPC法/エス・ピー・シーホウ
- [SPC] [Selective Processing Conversion Method]
二値化画像の拡大縮小での画像劣化を防ぐ手段。
□SPC 化合物半導体素子の品質保証でも出てくる略語
- SVR4/エス・ヴィ・アール・フォー
- [SVR4] [System V Release 4]
1989年にUNIXの統合改良版として製品化されたもの。分裂状態だったUNIX陣営もWindowsNTと対抗するため再度OSFに参集している。
- NIS/エヌ・アイ・エス
- [NIS] [Network Information Service]
米国サンソフト社が開発した分散処理ソフト。名前サーバ・ソフト
□パスワードやグループのファイルに記述したユーザ情報やネットワーク情報を,ネットワーク上で集中管理するソフト。NFS
- NESA/エヌ・イー・エス・エィ・バス
- [NESA] [New Extended Standard Architecture]
PC−9800用に32ビット対応で開発されたバス仕様。
- NFS/エヌ・エフ・エス
- [NFS] [Network File System]
米国サンソフト社が開発したUNIXの(業界標準)分散ファイルシステム。
□ネットワーク接続で遠隔地の周辺機(OCRも)やファイルをあたかも自分のシステムにあるのと同じ感覚で使える様にしたソフトウェア。プロトコル。
- NCSA/エヌ・シィ・エス・エィ
- [NCSA] [National Center for Supercomputing Applications]
米国のスパコン応用研究センター。MOSAICモザイク(WWWブラウザ)を開発して有名に。
- NCC/エヌ・シィ・シィ
- [NCC] [New Common Carrier]
通信の自由化で参入した「新規民間通信業者」のこと。
□NTT以外の新規通信業者を指す。日本テレコム/DDI/TTNet保有する鉄道線路沿いに光ファイバー網を張り巡らすものなど。
- NTFS/エヌ・ティ・エフ・エス
- [NTFS] [New Technology File System]
Windows NTで使用できるファイルシステムの一つ。
(1)高信頼性と高性能の両立を目指したもの。
(2)ファイルアクセス発生毎にログを取ったり,ディスク起動時には事前チェックしアクセスできる対象を指定した制御リストを持ち,セキュリティも管理している。
(3)複数セクタをまとめたクラスタと呼ばれる単位でディスク管理を行う。
(4)システム情報のファイルの内で最も重要なものはMFT(master file table)と呼ばれる。
- NW−7/エヌ・ダヴュリュ・セブン
- [NW-7] [Narrow and Wide 7]
0〜9の数字と,特殊記号6種(−,$,:,/,;,+)を表すことができ,スタート/ストップキャラクタには,「a,b,c,d」を用いるバーコード。
□1キャラクタは4本のバーと3本のスペースで構成され,その内,2本または,3本がワイドである。(JIS X 0503-1994)。
- nDRチェック/エヌ・ディアール・チェック
- [n DR check]
チェックディジットを用いたデータチェック方式の一つ。
nは通常7か9。7または9で割った余りをチェックディジットとする。
チェックディジットチェックで一括詳解。
- nDSRチェック/エヌ・ディエスアール・チェック
- [n DSR check]
チェックディジットを用いたデータチェック方式の一つ。
nは通常7か9。7または9で割った余りを,割った数から引いた数をチェックディジットとする。A÷7=B余りCのとき,7−Cがチェックディジットに。
チェックディジットチェックで一括詳解。
- NuBus/エヌ・ユー・バス
- [NuBus]
マッキントッシュの32ビットCPUに対応した1987年発表のバス。
□バスマスタ使用権は分散固定方式。自動コンフィギュレーション機能がある。
- n位正解率/エヌイセイカイリツ
- [top n choices correct rate]
文字認識結果のn位までの候補の中に正解が含まれる比率。
(1)漢字ではカテゴリ数の少ない英数字の様に,認識結果/答が出るかリジェクトと判定されるかとは異なり,「類似度」や「相違度」等の数値比較で候補を絞り込み,上位を候補列として出力するものが多い。活字の認識でも,同様の出力が多い。
(2)例えば漢字の「工」とカナの「エ」等の同形文字の区別では,前後の文字並びで(単語として)正解が決まる文字が多く,認識処理として候補列を出すに止め,「後処理」で正解選択する形態が多い。同形文字の場合,「工,エ,I」の順に候補出力しても,単語処理(後処理)等で「エンドユーザ」で2位の「エ」が,また,「工場」で1位の「工」が選ばれても,『認識処理』としては「正解」。
(関連語)累積分類率/認識率
- F/エフ
- [F]
fine(細い)firm(しっかりした)feminine(細やかな)
・鉛筆の硬さの一つ。HBとHの間とされる。firm(しっかりした)の意味のとき。
・鉛筆の芯の太さの表記。fineは細いの意味で使われる。英語の辞典では,ほとんどこの意味であるとしている。いずれにしても,OCR帳票記入には向いている。
☆OCR帳票への記入では,あまり硬いH(〜6H)は「薄い」ので勧められない。また,あまり濃い(柔らかい)B(〜6B)も汚れ等が出やすいので勧められず結局,HBかFというあたりが無難な硬さ/濃さということになる。
H→HARD B→BLACK HB→HARD&BLACK F→Fine
- FAQ/エフ・エイ・キュー
- [FAQ] [Frequently Asked (answered) Questions]
誰もが一度は聞く様な,良くある質問に対する回答集。インターネット上で良く使われる。OCR関連でも導入時や帳票設計,運用等でFAQを用意したい。
〔参考〕今回の用語解説の大幅改版(第3版相当)は,OCR関連システムのFAQの参照事項として重要と思われる単語を大幅に追加して掲載した。単なるOCR用語集ではない。PCシステムの関連用語とイメージスキャナ(▼で表示)を特に追加した。略称等は似て非なるものも参考に掲載した。他の分野でも良く使われるものは,直接OCRとは関係がなくとも掲載した。良く尋ねられるの意味と,(良く聞かれるので)良く答える,の両方の意味。
- FCC/エフ・シー・シー
- [FCC] [Federal Communication Commission]
連邦通信委員会(米国) 電波行政の政府機関。米国市場において漏洩電波の規制に適合していることを示すFCC−A,FCC−Bの二つのクラスがあり商業的環境において使用される機器に適用されるAより,住宅環境での使用機器に適用されるBの方が許容値は厳しく,認定サイトでの測定と,当局への申請と認定ID番号の取得が必要である。ドイツではFTZ(電気通信技術局)。
- FEAL/エフ・イー・エィ・エル
- [FEAL] [Fast data Encipherment Algorithm]
NTTが開発した鍵暗号方式。
- FED/エフ・イー・ディ
- [FED] [Field Emission Display]
ブラウン管と同じ発光原理のため,「未来のブラウン管」と呼ばれているもの。
(1)ブラウン管の様に,一つの電子銃から発射した電子のビームを磁界を変化させて左右に振って蛍光板を発光させる代わり,平面上に並べた多数の微細な素子を電子銃として使用する。直進した電子ビームを直ぐ前の蛍光板に当ててるため薄型化が可能で,素子一つがブラウン管1本に相当し,解像度を容易に上げられる。
(2)電子ビームを振る必要がないので,2〜4mmの薄さのディスプレイが可能に。
(3)解像度を上げやすい他,特長としては,消費電力が少なく,斜めの位置から見ても液晶の様な見にくさがないこと,カラー化しても色ズレがしないこと等。
(4)低コスト化が今後の鍵だが,OCRシステムの確認修正端末用のディスプレイとしても製品化が待たれる。ユーザインタフェースの向上
- FM/エフ・エム
- [FM] [frequency modulation]
周波数変調方式。ラジオ等の地上波の変調方式の一つ。雑音などに強い。
□AM(エイエム) (Field Marshal陸軍元帥の略としても使用される。)
- FEAL/エフ・イー・エィ・エル
- [FEAL] [Fast data Encipherment Algorithm]
NTTが開発した鍵暗号方式。
- FMEA/エフ・エム・イー・エィ
- [FMEA] [Failure Mode and Effect Analysis]
設計での潜在故障がシステムに及ぼす影響の解析で,定性的な手法。
- FTA/エフ・ティ・エィ
- [FTA] [Fault Tree Analysis]
システム全体の特定欠陥事象の発生要因の遡及解析で定性的あるいは定量的な手法。
「遡及 (そきゅう) 過去のある時点までさかのぼること。」
- FTZ/エフ・ティ・ゼット
- [FTZ] [Fernmeldetechnisches Zentralamt]
ドイツ版の電波漏洩規制。米国のFCCに相当。
- FTP/エフ・ティ・ピー
- [FTP] [File Transfer Protocol]
LANやインターネットで使用されるファイル転送手法。FTPサーバ等。
- FPDI/エフ・ピィ・ディ・アイ
- [FPDI] [Flat Panel Display Interface committee]
平面型表示装置インタフェース協議会。
- MR圧縮/エム・アールアッシュク
- [Modified Read]
ITU−SU勧告(T.4)のG3ファクシミリで,オプションとして規格化されている圧縮伸長方式。(モディファイド・リード)
(1)直前の走査線の情報を利用する二次元逐次符号化方式の一種。表参照
図版
(2)MH方式の1.2〜3.5倍の高圧縮率が得られる。
(3)ランレングス(Run Length)方式における水平走査の白/黒または黒/白のラン開始画素を「変化画素」と呼び,各変化画素を直前の変化画素からの距離,または直前の走査線上の近傍の変化画素から距離を用いて符号化する。
☆走査線誤りがあると,符号化に誤りが生ずるので,誤りの波及を抑えるために,Kパラメータが設定され,標準解像度の時はK=2,高解像度のときはK=4でKライン毎に一次元符号化し,残りの(K一1)ラインを二次元符号化する。
- MICR/エム・アイ・シー・アール
- [MICR] [Magnetic Ink Character Reader]
磁気インク文字読取装置装置。磁性を帯びたインクで印刷された文字を読取る装置で,偽造・改ざんの防止等を目的として使用される。
- MICR文字/エム・アイ・シー・アールモジ
- [MICR character]
MICR文字。磁気インク文字認識装置用文字で,E13B,CMC7の2種のフォントがある。磁性物質を含んだインクで印刷され,磁気インク文字とも。
読取装置では普通の取扱による汚染は読取りに影響なく,改ざんに対しても強い。
E13B
CMC7
- ME/エム・イー
- [ME] [Micro-Electronics]
マイクロエレクトロニクス。IC等の小型電子機器で構成されるシステム。
- ME/エム・イー
- [ME] [Medical Electronics]
IC以前から使用されてきた
メディカル・エレクトロニクス。医用の電子機器,システムのこと。
- MH圧縮/エム・エイチアッシュク
- [Modified Huffman]
ITU−TS勧告(T.4)のG3ファクシミリで規格化されている圧縮伸長方式。モディファイド・ハフマン方式。
□白又は黒の連続長を符号化するランレングス方式の一つであり,一次元符号化方式に属する。例に示すものの場合,3,3,8,4,2の白/黒の連続長が符号化される。白ラン,黒ランで別個に符号が決められている。
図版
(1)ランレングスは短い(値の小さい)ものの出現頻度が高いので特に黒ランは値の小さい出現確率の高い部分に短い符号を割当てている。
(2)対象により異なるが,1/5〜1/20の圧縮率が得られる。
〜引用文献はMR圧縮と同じ
ITU−TS/国際電気通信連合電気通信標準化センター
ランレングス(RL/Run Length)=連続長
- MS−DOS/エム・エス・ドス
- [MS-DOS] [Microsoft-Disc Operating System]
米国マイクロソフト社がIBM社パソコン(IBM PC)用に開発したシングルユーザシングルタスクのオペレーティングシステム(OS)。 注)IBM PC−DOSはV7.0
(1)元々インテルの16ビット系CPUに向けて作られたが,386等の32ビットCPUでも引き続き使用されている。90年にはMS−DOS ROM版の提供も始まり,機器組込み型としても利用されてきている。現在はMS−DOSR 6.2/Vで日本語を入力したり表示したりする機能を,パソコン本体に組込まずにソフトウェア処理できる。
(2)MS−DOSの問題点は,(1)コマンドをタイピングする操作が親しみ難い。(2)メモリが640kバイトまでしか使えない。等でメモリの拡張としてEMS(拡張メモリ方式)が広く使われるが決定的なものではない。
- MNP/エム・エヌ・ピー
- [MNP] [Microcom Network Protocol]
米国マイクロコム社がモデム間の高信頼性通信を実現するために提案した,誤り再送のプロトコルで,現在一般的なモデムのプロトコルとなっている。
□データ圧縮機能 〜MNPクラス5等。
- MMR圧縮/エム・エム・アールアッシュク
- [Modified MR]
ITU−TS勧告(T.6)のG3ファクシミリで規格化されている,圧縮伸長方式。モディファイドMR方式。
□MR圧縮でのKパラメータをを無限大※とした,即ち一頁にわたり,逐次二次元処理する方式で,MRよりさらに高い圧縮率を得る。K=∽が可能になったのは通信に起因するエラーのリカバリーが完備されたことによる。
※MR方式におけるKパラメータ→2次元処理する走査線数をK=∞に
- MO/エム・オー
- [MO] [Magneto Optical]
Magneticの略の場合も
光磁気ディスク(装置)。データの書込みには,磁気と光を,読出しには,光を利用する。レーザ光でデータの書込み(光磁気効果),読出しを行う記憶装置。
○イメージデータ等の大容量記憶として,OCR読取対象の一時格納等に有効。
(1)MO表面の磁性膜の磁性体は,ある温度(キュリー温度)以上になると,磁性をなくす(弱まる)性質を利用し,レーザ光でキュリー温度に瞬時に上げることと,レーザ光の特性で1ミクロン程度の小さなスポットに絞り込むことができるのを利用して,磁石を近づけ,スポットの磁極を反転させることで,書き込みを行う。
(2)読出しは,書き込み時よりエネルギーの少ないレーザ光を照射し,その反射光でデータを読み出す。磁極の向きにより,反射光の回転角が微妙に変化する性質を利用する。(カー,Keer効果)片方の反射光を検知する機構があれば良い。
(3)非接触読取りで耐久性はMOで優れ,ISO準拠の互換性も高い。
(4)MOは1MB程度のFPDの約90〜450倍の容量がある。またDVD等の競合があるものの,大容量デバイスの本命である。640MB製品等もある。3.5in版では230MBが普及している。トラックの本数を増やしたり外周部のセクタを短くしたり,スポットの両端に書込む(マークエッジ)等で大容量化を目指す。5.25inでは1.3Gバイトも。
図版
(5)FD(フロッピーディスク)は,容量と処理速度に難点。携帯性は良。
(6)HD(ハードディスク)は携帯性と互換性に難はあるが,書込みの処理速度では,いったん全面の消去(磁極を一定方向に揃えること)をしてから書込み,さらにはベリファイ(再読込みしてデータを確認)までするMOに比べ,上書きする形のため速い。
磁気ディスク装置(HDD/HD)
フロッピーディスク(FD/FDD,FPD)
・マークエッジ方式
・ZCAV(Zoned Constant Angular Velocity)方式
・「帝人」方式
- MCAバス/エム・シィ・エィ・バス
- [MCA bus] [micro channel]
1987年発表の外部バス。
詳細は外部バス仕様に。
- MTF/エム・ティー・エフ
- [MTF] [Modulation Transfer Function]
JIS Z 8120。
正弦波チャート像のコントラストの変化を空間周波数の関数として表したもの。
(1)MTFは元々,人間の視覚の空間周波数特性を表すために導入された光学情報の伝達関数であるが,スキャナやイメージ入力のシステムにおいては,ボケ具合を定量化するために用いられる。ボケは空間周波数の高いものほどMTFが小さい。
(2)MTFの定義(本来)
Lmax−Lmin パターンの MTF = 最大輝度 Lmax Lmax+Lmin 最小輝度 Lmin
(3)センサのMTF
Vmax−Vmin センサ・セル間の MTF = 最大出力電圧 Vmax Vmax+Vmin 最小出力電圧 Vmin
- MTBF/エム・ティ・ビー・エフ
- [MTBF] [Mean Time Before Failure/Between Failures]
故障発生までの平均時間。故障と故障の間の平均時間。連続で正常稼働する平均時間。この値が大きいほど,安定なマシン(システム)といえる。
□この値により保守契約を「スポット」か,定期的なものにするかを判断する。
- MPC/エム・ピー・シー
- [MPC] [Multimedia Personal Computer]
マルチメディア対応のパソコンの規格。現在MPC3まで策定されている。
- MPEG/エム・ペグ
- [MPEG] [Moving Picture Experts Group]
JIS Z 8120。 圧縮符号化方式の略称として使用されている。本来はカラー動画用圧縮技術の標準化を行う組織のこと。
(1)MPEGの符号化方式は,MPEG1,同2,同4の3タイプに分けて標準化が進められている。
(MPEG3は同2に吸収された)
(2)MPEG1は,転送速度が1.5Mbit/s程度で,既にISO/IECの国際標準となっている。符号化アルゴリズムは,3種類のフレームを使った動き補償予測/DCT(離散コサイン変換)方式である。
(3)MPEG2は,転送速度が4〜60Mbit/s程度で現行テレビ放送から次世代テレビ放送並の高画質を圧縮できる規格(MPEG1の上位バージョン)で,今後主流となる方式。
(4)MPEG4は,転送速度が数kbit/sを対象にした映像符号化方式である。主に移動通信での利用を想定したもので,標準化へ向けた審議が進んでいる。
- LED/エル・イー・ディ
- [LED] [light emitting diode]
発光ダイオード,電流によって光を出す半導体/Light Emitting Diodeの頭文字
□通常,緑や赤を出す。電子回路上に取りつけて状態表示用に使用したり,多数を規則的に並べて文字や図の形を点灯させる表示装置などに利用される。
- LEDアレイ光源/エル・イー・ディ・アレイコウゲン
- [LED array solid-state light]
LEDを一次元に並べて,その上にロッドレンズ※を配置した光源。
(1)ロッドレンズとは円柱状のレンズで,光源からの光は短距離で効率良く集光される。レンズの両側に反射板を置いた構造をしている。
(2)光源は色違いのLEDで発光色を変えたり,短焦点の密着イメージセンサと組み合わせて薄型で長寿命のイメージ入力装置が作れる。
図版
- LAN/エル・エイ・エヌ
- [LAN] [Local Area Network]
→ラン/ワン
ローカル・エリア・ネットワークの頭文字で「ラン」と呼ばれる。
□事務所や建屋内,同一事業所内に張られたネットワーク(回線)。
イーサネットの項参照。
WAN(ワン)Wide Area Network(広域ネットワーク)と接続され拡張される。
- LSI/エル・エス・アイ
- [LSI] [Large Scale Integrated circuit]
高集積度ICのこと。
- LCD/エル・シー・ディ
- [LCD] [Liquid Crystal Display]
液晶表示装置のこと。
- LD/エル・ディ
- [LD] [laser disk]
レーザディスク。 MDミニディスク/CDコンパクトデスク
- LDAP/エル・ディ・エィ・ピー
- [LDAP] [Lightweight Directory Access Protocol]
ネットワーク資源へのアクセスを一貫性を維持して管理が可能なディレクトリ間接続標準で,DAP/Directory Access Protocolのサブセットである。
(1)TCP/IP上で稼働し,インターネット上のユーザは異機種プラットフォーム上の資源にシームレスなアクセスが可能になる。
(2)ベンダー40社が1996年4月にサポートを表明した。(ネットスケープ)
- LBA/エル・ビー・エィ
- [LBA] [Logical Block Addressing]
「論理ブロックアドレッシング」
ディスクは従来規格のものは,シリンダ,ヘッド,セクタの3つの値でアクセス位置を指定してした(IDE規格)が,拡張版ではディスクの全てのセクターに通し番号をふって,その値だけでどこにアクセスするかを指定する。
- LP/エル・ピー
- [LP] [Line Printer]
ライン・プリンタ 本文中での「プリンタ」
ラインプリンタの略称。印刷文字読取対象のフォントの印刷が可能なプリンタ。
- LBP/エル・ビー・ピー
- [LBP] [Laser Beam Printer]
レーザ・ビーム・プリンタ
レーザ・ビーム・プリンタの略称。☆帳票印刷・黒枠帳票・自社内作成で有用。
□レーザ光でドラムにトナー(粒状インク)定着させて用紙に転写して印刷する。
- XMS/エックス・エム・エス
- [XMS] [eXtended Memory Specification]
MS−DOSは1MBを越えるメモリ空間を管理できない。そのためアプリがより多くのメモリを必要とするときにメモリ空間を拡張するための規格。
□MS−DOSとアプリの間でメモリを割り当てる管理ソフト等。
- EISAバス/エイサバス
- [EISA Bus] [Extend Industry Standard Bus]
階層化回転優先方式のバス。アドレス24/32,データ8/16/32(ビット),最大バスクロックは約8MHz。AT互換機連合のEISAバスはISAバスと互換性がある。(IBM社はMCAバスを採用。)
- エクストラネット
- [Extranet]
企業内のネットをイントラネットというのに対して,企業間での接続をこう呼ぶ。
□エクストラネットで企業間のオンライン取引を行うところが増え,産業界全体を包括するような大規模ネットの構築が実験段階となった。〔イ〕イントラネット
- EOR/XOR/エクスクルーシブ・オア
- [EOR/XOR] [Exclusive OR]
排他的論理和。EOR XORと表記。(認識特徴の選択等でANDで積み重ねるか組み合わせなどで利用される。)
- ECOマーク/エコマーク
- [ECO]
地球環境に優しい製品や企業活動。エコロジー。
□OCRも帳票用紙の再生紙の利用促進で地球環境保護に貢献すべき。
□白さを深追いせずとも可能なOCRシステム。NGO活動でも白度70運動等。
- エディション・アップ
- [Edition Up]
主にソフトウェアで新機能追加等によりレベルを上げること。
□OCRでは読取「辞書」等のグレードアップ(読取精度向上や対象範囲の拡大)で程度の大きい場合,エディションを上げて変更する。通常,エディション/バージョン/レベル(E/V/L)の段階があり,バージョンアップより大規模
- エニアック
- [ENIAC]
世界初の真空管式のコンピュータ。素子は,リレー トランジスタ,IC,LSIと変遷
- EBCDIC code/エビスディック・コード
- [EBCDIC code]
[エビシディックとも]
IBM社が定めた数値コード。4ビットで0〜9を表す。
(1)下表の左側を使用し,0〜Fの16種類を表示できる。
(2)カナ入りの日本語対応は次の様になっている。この時,4は“F4”となる。
図版
- エラー
- [error]
誤読
読取り結果が,記入者意図やプリント時点でのカテゴリと異なる結果を出したり論理的なチェックに引っ掛かった場合,「エラー」と称する。
- エラー・スタッカ
- [error stacker]
正常読取りされなかった帳票が積まれていくスタッカ。
□誤読は本来,一文字単位の認識段階では判明しない。OCRとしては正解として出力(リジェクトを除き)している。エラースタッカは,論理チェックや,その他のチェックでエラーになったものや,いわゆるリジェクト帳票が積まれていき,誤記入による論理チェックエラーとなった帳票が積まれても,誤読の文字がある帳票が積まれていく訳ではない。一文字単位では,読取り結果かリジェクトのみ。
アクセプト・スタッカリジェクト・スタッカ
- エラー対策/エラータイサク
- [measure for error reading] [(counter) measure for error reading]
OCRに誤読は付きものと思われ勝ちだが,誤読発生防止の対策は色々ある。
□別項「環境」で,OCRの起票からクリーンデータ化までの間で取り得る対策を列挙しているので参考にして,実運用での誤読の発生を未然に防いでいただきたい。
- エラー統計/エラートウケイ
- [statistics of error reading]
統計には,定量的な把握のためのものと,定性的な把握のためのものとがある。
(1)定量的な統計は,起票者の属する集団毎あるいは個人単位で月毎やデータ単位のリジェクトやエラー比率を継続してとる。その推移から,改善策の検討や特殊な要件(帳票が変わったとか,集団の構成が大幅に変わったとか)によるものへの対策を検討し改善する。
(2)定性的な統計としては,利用のOCRシステムが,どの様な文字を誤読しやすいか誤読やリジェクトの文字イメージを保存し,その傾向を確認して,起票者個人へフィードバックするとともに,システム(運用)側での対応やOCRシステムの改善項目もピックアップして,運用者,メーカ共々の具体的な改善資料とする。
- エラー・フィールド
- [error field]
論理エラー等が発生したフィールドのこと。システムが自動的に把握できるのはこの範囲である。
一文字単位の誤読は抽出できない(正解として出力している)。
□確認修正段階で,人間が個別の文字単位に見つけた誤読の存在するフィールドを指すこともある。
システム側でコントロールできる場合は表示色を変える等する。
- エラー率/エラーリツ
- [error rate] [error rate/substitution]
誤読率
測定対象の文字の中で,記入者意図に反し,違うカテゴリを出力した文字の比率。また,印刷文字では,印字した文字と異なるカテゴリを出力したものの比率。
(1)いずれもOCRは正解として,あるいは一番最もらしいと判断して出力したものの,誤読となった比率である。誤読の可能性を判断した場合は「リジェクト」に。
(2)当該OCRシステムの読取範囲内の文字に該当するものがないと判断した場合は「リジェクト(棄却)」となり,誤読率の対象にはならない。
(3)漢字カナは同形文字や類似文字が多く,一文字単位での認識結果は候補文字列で出力されることが多く,何位までに正解が入っているかを「n位正解率」で表し,「誤読率」という扱いは普通はしない。
(4)論理チェック等でリジェクト化されたものを含めて,リジェクトとなった文字の数は除外する。正読文字/棄却(リジェクト)文字/誤読文字の三種類となる。
(5)評価基準となるが,同じシステムでも,どの様なデータを読込ませるかによって当然「正読率/棄却率/誤読率」は変わるので,相対比較は同じデータ(印字や記入の内容が同一で,同じ量の帳票)で比較しないと意味が全くない。
- エレメント
- [element]
バーコードの1本の黒バーまたは白バーのことをいう。
- エンティティ
- [entity]
一般用語では,実体とか実在物等の意味で使われるが,構造化分析法/設計法で用いられる場合は,テーブル類や各種ファイルのデータを指す。
□オブジェクト指向
- エンド・ユーザ
- [end user]
→JAPLISH?
システムから一番遠い存在の利用者を一般に指し,OCR(と,関連機器)では,筆記者(起票者)がエンド・ユーザといえ,その存在が大きい。運用者と意識のズレ(ギャップ)が大きいと,システム全体がうまく機能しないことになる。
□FAX−OCR等では従来FAX間で注文票等を授受していたものをセンター側だけシステム(コンピュータ)化され,特に発注者側には,帳票の変更程度しか見かけ上は無い場合があるため自動化に対応し切れないエンドユーザも考慮したシステム作りが重要になる。エンド・ユーザ向けの協力要請やシステム案内等をすることもシステムの効率的な運用のためには重要である。
- エンベッディング
- [Embedding]
オー・エル・イー=OLE
OLE機能の一つ。データをクライアントアプリケーション側で管理する。
- エンボス
- [emboss]
浮き彫り文字。キャッシュカード他を利用の際に用紙にカードから転写される。
□OCRの読取り対象としては文字(印字)品質が良くない。
□カードのセキュリティはオンラインの端末でチェックされることが多い。伝票を手作業で処理する場合,エンボス文字からの転写とサインが読み取り対象に。
- 英字/エイジ
- [alphabet] [alphabet:capital Alphabet]
OCRの読み取り対象となる英字は手書き文字では,大文字のA〜Zである。英字と一緒に用いられる記号を英字記号と称する。数字記号を含むことも多い。
(1)0〜9のアラビア数字との混在の場合,同形文字(0Oゼロ/オー)や類似字形あるいは書き方により混同字形となる(0D,1I,2Z,5S,6G,7T,8BQ,9P他)に対応するため,英字側でセリフやバー等を付けて形状だけで区別できる様にJIS字形が決められている。
(2)英字同士でも,UV等は小さく書かれると,丸み(U)や鋭角(V)の違い等が鈍って出てこず判断しにくくなるので,Vには上部にバー/横線を入れて閉じた形がJIS字形となっている。Wにもバーを付け勝ちだが,こちらは複雑になるのでJISではVを横に2つつなげた字形を推奨している。
(3)印刷文字の読取りでは OCR−Bフォント等が中心であるが,文書リーダ等のソフトOCRでは,イタリックス等を含む欧文読取りが可能なものが多い。
大文字の項に手書き字形について詳細
- 英数字枠/エイスウジワク
- [alpha-numeric frame]
英字(大文字A〜Z)と数字(0〜9)を中心に記入する文字枠。
□手書き英字字形/手書き数字字形のJISに,推奨の文字枠の大きさ,縦横比が示されている。縦長の字形に合わせた縦横比とインチ当たり5文字程度の横幅。
図版
- 映像帯域/エイゾウタイイキ
- [video band width]
映像回路の特性を示すもので周波数特性で利得が3dB下がった点の周波数。
□帯域幅が広い程,映像回路のパルス応答時間が速く,文字や図形を表示したとき,縦線が明瞭に見える。
図版
- 遠隔保守/エンカクホシュ
- [remote maintenance]
保守員が担当装置のある場所へ直に出向くことなく,通信回線等を通じて機器の状況を診断把握して,ソフト修理や装置切換えを行うこと。
□保守員を現地派遣するとメンテナンス費用が増えて運用コストの悪化となるため単体型OCRが少なくなってきていることもあり,OCR/CRUを配下に置くサーバと通信回線で状況を収集し,ソフトの修復や交換,接続ハードの切換えを保守センターから遠隔操作で行うもの。用紙ジャム等は運用者が処理できる様にOCRもシェルタイプ等でメンテナンスフリーへ道を開いている。
- 遠視認距離/エンシニンキョリ
看板や表示盤等を見る場合に限界まで離れても内容か判断できる限界の距離。
□将来的には,ビデオカメラ(デジカメ他)の映像内の文字等も認識対象に。
視認距離←→近視認距離 ギリギリ近づいても対象物が識別できる距離。
- 演算チェック/エンザンチェック
- [operation check]
数字の読取りでは単語の様に2文字以上の総合判断が効かないため,数量として合計や各項目での上限/下限等の範囲チェックやチェックディジット付き数字列としてのチェックを行い,文字単位の識別精度を向上させるもの。
チェックディジット・チェックの項参照
→「範囲チェック」指定の範囲内に納まっているか? 2月は28か29日以内等「サム・チェック」各項目の数値を足し込んで,書かれている合計と比較する等「相関チェック」他の項目の内容により,その項目の内容に制限が掛かる等。
- 円筒走査式/エントウソウサシキ
- [dram scanning]
ドラムスキャナのこと。ドラム(円筒)に読取り対象を巻き付けてスキャンする。
図版
- 鉛筆/エンピツ
- [HB/F pencil]
筆記具
OCR帳票への記入では,あまりお勧めできない筆記具の一つ。
□ボールペン 油性/中性(即乾性の水性)/水性
△鉛筆/シャープペンシル(→見た目より薄い場合が多い)
×筆(線幅が一定でない)
×フェルトペン/サインペン他のボールペンもどき
(1)鉛筆は見た目より,かなり薄く,濃さの点ではボールペンに劣る。
(2)書き直し許容のため鉛筆を使用する例もあるが,シャープペンシル(メカニカルペンシル)で0.5mmφ程度のHB/Fを推奨する。鉛筆使用の場合は,
(i)芯が太くならない様に,芯の先を尖らせながら使用する。鏡面反射
(ii)芯が欠けたりして帳票を汚したり,スキャナ内で転がる(他の帳票を汚したり影になって読取りイメージの劣化を招く)様なことの無い様に十分注意する。
(iii)書き直しで消すときは,表面の綺麗なプラスチック消しゴム等を使い,用紙を黒ずませたりしないように,消しカスをハケ等で除去して紙面に残さないこと。
(3)書き直し対応は,取消欄や書換え欄等の設定で行い,書いた文字を消さないでも良い様にする。ボールペン記入対応の(砂消しゴム等でなく普通の)消しゴムが製品化されており,個々の運用環境で使用可能性があるか試してみるのも良い。
捨て書き
筆記具(ボールペン,シャープペンシル,消しゴム等)
- O−ROM/オー・アールオーエム
- [O-ROM] [Optical Read Only Memory]
光学式ROM(リードオンリーメモリ)
- OA/オー・エイ
- [OA] [Office Automation]
オフィス・オートメーションの略。製造現場ではなく事務所のホワイトカラーのOA機器(ワードプロセッサやコピー機から,キーエントリーマシンへ,さらにOCRや小型電算機システムまで)の利用が進み,現在ではPCでのクラサバが広がりを見せつつある。
※PC=パーソナルコンピュータ/パソコン
クラサバ=クライアント・サーバ・システム
- OS/オー・エス
- [OS] [Operating System]
オペレーティング・システム。コンピュータに与えられた仕事を,効率良く処理するためにユーザプログラムやデータ,ハードウェアを管理するソフトウェア。
(1)OSは,(a)タスク(b)ジョブ(c)資源(d)データ(e)通信(f)運用等の各管理を行い,実容量以上の論理アドレス空間を提供する仮想記憶や多重処理が可能。
(2)PCにもOS搭載が普通となり,MS-DOS,Windows,Windows-NT,漢字Talk,Unix,OS/2等がある。1997年12月にWindows-NT 4.0日本語版がリリースされ,国内でも,PC−OSとして,UNIXかWindowsかの議論が再燃している。米国のマイクロソフト社は「Windows-NT 4.0は,パソコンをベースとするシームレスなクラサバを実現するネットワークOS」とし,UNIXを越えたと宣言。
(サーバー) (PC) (PDA)
ハイエンド ミッドレンジ ローエンド モバイル OS/400 OS/2Warp4 CHRP OS/2PDA OS-9 Solaris/MPP Solaris Solaris-86 JAVA WindowsNT Windows95 WindowsCE
- OSI/オー・エス・アイ
- [OSI] [Open System Interconnection]
異機種間で通信を行うための国際規格。
- OS/2/オー・エス・ツー
- [OS/2]
IBM社
米国IBM社のパソコンに搭載されるOS。マイクロソフト社と開発。
□現在は独自で,OS/2Warp4をサーバ用OSとして開発し,インターネット接続機能やサンマイクロシステムズ社のJavaインタフェースを追加して,ネットワーク・セントリック・コンピューティングを具体化しようとしている。
- OMR/オー・エム・アール
- [OMR] [Optical Mark Reader]
光学マーク読み取り装置。(完全な機能互換のある)OMR機能付きのOCRも。
- OLE/オー・エル・イー
- [OLE] [Object Linking and Embedding]
米国マイクロソフト社が提唱しているソフトウェアの部品化のための手法。
☆ソフトウェアをオブジェクト指向で機能毎に部品化し,他のソフトウェアからも自由に使用できる様にしたり(→OLEドキュメント),機能毎に部品化したソフトを使って,別のアプリケーションを作ったり(→OLEオートメーション)することができる。Windowsアプリプログラム間でデータ連携を実現する機能のひとつ。
- OCR/オー・シー・アール
- [OCR] [Optical Character Reader,Recognition]
光学文字読取(認識)装置 JIS X 0012-1990
(1)光学的文字認識によって文字/記号を読取りコード化する入力装置。
(2)文字や記号のイメージを光学的な手段で取り込み識別する装置。
(3)光学式文字認識装置/光学的文字認識装置ともいう。
(4)OCRはoptical character recognitionの略として使用されることもある。
(5)JBMS-34-1987 日本事務機械工業会OAシステム用語では,
「機械によって印字された文字,または手書きの文字を光学的に読取って,文字コードに変換する装置。」となっている。
(関連語)文字認識装置
MICR(magnetic ink character reader〜磁気インク文字読取装置)
オンライン文字認識装置(実時間認識)〜電子手帳などの手書き記入ストローク情報が直接得られるので,クロスの検出や重なったストロークの検出が容易である。
専用用途OCR(郵便番号読取り,自動車ナンバープレート読取り等)
ソフトOCR(PC上等で実現するソフトウェアでの認識処理)
最近はハードOCRの認識部のソフトウェア化も。
帳票OCR(伝票OCR/SLIP OCR)
ドキュメント・リーダ(活字帳票高速読み取りタイプ〔ハードOCR〕と文書リーダ〔主にソフトOCR〕の2つの意味がある。
認識装置/CRU 光学系を持たない「認識部」のみの装置
認識ボード/1ボード PCやWSの空きスロットに挿入して認識処理を行うプリント板のこと。(日本IBM,日立マイコン他)
ハンドOCR(ワンド(ガン)タイプはバーコード・リーダ等で)
FAX−OCR(用紙からのイメージ取込みをFAXで行うもの)
文書OCR(近年用途が広がり普及の兆し)
帳票OCR(ページリーダ)
1ボードOCR(PC等に専用ハード(プリント板)追加で認識処理)
- オーシーアール記入登録/オーシーアールキニュウトウロク
定義体を専用シート(OCR帳票)に書いてOCRで読込ませて登録する方法。
★OCR帳票になった定義体登録用紙に定義体データを記入して,読込ませる。システム側でデータをチェックして,データ相互間に矛盾がないか,定義可能な範囲に論理や寸法等が納まっているか等を自動確認される。不具合点はマウスで選択肢から選んだりキー入力したりで変更修正して定義体を登録する。
- OCRスキャナ/オーシーアール・スキャナ
- [OCR scanner]
OCR装置のスキャナ,OCR処理用のスキャナ(OCR機能を十分に果たせるだけの解像度や機能を持ったもの)文字の読取りを目的とした専用スキャナ。
□但し別のファイリングシステムと連係してファイリング用スキャナに対応可能な機種もある。
- OCRエントリーパッケージ/オーシーアール(エントリー)パッケージ
- [OCR entry package] [OCR (entry [software]) package]
OCRエントリーパッケージはOCRを介してデータエントリーを行うためのソフトウェアパッケージ。
(1)OCRを使用する上で基本的な機能を備えたソフトウェアであり,汎用のもの,特定業務向けのものがある。 文字認識では不可欠な「確認/修正/追加」の画面操作を容易にする機能が基本である。
図版
(2)主な機能は
1)OCRを制御してセットされた帳票を読取り処理する。
2)読取データ中のリジェクト箇所を示し★1,修正を可能にする。
3)会計処理などの特定用途向けでは,処理内容に応じた論理チェック等を行いデータの記入ミスやOCRでの誤読の可能性のある箇所を示し★1,確認修正を可能にする。
4)読取り結果を指定の記憶装置へ出力または他所★2への転送を行う。
5)帳票定義体(フォーマット)の作成や更新を支援する。★3
★1 ブリンクや反転表示で場所(フィールドや文字位置)を指示する。
★2 他のシステムへの転送やデータベースへの書き込み等を行う。
★3 フォーマットジェネレータ等とも呼ばれる。
作成されたプログラムはフォーマットパラメータと呼ばれる。
- OCRフォーマット定義体/オーシーアール・フォーマットテイギタイ
- [OCR format definition]
帳票上の読取対象の存在位置や読取字種,またチェック内容等の読取りに関する定義や,読取結果の出力形式,確認修正用の表示画面のレイアウト等を定義。
帳票定義体(認識対象やイメージ格納対象領域の定義)
出力フォーマット定義(コードデータやイメージデータの格納形式)
確認修正画面定義(確認修正用の画面設計 読取結果と原画の位置関係)
- OCRユーティリティ/オーシーアール・ユーティリティ
- [OCR utilities]
OCRユーティリティは,OCRの利用環境を設定するためのソフトウェア
1) フォーマット・ジェネレータ (帳票定義体の作成) 2) 出力フォーマット定義 (結果の格納形式の定義) 3) 画面表示定義 (確認等のディスプレイ画面のレイアウト)
等を規定するソフトウェアからなる。
☆OCRデータエントリーの機能も含む場合がある。(パッケージ)
- OCR用紙/オーシーアールヨウシ
- [OCR paper]
JIS P 0001-1979 (No.6064)
文字,記号を光学的に読取るデータ処理に用いる用紙で,認識率の確保のため,製紙過程でのゴミの混入がなく,平滑性,帯電防止性,耐磨耗性,耐伸縮性等に優れ,腰の強い(こわさ/粘りけのある),裁断時にも誤差が少ない用紙。
(1)OCRシート以外は使用不可とするOCRは,現在はほとんどないのが現状。
(2)現在はOCR用紙として「再生紙」もほとんどの機種で許容されており,特殊な用紙としての意味以外でも用いられる。→OCRに使う紙という程度。
(関連項)紙質/普通紙/PPC紙/上質紙/再生紙 を参照。
日本語ではOCRシートと良くいわれるがペーパが本来の英語?
PAPERは「論文」等の意味にも。
- OCR修正モード/オーシーアールシュウセイモード
- [OCR correcting mode]
OCR読取処理で,エラーやリジェクトが発生したとき,オペレータの介在をどのようにするかを規定する動作モードのこと。
☆処理形態に合ったモード選択が効率化を促進する。
〔イ〕一括読取モード (連続読取りモード)ともいう
一括修正モード (バッチ修正/更新 モード)
〔ソ〕即時修正モード (逐一モード)
〔ヘ〕並行修正モード (非同期修正モード)
〔タ〕ダイレクト入力 (帳票が破損したりしてOCRに掛からない場合に)
(電話等で非定型での注文入力にも対応できる。)
- OCN/オー・シー・エヌ
- [OCN] [Open Computer Network]
1997年春にNTTが(インターネット向けの)サービスを開始したコンピュータ・データ通信のための新しいネットワークサービスのこと。
□『OCN常時接続』インターネットとの常時接続環境を専用線間隔で実現する。
□『OCNダイアルアクセス』個人が気軽にインターネットを利用できる。
いずれも低料金で全国カバーという理念で21世紀の通信インフラとして着手。
(1)TCP/IPルーティング/ネットワークで,Internetと同じ。
(2)海外に比べ高い回線料金,特にInternetの内外価格差解消を目指し,廉価な定額料金のネットワークを提供するのが最大の目的で,品質第一主義からは外れる。
(3)品質より価格を重視し,ユーザにはベストエフォートという表現で,回線品質をこれまでの様には保証しない。また設備・機材メーカには,これまでの特注品の納品ではなく,実績のある市販品を発注してインフラコストの逓減を図る。
(4)OCNサービスで,実施中の120以上のマルチメディア共同実験プロジェクト(回線料金無償)が1997年3月に終了した後の商用回線サービス提供をする。また,NCC他の通信事業者から,NTTが通信インフラを独占して自由に接続させてもらえないという不満にOCNで対応する。
(5)OCNのOpenの意味は,顧客/事業者がOCNの様々な切り口/接続点で自由に(オープンに)接続できることとされている。これが実現すると日本での最大の商用Internetが出現することになる。NTTはOCNを単なるInternetとは見なさず,全国規模のルータネットワークとして使って,企業のLAN間通信を広域網に拡大すること(LAN-WAN-LAN 接続等)や,OCN上で各種の高度サービスを提供して新しいネットワークビジネスを実現していくこと等を目指している。
(6)OCNのサービス内容は大きく3種に分かれる。
1)回線サービス(IPルーティング)
・低速系(128Kbps) ・高速系(1.5M/6M/50Mbps)
・ダイヤルアップ(電話/ISDN)
2)上記サービスで企業通信に必要な機能/マルチキャスト,セキュリティ等を提供する企業通信向け高機能サービス
3)IP(情報提供事業者)−個人ユーザ等むけの各種機能,サービスや課金,決裁,認証等の機能やディレクトリ/ナビゲーション等のサービスの追加。
当面は1)が主で,現状のInternetと同じレベルだが,NTTでは,2)3)を提供して,企業向け(Intranet)に拡大して行きたい意向。
(7)OCNは,ユーザにとっては,回線料金が安くなるチャンスであり,メリット大。しかし,果して企業基幹ネットとしての品質が確保できるか疑問の声もある。
(8)通信機器メーカにとっても顧客ネットワーク再構築はビジネスチャンスである。
(9)OCNと競合する通信回線業者や既存商用Internet業者は低価格競争に負けない対策や同様のサービスを対抗企画中で,一層の競争激化が想定される。
(10)通機機器メーカと通信事業者とが連携したビジネス展開も可能。
通信サービスの項にもOCNについて解説がある。
- ADF/オート(マチック)・ドキュメント・フィーダ(ディング)
- [ADF] [automatic document feeder]
〜オート・ドキュメント・フィーダ/automatic document feeder 自動原稿送り機構
〜オート・フィード機構/AFM/Auto feed mechanism 自動給紙機構:
〜オート・フィード方式/auto feed form
〜オートマチック・ドキュメント・フィーダ/automatic document feeder(ADF)
〜オートマチック・ドキュメント・フィーディング/Automatic Document Feeding
自動原稿送り機構,自動給紙機構,イメージスキャナやOCR等で,読取対象の原稿や帳票を自動的に光電変換部に持込む機構。一枚づつ確実に高速に処理するものが望まれる。
(1)自動給紙機構のホッパ/給紙台に積まれた原稿,伝票,帳票等を最上層または最下層から一枚づつ分離して,引き出し,スキャナ(光学読取)部へ送込む。
(2)用紙を一定速度で,スキャナ部を通過させ,読取後の用紙を読取結果により,選択されたスタッカへ排出する。これらの一連の動作を行う機構。
光電変換機構,ホッパ/スタッカ(アクセプト・スタッカ/リジェクト・スタッカ)
エイ・ディ・エフの項 参照
- オーダ・エントリ・システム
- [order entry system]
注文内容入力システム。OCRの得意分野(業務)
- オーバー・レイ
- [overlay]
読取ったイメージデータに対して,あらかじめ指定された情報を付加する機能。
□背景画像として使用される報告書等の書式,様式や網掛け,格子,地図等の様なパターンをいう。
また,背景画像の他に日付やシリアルナンバリング等の補助的事項の追記機能をいう。
- オープン・システム
- [Open system]
仕様を公開し,メーカの違いを乗越えて使用できるようにしたシステム。
- オープン・ドック(R)/オープン・ドック
- [Open Document]
アップル(株)/IBM(株)が提唱しているソフトウェアの部品化のための手法。
☆Windows,MAC,OS/2の各プラットフォームに対応した複合文書サービスアーキテクチャ。OLE(オー・エル・イー)の項
- オール・スペース・チェック
- [all space check]
オール・ブランク・チェックの項参照。
- オール・ブランク・チェック
- [all blank check]
読取り対象が全てブランク(スペース)〜無記入/無印字かをチェックする。
- ORリスキャン/オア・リスキャン
- [OR rescan]
再読み処理で,複数回の読取りでリジェクトでない答えを採用する方式。
□複数回で異なる答えの部分はリジェクトとなるが,一つの答えの場合は他の回でリジェクトでも答えに採用する。3回以上のリスキャンでは多数決等でORを取る場合もある。『?49?44』等となると,4を答えにする。
- オイラー(レオンハルト)/オイラー・レオンハルト
- [Euler] [Euler (Leonhard)]
1707〜1783
スイスの数学者,物理学者。微積分学。トポロジーの祖。一筆書き問題。
(1)虚数iや自然対数の底e等の記号の考案者。
●オイラーの定理(Euler's theorem)多面体の頂点,辺,面の個数をp,l.fとすると,p−l+f=2の関係がある。
(2)線図形で交点の数と端点の数の相互関係。文字認識の特徴にも使用される。線図形内の交点と端点の数は,例えば2本の線が交差している図形では交点1に端点4となる。これが交点1,端点2となるとαの様な形状と想定される。
- オブジェクト
- [object]
関連するデータの集合と,それを操作する手続きを一体化したもの。
□オブジェクトは内部変数(インスタンス変数)を集めた構造体とサブルーチン(メソッド)から構成され,外部からはサブルーチンはコールできても,その内部変数に直接には手を加えられない。オブジェクトの外部インタフェースはサブルーチンとそのパラメータだけで決まる。コンパイル後のプログラム等。
- オブジェクト指向/オブジェクトシコウ
- [object oriented]
データとそれを操作する手続きを一体化したオブジェクトの集合で,システムを表現しようとする考え方。→オブジェクト指向言語〜Smalltalk:,C++
- オムニ・フォント読取り/オムニ・フォントヨミトリ
- [Omnifont reading] [Omnifont reading/Recognition]
複数の異なるフォントの活字を読取ること。マルチフォントより多い100種類以上のフォントの活字を混在で読取る場合に使われることが多い。
- オラクル
- [ORACLE]
オラクル/Oracleは,業界標準のリレーショナル/データベース言語SQLに基づいて開発されたRDB管理システム(RDBMS)のこと。
□アプリケーション・ソフトの開発者や設計者,エンド・ユーザ等に各種ツールを提供し,容易にデータベースが利用できるユーザインタフェースを実現。稼働環境は,パソコンからメインフレームまで幅広く,機種変更でも修正をほとんど必要とせず,パラレル処理技術,大規模DBサポートで優れている。
→ハッシュ結合,ビットマップ検索,分割ビュー等
- オレンジ
- [orange]
橙
暖色系のドロップアウト・カラーの一つ。
(1)通常のOCRで使用される場合が多い,ドロップアウトカラーの色。
(2)暖色系のドロップアウトカラーの総称で使われることもある。
ドロップアウト・カラーの項
- オンライン文字認識装置/オンラインモジニンシキソウチ
- [on-line character recognition] [on-line (handwritten) character recognition]
実時間認識(real time recognition)とも呼ばれ,タブレット※にペン書きしそのストローク(筆跡)を実時間で取込み認識処理する装置。
(1)OCRの様に書き終わった後の字形ではなく,書き始めから終わりまでを1本として把握できるため,クロスも2本の線として捕らえられる。また「芯線」の情報として得られるため,認識がOCRに比べて,はるかに容易であり,電卓や電子手帳での入力に早くから取入れられている。
(2)入力装置である「タブレット/ペン」では,書始めにペンが滑る等して不安定な場合に,始点が定まらず,電気回路上でのチャタリングの様な状態になる場合があり,大部分のシステムでは書始めの部分で安定するまでの間の対応(ノイズのカット)処理を行っている。
(3)電子手帳等では書込み画面に帳票レイアウト等を表示し,伝票等に書込むのと同様な感覚で利用できるようになっている。
(4)WPのキー以外の入力としても利用されたが,現在は音声WPとともに下火。
※通常はボードで記入結果をイメージでディスプレイ画面で見ることができ,読取結果を並べて表示できたりする。電子手帳等ではディスプレイ画面に書込むのが普通である。
〔ペ〕ペン・OS/ペン・コンピュータ/ペン・ノートパソコン
タブレット(オンライン タブレット)
- お手入れ/オテイレ
- [repair mending] [repair mending: well keeping]
専任の修理者等に依頼することなく,日常の運用で正常な状態にシステムを保つために行う作業。
OCRシステム関連では電源等を切って,汚れ落とし等。
(1)OCR本体
a)用紙の搬送系は,静電気による埃の吸着や帳票の紙粉によって汚れやすい。搬送系を開けて,乾いた柔らかい(埃の立たない)布等で拭い取る。この時搬送路の金属板(特に湾曲部)を腐食させない様に,手袋をして手で直には触れないこと,水や洗剤等を用いないで行う。ハケ等で払い退ける方法も。
b)筐体外板の汚れで,乾拭きで取れないものは,中性洗剤等(使用禁止表示の無いもの)を布に湿らせ軽く拭い,後は良く洗剤分を取去る。洗剤の有無に係わらず,布は固く絞って,装置内や周囲に水を垂らさない様にする。接続ケーブル等も同様にコネクタ部に注意し,ケーブルの被覆部の汚れを取る。
c)光源は,蛍光灯等で簡単な差替えで済み,交換方法等が明示してある場合に限り交換しても良い。光路長やシャドーマスク等の微妙な設定のあるものは保守契約先に依頼すること。
(2)制御装置(PCやWS等)ディスプレイ/キーボード他
基本的には,外縁部の汚れ落としやキーボードのゴミの除去が中心。内部は触らないこと。柔らかい布での乾拭きが中心。モールドあるいは塗装鋼板の部分で落ちにくい汚れは,OCR筐体と同様に拭取る。ディスプレイ管面は静電気で埃を予想以上に吸着しており,埃を筋状に残したり,寄せるだけにせず(拭き跡が残らない様に)拭取る。キーボード等はキートップの汚れを乾拭きして,キーの隙間のゴミも真空掃除機等で吸出しておく。
(3)マウス 転がす場所の埃やゴミを取込みやすいので清掃が必要。
ボールは外して水洗い可能なものが多いが取扱説明書で清掃方法を確認する。
- 大文字/オオモジ
- [Capital] [Capital (Alphabet)]
手書きOCRで大文字といえば,英字の大文字を指す。(JIS字形)
(1)手書き文字での英文字読取りは,A〜Zの大文字26字が対象である。
(2)数字との区別のため,英字側で形状に違いを付ける字形の規制があったり,書き方に注意が必要となる。(数字は単独で郵便番号等で一般的に使われるため)
〔英大文字〕 〔対応数字〕 O(オー) には,バー(アッパー・バー/非接触)が付与される。 →〔0レイ〕O D(ディ) には,左側面の上下に短い突出しを付けて角の丸みを消す。 →〔0レイ〕D I(アイ) には上下に短いセリフ(棒)を付け単純な縦棒でなくす。 →〔1イチ〕I Z(ズィー) には中央に横棒を追加して,丸みの少ない2とも区別。 →〔2ニ〕Z W(ダヴリュ)やM(エム)を傾けて(回転させて)書かない。 →〔3サン〕WM X(エクス) は\と/を同じ長さに直線で(丸みを付けずに)書く。 →〔4ヨン〕X S(エス) には左下止めに短いセリフを付け丸みを帯びた5とも区別。 →〔5ゴ〕S G(ジィ) はCとTで構成し,右中央に突起(端点)がある形にする。 →〔6ロク〕G T(ティ) は上部の横棒は傾けず,横棒の中央から垂直に縦棒を引く。 →〔7ナナ〕T B(ビィ) には,左側面の上下に短い突出しを付けて角の丸みを消す。 →〔8ハチ〕B Q(キュ) は〜の先を右側に確実に出す。短いとθになり8に似る。 →〔8ハチ〕Q P(ピィ) は左側の縦棒を>の様に曲げないで垂直に書く。 →〔9ク〕P Q(キュ) は下半分に小さなループを作る様に〜を書く。\で区切る
だけでは,ループ内の部分が短いと9の変形に見える。→〔9ク〕Q
(3)その他に,数字以外とも区別が付きやすくなる様に以下の規制がJIS字形にある。また全文字を通して直線の縦棒はあくまで垂直に,横棒は確実に水平に書いて丸みや斜めの線と明確に区別できる様にすることも重要である。
・Cには書き始めに短いセリフを付けて,左括弧(と区別する。
・J(ジェイ)の上部にIと同様に短いセリフを付ける。)や5との区別明確化。
・UとVとの区別の(小さい文字では丸みと直線の区別は付け難くなる)ため,Vの上部を閉じる様に横棒を追加する。棒は左右に突出して0との区別も。
・Wの上部には横棒を付けない。字形を複雑化しない。
- 応答時間/オウトウジカン
- [response time]
入力(トリガ)があってから,それに対する(処理を行って)応答を行うまでの時間。
- 温度/オンド
- [temperature]
装置の設置条件
OCRハードウェアの設置環境での,運転可能温度範囲と休止時温度範囲がある。
(1)OCR用紙関連では湿度範囲の方が重要。
(2)筆記具,特に油性ボールペンのインクの出具合は温度に依存する面が大きい。
1)夏場の外気温と冬場の暖房の効き過ぎの室内温度では(インクのボテ)
2)冷房の効き過ぎの室内温度と冬場の屋外の気温では(インクのカスレ)
- 音声応答(装置)/オンセイオウトウ
- [audio response] [audio response unit]
自動応答システム
音声を入出力するための装置。音声認識装置と,音声合成装置の二つで構成。
□省力化のため,コンピュータで自動処理する在庫問合わせや,無人の受付等で,電話のプッシュボタン操作やFAX−OCRからの読取りデータに対応し,処理結果を音声で伝えるシステム。(トリガ〔入力〕に音声認識を使用しない例)
(1)病院等の外来患者の「問診」等では,順番待ちの間に,患者が機器画面の文字を見ながら,症状等をインプット(選択)したり操作した結果を音声で確認したり次の操作をガイダンスするのに使われる。エキスパートシステムの医療版。
(2)在庫問合わせ等は外部の電話やFAXから,直接システムへアクセスして結果を音声で聞けると非常に効率が良い。専任者を置いて,電話問合せに対応するのは話中や定時後の対応ができないなど小回りが効かず,コストも高くつく。
(3)24時間無人の受注システム等で,例えばFAX−OCRで受理した内容を発信元へ確認のため読上げたり,セキュリティ確保のため,暗証番号を適宜入れさせたりすることが音声を利用することで可能になる。
- 音声ガイダンス/オンセイガイダンス
装置の運用で,音声による指示や案内を行うもの。
(1)FAX−OCR等では,発信先が正しい相手かを確認してもらうため,発信元に会社名や業務名を音声で流す。
(2)選択肢の多数ある様な業務では,基本部分(前もって記入できる部分)は帳票に記入して送信してもらい,その場で追加選択が必要なものを,音声ガイダンスに従って,該当の番号を押してもらい,選択された(目的の)ものをFAXへ発信したり,注文を受けたりできる。
- 音声確認/オンセイカクニン
- [voice check]
「読み下し」チェック
文書OCRで読取った内容を,音声で読下して内容確認を行う等に使用。
□ワープロ等で作成した文字を,文字コードから音声信号に変換して音声出力して作成された文字の間違いがないか読み下して確認する。
□熟語等,読下して音で聞くと誤変換もすぐに見つけられる。
- 音声合成/オンセイゴウセイ
- [speech synthesis]
「合成音声による読上」
LSI技術を駆使し,人間が声を出す仕組みから割出した方式や,実際の音声をデジタル信号に変換し記憶し,それを再生する方法(PCM方式)やパーコール方式等がある。書籍等を読取るOCRに接続し,音として出力することにより,盲人の読書等がボランティア等の人手を必要としないで可能になる。
□現在の技術レベルでは,未だ「機械音」の感じを免れないが,男声・女声/高音・低音/早口・遅口等の選択が可能な音声合成システムも登場している。
□変換内容(文書/文章の読取り結果や,それの翻訳結果)を音で聞くことにより変換ミスや言葉の差替え等が容易に行える。
- 音声出力/オンセイシュツリョク
「音声応答」
コード・データを音声合成等により,音声に変換して(読下して)出力すること。
□駅や車内のアナウンスの様に,基本語を区切って,肉声で録音しておいたものを,必要に応じてつなぎあわせ,時刻等の数値データに対応したものをはめ込んで文章にして流すものの他,WP等で入力した文章を合成音声で館内放送したりするものが製品化されている。ギャンブル場での払戻金放送は,アナウンスミスしたりすると致命的で,トータリゼータ(ギャンブル場専用計算機)が弾き出した数値を,そのまま,音声に変換するのがベストである。いい間違いによるトラブルを防げる。
- 音声入力/オンセイニュウリョク
「音声WP」
キーボードに頼らない,理想の入力形態といわれて久しい。
□未来のシステムとしてマイクに向かってコンピュータに指示をしているマンガが以前は良く見られたが,連続音声処理や不特定多数といった難関があり,現在は,PCの入力として,区切った単語のレベルで不特定多数の声に対応可能なものが市販され,個人登録音声辞書が必要なWP等は見かけなくなった。
- 音声認識/オンセイニンシキ
- [speech recognition]
「入力」
人の発する言葉を認識してコンヒュータ処理可能なコードデータ化すること。
(1)音声入力によるワードプロセッサ(WP)や,音声で操作(命令)するパソコン他の自動機械(カーナビゲーション)などが可能になった。
(2)オンライン手書き認識の様に,(録音されたものを再生した場合でも)実時間で入力されるデータを対象にするが,文字認識と異なり,連続音声処理は難しくて不特定多数を相手にした,単語単位の(ひと塊の言葉として)処理が中心に。
(3)日本IBMは,パソコン操作を声で行うための音声認識ソフト(個人登録音声の認識)を開発し製品化発売(2万3千円),ISVでも導入してアプリソフトを開発する。『ボイスタイプ・ディクテーション3.0forウインドウズ95日本語版』,OS/2版も今後発売する。「印刷」や「実行」等を声でコマンド指示することが可能であり,音声WPとしても使える(4万語辞書登録,2万語の追加登録が可能)。NECは,話し言葉をそのままPCに入力する認識ソフトを開発した。音素のつなぎ目に着目した新しい手法で約10万語の日本語を識別する。個性の入込みの少ない変わり目部分を利用し,個人登録等の事前作業を不要にし約10万語を240の半音節の組み合わせで表現し,照合時間も単語のレベルで0.4〜0.5秒と速い。不特定話者10万語から,高騒音下でも同時に1000単語の識別が可能。DS-9000は195万円,電話音声認識も可能なDS-8000は245万円から。
(4)下火となった音声WPの復活や,応用が進みそうなパソコンのコマンド入力等に拍車が掛かりそう。単語レベルのチェックは曖昧なものも類推が可能で,文章の流れからも特定して変換率を向上させる。
- 音声ワードプロセッサ(音声WP)/オンセイワードプロセッサ
- [Voice WP] [Voice WP/oral-WP]
「確認修正機能への応用」
音声認識により,文章や単語をコード化して入力するワードプロセッサ。
□音声でのキーボード入力の代替を目指したWPであるが,当初は特定個人の登録音声辞書が必要で,風邪を引くと認識率が落ちたり,部屋の隅でボソボソと話すのは,現在の様な携帯電話で大声でわめいているより,もっとカッコ悪いものと認識され,流行らなかった。現在ではWP用よりは,単語を区切って話すことで,不特定多数でも利用可能なPC操作指示等の利用が始まっている。
- カーソル
- [cursor]
ディスプレイ画面に表示した読取り結果で,確認文字中の出力(文字等)を示すマークのこと。一般には下線/アンダーラインや反転表示となる。マウス等で,矢印で指し示すこともある。OCRの確認修正では,リジェクト箇所に自動的に移動する仕組みのものが大半。カーソル位置のみチェックして効率的な運用が可。
- カードOCR/カード・オーシーアール
- [card OCR]
WSやPC等の空きスロットに差込み,認識処理を行わせるプリント板(ボード,カード)のこと。
- カーニング文字/カーニングモジ
- [curning character]
プロポーショナル/入れ組
印刷物等で見栄えを良くするため,文字を等間隔に並べずに文字サイズや形状に合わせて隣同志の間隔を調整し,文字間が垂直に分割できない様な喰込み状態になっているもの。
- カーボン複写帳票/カーボンフクシャチョウヒョウ
- [carbon copy slip]
裏面にカーボンが塗布されていて,書き込むと下の用紙に同じ内容が転写される複写帳票。カーボンは記入前に,表面に当たった固い物の角等で複写面に汚れが付いたりして読取りに支障を来す場合がある。
□化学薬品の反応で複写がされる帳票もあるが,OCRの給紙機構の金属部の腐食ローラのゴムの変質等につながる場合があるので注意が必要。ハード仕様の確認
- カール
- [curl]
用紙の反りのこと。搬送機構でのジャムの原因になる。
□収集時についたカールは,皺や折り目を付けない様に注意しながら,手で反対に巻き込む様にして平らになるように押す。時間的余裕のある時は重い平らな物の下に敷き込んで癖を直す。漬物状態にしてゆっくり回復させる。
- カスタマー・バーコード
- [Customer bar code]
郵便番号7桁化に伴い,バーコード読取りも併用した仕分けが行われる。大口の利用者はあらかじめ郵便物にバーコードを印刷して依頼する。この宛て先内容を情報とするバーコードを,カスタマー・バーコードといい,4ステートコードが使用される。
フォー・ステート・コード の項 参照
- カスタマイズ
- [customize]
システムを顧客/カスタマー向けに特化すること。汎用システムを顧客の運用に合わせて整備する。必要機能の追加や不要部分の削除等で効率化を図る。
(1)OCRシステムでは帳票が最もカスタマイズの対象であるが,統一伝票等もある。
(2)読取り結果に論理チェックを掛ける部分では,かなりのカスタマイズが盛込める。
それぞれの運用にフィットした効果的なカスタマイズが重要である。
(3)帳票設計,修正画面レイアウト,出力フォーマット等の工夫で効率化が図れる。
- カタカナ
- [the square of form of KATAKANA]
漢字の一部または全部から成る,発音表記の文字。
□EBCDICの1バイト系と漢字かな交じりでの2バイト系のコードとがあり,濁点半濁点を1文字扱いするかしないか等で違いがでる。また形状では必然的に漢字との同形文字が多く発生し,文字認識での一文字毎では判別できないものが多く存在するため,単語単位等で処理する必要がある。
- カナ読取り/カナヨミトリ
- [KANA recognition]
アラビア数字10文字(0〜9)の読取りやJIS字形での英字の読取りに比べ特に手書き文字では読取りが難しい面を多く抱えている。
(1)力(リキ)とカ,工(コウ)とエ,口(コウ)とロ等は一文字単位では判別不能。
(2)フリーピッチ読取りは,横書きでは「ハ,リ,ル」等の分離文字があり,ヅ等濁音等は特に,その範囲の特定がかなり難しい。書き方により分離ストロークになってしまうもの(ウ,ク,ケ,ソ,タ,ツ,ト,ム,ワ,ン等)も多い。
(3)カナ記入の名前では個人の癖が入りやすいので,後処理(知識処理)等を施すのが良い。カナ同士でも書き方で,類似(混同)文字となる。元々縦横が同じ比率のものが多く,書きやすさのためと,特徴が十分に書込まれる様にするため,ガイドとなる枠の形状は英数字の縦長のものと異なって,横幅を確保する必要がある。文字枠は幅は大きめ(インチ当たり4文字(6mmピッチ)程度)に設定する。
- カタカナ枠/カタカナワク
- [kana character entry frame]
手書きカタカナ用の文字枠のこと。カタカナを書きやすく,読みやすくする。
☆英数字の様な縦長※2ではなく,横幅も確保した文字枠※1のこと。幅が狭いと書くのに窮屈な感じで,カタカナの区別のための特徴部分も不明確になる。
図版
- カット・アンド・ペースト
- [cut & paste]
パソコンやWS等のアプリケーション上で作成したデータを切り取り/コピー/貼り付けの要領で簡易に編集することができる機能のこと。
□OCRの帳票定義体のジェネレータには作成したデータをこの要領で編集可能にしたものがある。
- カナ漢字変換/カナカンジヘンカン
- [kana kanji conversion]
かな(カタカナあるいはひらがな)をキー入力し,該当する音や訓の読みとなる漢字に変換すること。OCRではカタカナを認識して(名前地名等の)該当する漢字に変換(候補単語の表示)すること。また,漢字の読取り結果とフリガナの読取り結果をカナ漢字変換したものとを比較して精度を高める。
- カナ枠/カナワク
- [kana frame]
手書き文字枠の内,英数字用の縦長のものと比べて正方形に近い。
□漢字かな用と同じ縦横比で,幅サイズは,インチ当たり4文字程度。
カタカナ(文字)枠/文字枠/記入枠を参照。
- カラムピッチ
- [column pitch] [colum pitch]
(文字ピッチ)
文字や記号の水平方向の間隔。
□JISの手書きの推奨文字ピッチは,数英字でインチ当たり5文字(約5mm)カタカナでインチ当たり4文字(約6mm),漢字ひらがなでインチ当たり3文字。
- CALS/カルス
- [CALS]
世界規模での企業活動の統合を図る。製品設計,開発,製造,流通,サービスをディジタル化された共通のデータベースを使いリアルタイムで行うことである。
(1)その効果は品質と性能の顕著な向上の実現と商品化までの時間とコストの大幅な削減である。情報ハイウェイを介し,オープンシステム環境を指向して,データ交換の商業規格や標準化の国際調整を早期に採入れ,来世紀の製造業の共同体である『バーチャルエンタープライズ』の原型である。
(2)通産省が1995年度から着手した生産・調達・運用支援システムのこと。1997年度も8億円強の研究予算が認められている。産業構造審議会
CIF(CALS Industry Forum 1995 CALS推進会議)
NCALS(Nippon CALS Research partnership 1995 CALS技術研究組合)
□CALSのインフラたる共通DBの構築に種々のOCR系システムも貢献する。
- CALS 1/カルス
- [CALS] [Computer Aided Logistic Support]
部品,消耗品の補給交換1985
CALSの項参照。
- CALS 2/カルス
- [CALS] [Computer-aided Acquisition & Logistic Support]
調達1988
CALSの項参照。
- CALS 3/カルス
- [CALS] [Continuos Acquisition & Life-cycle Support]
設計製造1993
CALSの項参照。
- CALS 4/カルス
- [CALS] [Commerce At Light Speed]
商取引,物流,資金決裁1994
CALSの項参照。
- カルラコード
- [calra code]
モザイク(タイル状)コード
タイルコードとも。正方形の面状のコード。
☆バーコードの様に棒状ではなくタイル状で,例えば2×2で4ビットの情報を表現する。縦/横に自在に拡張していける。
図版
- かすれ/カスレ
- [scratch]
カスレ/掠れ
文字の誤読やリジェクトの要因となる,文字の欠けやボケの原因。
(1)筆記具,特にボールペン等は書く前に「捨て書き」をし,インクが滑らかに連続して出る様にすると防げる。インクがボールに半乗り状態から,途切れ状態へと,かすれが拡大しない様に,インクが寒さで固い場合はボールペンの先の首部分をライター等で軽くアブるとインクが出やすくなる。鉛筆は見た目よりスキャナには,薄い点に注意が必要で,FAX等の入力では予想以上のかすれになることもある。
(2)鉛筆では,筆圧の弱いことが濃さ不足の原因となる場合も多く,下敷きや固くて滑らかな机の上に,一枚毎置いて記入する等で対応すると良い。
(3)読取り精度が思った以上に上がらない(記入者へ文字の字形に関しては教育したのに成果がない)と思われるときは,帳票ではなくスキャナの取込みイメージを観察して,2値化に十分な黒レベルが得られているかを確認することが必要。
(4)「大きさ,濃さ,太さ」の3要素の内,濃さと太さの不足が「カスレ」発生原因
- かな/カナ
- [the Japanese syllabary]
JIS X 900X−1991 (手書き文字推奨字形)
□漢字から発生した,わが国固有の音節文字。〔広辞苑〕漢字の崩し文字。
(1)ひらがなは,漢字かな交じり文(名前や地名を含む)として読まれる場合が多い。
(2)単独での読取りは,氏名等の「よみがな」として使われる程度で,カタカナでの「ヨミガナ」の方が多く用いられている。国語の音訓を写した万葉仮名を崩した文字で「女文字」として発展した。丸みが多く,認識対象としては画数の少ない分だけ,個人的な癖も入りやすく,手書き文字の認識対象としては難しいといえる。『らうろち』等は書き方次第で混同しやすい字となる。カナの手書き字形を決める検討会では最後まで慎重な討議がされた。
(3)活字では漢字かな交じりが対象で,文章認識で「てにをは」の分離や単語照合で,一文字単位での認識結果の候補の中から正解を選択する必要がある。
- かな漢字変換/カナカンジヘンカン
印刷文書や手書き漢字読取りの確認修正で,追加記入や書き直しには必須の機能。
(1)ローマ字かな変換等もある。
(2)住所や氏名の読取りで,ヨミガナ/フリガナ等が付いている場合はシステム側でかな(カナ)漢字変換を実施し,漢字記入分の読取り結果と照合して精度を高めていくのが普通である。特に漢字やカタカナで同形文字や類似文字があるときは非常に有効な処理となる。大山/犬山等で字形(図形として)は微小な違いしかなくても,オオヤマ/イヌヤマのヨミガナで明確に区別することが可能になる。
オオヤマ イヌヤマ オオタ オオタ ヨミガナでは区別が付かない。 ○→ 大山 犬山 大田 太田 ←×
- かな読取り/カナヨミトリ
- [the Japanese syllabary reading]
ひらがな単独の読取りは,「ふりがな」の項目が考えられるが,ヨミガナでの読取りが一般的と思われる。漢字かな交じりでの読取りが中心に。
□ひらがな同志でも,丸みを帯びた字形は個人の癖が入りやすく,『らうろち』は区別の付けにくい筆頭とされている。『ぬねわれ』『けげはばぱほぼぽ』等も。
- 仮想フィールド/カソウフィールド
- [virtual field]
(a)実際には帳票上に読取りフィールドは存在しなくても,データのチェックや出力編集で必要に応じて,出力データフォーマット等で定義され,帳票上の他の読取結果から総合された内容等を設定するフィールド。
(b)帳票上では離れた位置に存在する複数のフィールドを結合して,あたかも単一のフィールドであるかの様に取扱う機能。
- 楷書体/カイショタイ
- [the square style of Chinese character writing]
書き文字の書体は「楷書,行書,叢書(草体)」の3つに分けられる。楷書体は点画を崩さずに,きっちりと書いた書体,行書体は楷書体を少し崩したもので,叢書体は行書体を更に崩したものである。〔広辞苑〕
□一般に,手書き漢字OCRでの読取り対象は「楷書体」で書かれたものを前提にしている。ひらがなの手書き字形を規定したJISの付録に,ペン書き風の参考字形が掲載されている。JIS第一水準についてサンプル字形として引用される。
□OCR読取りには,達筆な流れる様な文字よりも金釘流の方が直線等が明確で読みやすい。
- 回線/カイセン
- [circuit]
往復の通信路を有し,両方向に通信可能な伝送路。
□電信・電話等で,両方向からの通信を伝送するために設けた路線。〔広辞苑〕
→〔ア〕ISDN回線,〔ア/イ〕INS64(アイエヌエス/インス)
→〔オ〕オーシーエヌ回線(OCN/オープン・コンピュータ・ネットワーク)
→〔カ〕回線接続/回線ノイズ
→〔コ〕公衆回線/一般加入電話回線/公専接続
→〔セ〕専用回線/専用線
→〔ト〕特定回線
→〔ツ〕通信回線/通信サービス
→〔ニ〕二重,〔ハ〕半二重
- 回転/カイテン
- [rotation]
画像の回転。一つの点あるいは軸を中心として,画素や画像を回転させること。
(1)入力帳票がポートレートタイプで,上から下へ(または,その逆に)読込むのを標準としてる様なシステムで,ランドスケープタイプの帳票が,右横から左横,または,その逆で読込まれると,90度,または270度回転させる必要がある。
(2)入力画像そのものは回転せずに,認識対象の一文字の切出分を回転させて特徴を抽出する方式や,入力画像から特徴抽出までは回転対応せずに,辞書照合段階で辞書特徴と抽出特徴を合わせ込むために回転対応する方式等がある。
- 解像度/カイゾウド
- [resolution]
画像の分解可能な細かさの程度の表し方。□光学機器の分解能〔広辞苑〕
JIS B 0137〜近接した線画1mmの中に何本分離して判別できるかの限界値。単位は本/mmで表す。(表示装置の解像度はJIS−X6041等)
□白黒の縞について解像可能な限界で示す「限界解像度」で表す方法と周波数特性としてMTF(Modulation Transfer Function)とがある。スキャナは一般的に光学解像度を解像度と称す。
FAX〜「鮮明」8本/mm×7.7本/mm
- 解像度変換/カイゾウドヘンカン
- [resolution conversion]
画像データの画素密度を変えること。読取り媒体(スキャナ等)と,記憶媒体やプリンタ等の出力媒体等とで,光学解像度と出力解像度が異なると,画像が伸びたり縮んだりして歪みが生ずる。入力側の解像度が高い場合は出力側に合わせて間引きしたり,光学系そのもので出力側に合わせて(レンズ位置の変更により)補正する。また,出力側の解像度が高い場合は,補間処理や光学的な補正により解像度を上げて,等倍になるようにすること。
- 階調数/カイチョウスウ
- [levels of gray]
濃淡画像の読取り量子化数。白/黒の場合は2値(1ビットで表現可能)。
□gradation写真印画,テレビ画像等における濃淡の変化の度合。〔広辞苑〕
□4ビットで0〜15(F)の16階調や,8ビットで、0〜255(FF)の256階調等。
□3原色でそれぞれ256階調だと全体で256×256×256階調分ある。
量子化
- 拡大縮小/カクダイシュクショウ
- [magnification & reduction]
画像のサイズ(ドット構成)を拡大したり,縮小したりすること。
(1)入力イメージと出力イメージの解像度が異なるときに,拡大縮小して調整する。
(2)300dpiの画像を150dpiのプリンタに印刷すると面積比4倍の(間延びした)ものになる。逆に600dpiのプリンタに印刷すると面積比1/4の(密度の濃い)ものになる。解像度に係わらず,元の大きさを維持するには,間引きや補間等で画像を変換する必要がある。元画像の画素を選択抽出する選択方式と,元画像の画素をある範囲で演算して,新しい画像の画素を算出する演算方式とがある。
選択法 ニアレスト・ネイバ法/SPC法
9分割法
- 拡張読取機構/カクチョウヨミトリキコウ
- [extended reading system] [extended reading system/Optional reading mechanism]
基本構成に対し,読取文字や処理の対象を拡張するための機構のこと。
□一般にユーザは,個々の用途に合わせて,基本構成の装置や機能の他に,必要な機構やシステム(パッケージ・ソフトウェア等)を追加して,使用する。漢字の読取り機構をオプションとしているシステムが未だ多い。また,ドロップアウトカラーの(暖色系から寒色系へ等)の切替もオプションで可能にしているものも。
漢字(手書き)読取りオプション(機構)
フィルタ切換方式(ドロップアウトカラー切替)
- 拡張漢字/カクチョウカンジ
読取対象を拡張した漢字の文字セット。
☆OCRメーカにより定義が異なる。注意を要する。人名漢字,当て字,旧字,等。
JIS X 0212−1990 補助漢字 5801字〜拡張漢字
- 確認修正/カクニンシュウセイ
OCRシステムではハード,ソフトの処理を問わず,最も重要な処理要素であり避けては通れないものである。在庫問い合わせのFAX−OCR処理等では確認修正無しに(センタ無人)運用されているシステムもあるが,クリーンデータのコンピュータ入力という点では,ここでの効率化がキーとなる。
(1)指定フォントの活字認識でも,入力画像の品質次第で不読箇所は発生する。
(2)手書き文字でも数字10文字の書き慣れた人の場合は,「斜め読み」でも確認は十分で修正はほとんど必要ない場合が多い。
(3)確認修正無しが理想であるが,書き手(起票者)や帳票状態といったシステム側だけでコントロールできない要素が多いため,何らかの形での確認修正の介在が必須である。ただ,熟練を要しないで作業できる様に工夫されてきている。
- 確認修正画面定義/カクニンシュウセイガメンテイギ
OCRのエントリ・ソフトウェアでOCRの読取結果を確認/修正する際に使用する画面の定義。
一般に帳票定義の一項目として定義する。
□ここでの操作のしやすさがスループットに影響し,データの信頼度も左右する。
- 方書き/カタガキ
- [care of]
〜様方
住所の一部として,地番等の後に「○○ビル」や「△△様方」等と追加するもの。
□OCRでの読取りでは,住所欄は郵便番号,住所(都道府県/市郡区※/区町村/地区名,大字,字,小字/地番),方書き等で構成される。方書きはA棟等の標記で英字も入る可能性があり,数字の郵便番号,漢字かなカナ(住所本体)と地番での数字とハイフン,方書きをフィールドを分けて処理するのが望ましい。
□方書き部分は住所辞書等の利用ができないため,個別の登録でビル名や個人名を蓄積して照合すると変換効率が上がる。
- 傾き補正/カタムキホセイ
- [skew arraiment]
スキュー補正機能/斜行補正の項 参照
- 活字/カツジ
- [font]
フォントの項参照
□一文字毎の鉛の活字から,ピン等で打出されるドット文字,電子写真の様な形で転写されるもの等,電算機システムで使用される印刷も種々のものがある。
- 活字フォント/カツジフォント
- [font]
フォントの項参照
□一文字毎の鉛の活字から,ピン等で打出されるドット文字,電子写真の様な形で転写されるもの等,電算機システムで使用される印刷も種々のものがある。
- 活字文字/カツジモジ
- [font]
フォントの項参照
□一文字毎の鉛の活字から,ピン等で打出されるドット文字,電子写真の様な形で転写されるもの等,電算機システムで使用される印刷も種々のものがある。
- 活字文字種/カツジモジシュ
- [font]
フォントの項参照
□一文字毎の鉛の活字から,ピン等で打出されるドット文字,電子写真の様な形で転写されるもの等,電算機システムで使用される印刷も種々のものがある。
- 活字手書き混在読取り/カツジテガキコンザイヨミトリ
一つのフィールドで手書きも活字も存在することを前提として読取ること。
□通常は,いずれか一方(手書きだけか,印刷文字だけか)のみであるが,空欄の場合に手書きで書き込まれたり,プリンタで追加印字されたりして,穴埋めされその部分については混在読取りを必要とするもの。処理がうまく行かなかったときだけ,違う読み取りを適用するシステムが多い。
- 活字認識/活字文字認識/活字読取/カツジニンシキ
- [print character recognition]
印刷された文字,押印された文字等は主にパターンマッチングで認識処理される。
(1)CPU速度の大幅向上で,手書き文字認識の処理方式と共用するシステムも多くなっている。しかし,文字切出等では切換えが必要で,サイズやピッチも含めた混在処理は難しいのが現状である。
(2)文書OCRでソフト処理されるものは「活字認識」の一つの形態である。
(3)プロポーショナル・ピッチ対応やイタリクス等の複数フォント対応がさらに進展する傾向にある。
(4)対応可能な字種も欧米系のカバー(英語等のアルファベットとその付帯文字対応キリル文字のギリシャ語の他,アラビア語や東南アジアの言語の印刷物にも対応しつつある。
- 活字認識(印刷文字読取り)の難しさ/カツジニンシキノムズカシサ
- [difficult reading of font]
印刷文字読取りでの困難な点は多々あるが,その中でも特に手書き文字と比べて不利な点は文字のサイズである。インチ当たり10文字程度の文字並びのものが多く,JISでの手書き数字のインチ5文字のピッチと比べると面積で単純には1/4の大きさとなる。それだけ基本的な情報量が少ないといわざるを得ない。
→ノイズ等は同じ条件のため,イメージデータのドット構成数の少なさは不利。
(1)大きさが絶対的に小さいということは,「欠け」や「かすれ」等で情報の喪失があると,その影響は手書き文字に比べ格段に大きなものとなるのは明白である。
(2)微妙な違いでも,人間は面積的に4倍の解像度と,優秀な頭脳で判断ができるがパターンマッチング等の単純手法ほど,微妙な差と変形の違いは判別しにくい。豊富な経験と知識により,角の丸みだけで瞬時に区別したりするのは神たる人間のみなし得ることである。微妙な違いを区別できることを逆手に取った省エネと経費節減を目指した社名変更の話は以下の[余談]に詳しい。
図版
〔余談〕実際に東亜国内航空/TDA(東亜航空Tと日本国内航空Domesticの合併会社)が国際線に乗り出す時にTDAをTOAに名称変更し,Dの左の上下の角を丸めてOにして,ロゴ変更等に掛かる費用を圧縮して対応する案が有力だったが,「日本農林規格」のJASと同じ頭文字の日本エアシステムという,空調機会社を想像させると新聞にも評された名前に,実際には落付いた。
- 簡易登録/カンイトウロク
- [easy registration]
OCR利用での,運用者側の簡便さを阻害するものの一つに,「定義体登録」があるが,帳票イメージ入力で自動的に,定義体を作成する機能等の開発が進んであまり複雑な構成のものでなければ,帳票設計と定義体登録が非常に簡便に,非熟練でも,できる様になった。
頻繁に取替える帳票は,簡単に作って簡単に登録し,ドンドン世代交代するのが良い。
- 簡略体/カンリャクタイ
漢字は中国から朝鮮半島,日本へと使用圏は広いが,字形は,各国や地域により独自の変遷を経て,同じ漢字といえどもかなり変化してきている。特に簡略体はその使用者さえも元の形状を忘却し再現できない様な状況である。中国では漢字全廃,英字表記移行を前提に漢字を簡略化してきた経緯があり,筆記体の援用や一部の字画の省略等,簡略化に一貫性や法則性がなく,また広い中国で暫定的な運用という気安さもあり,様々な簡略形が作られた。現在は,漢字温存の方向になっており,言扁等の頭部に鉤の付いたレの様な(筆記体・続け字)形状は確定している。戦後の日本でも簡略化に拍車が掛かり,正式字体となっているものや,「第」の代替字形になっているが非公式な「オ」に近い形状のものがある。
(1)日本での簡略体化 (卆)/卒 伜/倅,仏/佛 〔無〕/沸,売/賣 読/讀
(2)共通化には字形と意味の統一が不可欠だが,当面は同形状の字形に同じコードを付与するところからか。韓国等ではハングル化が進み,名前くらいにしか漢字を使わなくなっている。ひらがなで「ケイサツ」と日本で書くと何か締まらないが韓国ではそれで育った世代が世の中の中心となり,違和感は無い様だ。
(3)日本独自の国字の存在もあり,コード付与の際の順番等で,既存のJIS規格の並びと統一が取れなくなる恐れもある。
- 環境/カンキョウ
- [environment]
OCR運用を取り巻く環境。以下の3つのそれぞれ項を参照。
「運用環境」とは,OCR関連システムを運用する側の
(a)運用者スキル(有無およびレベル)
(b)運用システムの整備状況(メモリ容量等の余裕他)
(c)社内体制等の整備(組織としての支援体制や周囲の理解)等が重要となり,OCRシステムの活用の成否を握っている。
「記入環境」の善し悪しで記入文字品質が決まる。
「自然環境」によっては読取り結果にも影響が出る。
(a)用紙や筆記具の保存環境(保管温度/湿度)
(b)用紙の集配環境(運送経路/一時保管場所の温度湿度)
(c)FAX−OCR 電送路(冬季の雷や送電線,放送局等の影響)
「ユーザ環境」とは,OCR入力に協力的か否か,また十分な情報を供給して,理解を得る努力をしているか等。
- 漢字トーク/カンジトーク
- [Kanji Talk]
マッキントッシュのシステム・ソフトウェア。(日本語バージョン)
(1)様々なフォントを自由なサイズで表示・印刷することができる。漢字TALK7ではアウトラインフォント対応のTrue Typeを搭載。True TypeはWindowsにも搭載。他にHonMincho,MaruGothic,Osakaがある。
(2)多国語対応はOSを各国語用に作り直すことをせず同じOSを多くの言語で供用できる様にする仕掛けが用意されている。メニューやメッセージを除き共通化。
- 漢字(印刷漢字)認識/カンジニンシキ
活字・印刷漢字認識「文字切出技術やマルチ/オムニフォント読取りでの漢字の認識精度が向上した分,用途も広がり4000字種程度の漢字の読取が可能に」
(1)明朝体も種々の書体(イワタ,モトヤ等)があり,文書の指定フォント読取りは不可能。(漢字コード系は字体/字形を規定せず。新字体の採用等は明記)
(2)WP等の定型文書の他,新聞や雑誌の紙面がイメージスキャナ等を介して認識が可能になって久しい。欧文への翻訳のためのコード化原稿作成にも認識処理で。
(3)文書読取りでは,文字認識後の文章処理や形態素解析ほかで変換精度を向上。
□漢字コード系
- 漢字(手書き漢字)認識/カンジニンシキ
手書きされた漢字を(2バイト系文字として)読取り可能なこと。
(1)手書き文字では,他と一意に区別できる形状がJIS化されている1バイト系の約110字種(カテゴリ)に比べ,4000字種程度の漢字読取りは約40倍の対象数となり,数の克服が先ず避けられない。漢字とカタカナでの同形文字の他形状に微小な差しかない漢字も多く,個人の書き癖が字種数の多さで識別をより困難にしている。書き方の規制としては,「楷書」での記入という程度しかなく一文字単位での識別には自ずと限界がある。元々叢書レベルの「ひらがな」は,さらに難しい読取り対象である。手書き,活字共に,後処理が必須となる。
(3)手書き漢字には規定された字形が特に無く,ひらがなJISの付録で見本字形が第一水準について示されている。
(4)後処理は,住所の階層構造把握や,氏名/品名等の単語での識別(知識処理)。
- 寒色系/カンショクケイ
- [dropout-color cool]
寒い感じを与える色で,一般に青系をさす。〔←「暖色系/赤系」)
☆コピーマシンやFAX等のドロップアウトカラーを指す場合が多い。ブルー系。
- 感度/カンド
- [responsivity] [responsivity / sensivity]
単位露光量に対して得られる出力電圧で規定するイメージセンサの感度。
(1)単位は,V/lux・sec V/(μj/cm2)
(2)イメージセンサの光電変換ゲインは入力波長に依存するため,感度値は光源によって変わる。カタログ等では測定の光源を規定している。
- 感度不均一性/カンドフキンイツセイ
- [PRNU] [Photo Response Non-Uniformity]
イメージセンサのセンサエレメントの感度の不均一性を表す値。
□感光面に照度が一様な光を当てた時の,全有効画素の平均出力レベルをx,最大(最小)出力画素の出力レベルとの差を△xとし,△xの比で表すこともある。
_ ( △x / x )× 100 (%)
- 感熱紙/カンネツシ
- [thermal printing paper]
記録媒体にサーマルヘッドを接触,あるいは接近させ一種のコゲ目,化学変化を起こさせて,文字や図形を記録する方式の記録装置に使用する記録媒体。
FAXやWP内蔵プリンタ等で使用される。(小型化/薄型化プリンタ機能)
普通紙
- 感熱紙ファクシミリ/カンネツシファクシミリ
感熱紙を記録媒体とするファクシミリ 普通紙ファクシミリ
□出力用紙をOCR処理する場合は,フラットベッドタイプのスキャナ以外のとき当該OCRが許容する用紙(普通紙,PPC紙等)に複写して読込ませる必要がある。また,保存にも同様に普通紙へのコピーの必要がある。→消失やキズ
- 感熱プリンタ/カンネツプリンタ
- [thermal head printer]
サーマルヘッド(発熱機構)で感熱紙に文字や線,図形を印刷するプリンタ。
インクを使用するものより即乾性に優れている。キップ等の自動販売機にも使用され,時間の経過や日光他の光で印字が薄くなる様にして,不正利用防止機能を持たせたりもされている。使用後のキップを改ざんしようとしてもうまくいかない。
プリンタ(活字印字・文字印刷,感熱プリンタ THP)
- 完全静止型(カメラ型)/カンゼンセイシガタ
二次元イメージセンサを用いたイメージスキャナの走査方式で,主走査,副走査ともに電子的に走査して原稿/帳票イメージを読取る方式。
□原稿/帳票あるいはセンサを移動させて二次元をカバーする方式に比べ,双方が静止状態で読取るため,カメラ型とも呼ばれる。
- 完全密着型光学系/カンゼンミッチャクガタコウガクケイ
全くレンズを用いないで,イメージセンサに原稿を完全に密着させ画像を読取る方式。レンズレス方式とも。密着光学系は7〜50mmの光路があるのに対して全く光路が無い方式。センサ自身に照明や結像のための構造的な工夫がある。
- ガンマ補正/ガンマホセイ
- [γ correction] [γ (gamma) correction]
入射光束量に比例したイメージセンサの出力の暗部を,より明るくしたり明部をより暗くする等の補正を行うこと。
○補正式
図版
- 外字/ガイジ
取扱外(範疇外)の文字のこと。人名等で難しい文字を使っている場合等にはコンピュータ入力で単純処理できず,「外字登録」等を経てシステム内だけのみ通用する文字パターンを与えられたりする。漢字には正字や異体字等同じ意味を表す文字でも形状にバリエーションがある。また市町村等で受付ける人名等では明らかに誤字と思われるものも含まれ,平均的に500文字位を外字として登録しているといわれる。OCRでの文字認識,特に漢字では一文字単位では微妙な違いは判別し難く,ましてや誤字では読んでも似た文字を候補に挙げるしかない。
- 外注/ガイチュウ
データ入力の外注化は,データ内容次第では機密保持等の面で問題がある。
(1)人事データ等ではプライバシーの問題もあり,運用や操作に熟練を必要とせず,簡便に使えるOCRがあれば,内部での処理が容易に構築できる。
(2)通常のデータでも読取精度が高ければ,専任のキーパンチャーを置かずに容易に大量のデータ入力が可能で,外注での費用や所要時間の削減が図れる。
- 外部バス仕様(参考)/ガイブバスシヨウ
周辺装置の接続を目的としたバス。外部バスには拡張スロットが接続される。
ISA EISA MCA C 備考 アドレスバス幅 24 24/32 24/32 24 ビット データバス幅 8/16 8/16/32 6/32 16 最大バスクロック 約8 約8 10 8/10 MHz 最大データ転送 4 33 20 10 Mバイト/秒 DMA チャネル数
転送モードシングル
バースト8
○
―8
○
○8
○
○4
○
―IRQ チャネル数 11 11 11 7 バス・マスタ数 2 15 15 2
- 画質/ガシツ
- [quality of image data]
画像品質のこと。写真やテレビ画像の総合的な品質。〔広辞苑〕
○画質の決定要因には,物理的要因と心理的要因とがある。
1)物理的要因 情報源変換系から表示・印字装置へ至る伝送システムの特性に基づくもので,主なものに,MTF特性,階調特性(γ特性)色再現特性,周波数特性,S/N比 等がある。
2)心理的要因 人間の視覚のもつ性質と観察者の経験や主観に依存する。
- 画質改善/ガシツカイゼン
鮮鋭化※等で画像の品質を向上させること。文字認識では,その認識方式処理に都合の良い(元の情報を壊さず)画像へ変換することも含まれる。
□※→細かな微妙なところまで鮮やかに写しとったり,再現するさま。〔広辞苑〕
- 画質強調/ガシツキョウチョウ
- [contrast enhancement]
コントラストの低い画像をコントラストの高い画像に変換すること。
(1)コントラストの低い画像は,図1の様な濃度分布(ヒストグラム)を持っている。
画像の濃度範囲を〔P1,PK〕とすると,この一部の範囲〔a,b〕にのみに分布している。この〔a,b〕を〔P1,PK〕に広げる線形濃度変換後の濃度分布は図2の様になり,コントラストを高めることができる。
(2)線形な濃度変換は,変換後の画像濃度をP',入力画像の濃度をPとすると,
PK−P1 P’= (P−a)+P1 b−a
(3)入力画像濃度と出力画像濃度の関係は図3の様になる。
図版
- 画質劣化/ガシツレッカ
- [reduction of image quality]
OCR装置に取込む画像の品質が何らかの影響で低下すること。
☆例えば,光学系に使用のランプの光量が低下した場合に,画像信号のS/N比が低下し画像にランダムなノイズが混入することなど,がある。
- 画素/ガソ
- [pixel] [pixel (or) picture element (or) pel]
テレビジョンや写真電送等で,画面を分解した微小な単位要素。〔広辞苑〕
□画素を構成する最小の要素。(JIS Z 8120)イメージスキャナの場合原稿上の文字画像情報をイメージセンサの受光セルにより電気信号に変換する際の最小単位が画素に相当する。
- 画素密度/ガソミツド
- [pixel density]
単位長さ当たりの画素数。線密度ともいう。1mmあるいは,1インチの幅の中に存在する画素の数で表す。画素をドット(dot)等で表しd/mmやdpiやppiを単位とする。dpi/ppiは,それぞれdot per inch/pixel per inchの略。
- 画像/ガゾウ
- [image data]
R等で認識処理する対象のイメージデータ,帳票イメージ等。画像データ。
- 画像エディタ/ガゾウエディタ
- [image editor]
リーダーで文字認識を行う際に,認識に都合の悪い画像部分を,あらかじめ削除することにより認識をスムーズに行うことができることから画像をスキャンした段階で,画像の部分削除や挿入,移動などを行うための編集機能をいう。
- 画像処理/ガゾウショリ
- [image processing]
画像に何らかの加工・処理を行って,目的に沿った表現にしたり,より高い付加価値を持たせること。 入力/変換/解析/認識等。
(1)強調/平滑化/幾何学的変換/エッヂ検出/領域分割/テンプレートマッチング
(2)エアブラシ/筆ペン描画/シャープネスブラシ/スムージング/ピクセルコピーカラー充填(フィル)/カット&ペースト
- 画像データ/ガゾウデータ
- [image data]
イメージ情報を計算機で取り扱うために,所定のアルゴリズムでデジタル化して表現したデータ。イメージデータともいう。
- 画像認識/ガゾウニンシキ
- [image recognition]
画像の内容を理解して,画像処理やレイアウト処理をおこなう。
□OCR読取り後の文章の段落などを把握してレイアウト変更する等。
- 画像ファイル/ガゾウファイル
- [image file]
コンピュータシステムでイメージデータを取扱う機会が増えている。イメージや画像と呼ばれるデータのファイル形式は種々存在するので,それらの蓄積や伝送編集等には注意が必要である。Mac環境ではPICT,写真画像ではTIFF,ソフト間での図形のやり取りはEPSフォーマットが主流。他にBMP等
以下ファイル形式の例。
(a)イ)イー・ピー・エス(EPS/Encapsulated Post Script)
イラストレーションやページレイアウトプログラムでサポートされる。
(b)シ)シー・ジー・エム(CGM/Computer Graphics Metafile)
ジ)ジー・アイ・エフ(GIF/Graphics Interchange Format)
Compu Serve社がグラフィックイメージを交換する手段として開発した。
(c)ダ)ダヴリュー・エム・エフ(WMF/Windows Metafile)
(d)テ)ティ・ジー・エィ(TGA/Targa)
True Vision社がビデオボードシステムのために開発したフォーマット。
(e)ピ)ピー・シー・エックス(PCX/PC Paint Brush)
Zsoft社のPaint Brushが扱うファイル形式でMS−DOSのグラフィックアプリケーションにおいてよく使われる。
- 画像メモリ/ガゾウメモリ
- [image memory] [image memory/strage]
イメージ情報をディジタル化したデータ,イメージ・データを格納する記憶装置。
(1)メモリ部(DRAM等)とデータ送出部(シリアルレジスタ)等で構成される。
(2)高速シリアルアクセス動作/リード・ライト同時処理/大容量廉価
→ グラフィックディスプレイのフレームバッファ等。
(3)A4サイズを300dpiでフルカラーだと25メガバイトのメモリが必要。
→ データ圧縮が必須。JPEG JBIG MPEG等
- 学習/ガクシュウ
- [learning]
それまで知らなかった事柄を新たに会得すること。□過去の経験の上に立って新しい知識や技術を習得すること。精神・身体の後天的発達のこと。〔広辞苑〕
(1)経験を基にして新しい適応の方法を習得すること。
(2)認識関連では,手持ちの辞書(認識辞書/単語辞書等)に,読取結果や修正結果内容を基に,新項目を追加していき,適用範囲を広げていくこと。
(3)OCR機能をニューラルネットワークで,人間の処理に似せて実現しようとする研究が続けられている。多数の信号変換素子を持つ層を,入力層から出力層へと層状に並べ,入力信号と理想的な出力信号を次々に提示し,変換素子間の結合の重みを自動変換させ,正しい出力が得られる様にしていく過程を学習という。図では,i1〜inのn個の入力素子からなる(n=1〜)入力層とm1〜mxのx枚(x=1〜)の層で構成される中間層(各層はm11〜m1j(j=1〜),mx1〜mxy(y=1〜)の素子でそれぞれ構成される)とo1〜oz(z=1〜)の素子を持つ出力層からなるNW。学習はこの素子間の結合の重み(weight,例えばi1素子とm11素子ではWi1,11)を変えることにより行われる。
図版
- 学習機能/ガクシュウキノウ
- [learning mechanism]
文字認識や知識処理の辞書を自動的,あるいは,ユーザの操作で変更/追加する機能のこと。〔2版継承〕
□ニューロ・コンピューティング等で,文字認識も学習により識別率を上げていくシステムが作れるといわれて久しいが,実用的なものは未だ製品化されていない。これは,「詰込み型」のシステムの弊害か?→「体験学習型ロボット」の項へ
- QRコード/キュー・アール・コード
- [QR Code] [Quick Response Code]
バーコード,二次元バーコードの一つ。(AIM Japan規格)
□カルラ・コードに似た二次元バーコードで,(株)デンソーが商品化している。
(1)従来の一次元のバーコードの面積で100倍の情報量を表示可能。
(2)漢字等(JIS第一,第二水準)も表示できる。
(3)最大で表示面の30%程度までの汚染や破損があっても読取れる。
(4)100桁程度のデータを毎秒30枚読み取り可能。
(5)入力部は,ハンディ(ワンド)型,ペン型,カメラ型がある。
(6)衣料品のタグ等の極小面にも印刷可能。名刺に刷り込みIDカードにも。
図版
- QRシステム/キュー・アール・システム
- [Quick Response System]
迅速応答,開発から製品化までの期間を短縮して経営効率をあげること。
□特に,多品種少量生産の業界では,開発までの動機付けから製品化までもできるだけ短縮して,ニーズに即応しないと時代に取り残され生き残れない。
- キー入力(エントリー)モード/キーニュウリョク
- [key entry mode]
読取り不良(リジェクト)や未記入の欄にデータを追加する時に使用するモード
□大抵の確認修正機能で,読込み外のデータを追加するのに用意されている。全くOCRシートの無い状態でも(全件打鍵で)入力が可能である。
- キーパンチャー
- [key puncher]
OCR入力でもキー入力は避けて通れず,熟練,非熟練を問わず必要になる。
(1)クリーンデータ化する際には何らかの形でのキー入力やマウスでの選択が必須である。100%認識でも,追記データや読取結果の書換え/変更がある。
(2)ベリファイ打鍵で入力精度を高めているシステムでは一次入力をOCRで実施し二次を熟練キーパンチャーで行う等すると,コストも精度も望ましい方向になる。
- キセノン・ランプ
- [xenon lamp]
OCRのスキャナ等の光源。JIS Z 8113,8120,9212
□主としてキセノンガスの励起により発光する放電ランプ。高圧キセノンガス放電。紫外から可視,赤外の領域にわたる連続発光スペクトルで,可視光領域の分布は太陽光に似ている。点光源に近く,輝度が高いのが特徴。
- CAD/キャド・システム
- [CAD] [Computer Aided Design]
コンピュータ設計支援システム。直接筆記具等を使わずにコンピュータに直接に図面データを入力し,また表示する。
- 90度回転読取/キュウジュウドカイテンヨミトリ
- [90-degree rotation reading]
ランドスケープ帳票をスキャナの都合で,縦横を逆にして読込んだ帳票イメージを+または−90度回転させて,認識処理画像として正立させること。
(1)入力イメージはそのままにして,切出した一文字分のみを回転させるもの,特徴空間で疑似的に回転させる方法等もある。ローテーション読取りともいう。
(2)帳票が±90度ずれた方向に入力されたイメージを正立化して認識処理する。同じA4サイズの帳票でも,横に長く(ランドスケープで)使うか,縦に長く(ポートレートで)使うかで,一行のデータ量や書きやすさが変わってくる。横長に使うと,帳票読込とは直角に読取り対象が並んで,イメージを左右いずれかへ90度回転してやる必要がある。イメージ全体を回転する方法と,左下から上へ,あるいは,右上から下へ順に文字切出を行い,読取対象から抽出された特徴を90度位相をずらして照合し元のイメージの回転をしないで認識処理する。また確認修正での画面のためには,文字単位で小規模に回転させ処理効率を上げる方法もある。
回転読取り(180度回転/天地逆回転/±90度回転)
回転補正(3点補正/斜行補正/蛇行補正)
ランドスケープ,ポートレート
- 9分割法/キュウブンカツホウ
- [9-region splitting]
2値画像を拡大縮小すると生ずる画質劣化を防ぐ(緩和する)一つの手段手法。
(1)原画素の矩形領域を縦横3分割の9個のサブエリアとし,元の点がどのエリアに属するかによって,その点の画素値を決定する。
(2)具体的例。(テレビジョン学会編 パソコン画像処理 昭晃堂S63)
図版
- 規格/キカク
- [standard]
OCR関連では次のようなJIS規格がある。
〔文字字形関連〕
(1) 手書き英数字 〜 JIS X 9001 NA (2) 磁気インキ文字 JIS X 9002 MICR文字 (3) 印字(カタカナ) JIS X 9003 K−font (4) 印字(英数字) JIS X 9004 NA−font (5) 手書きカタカナ JIS X 9005 HK/手書きカタカナ (6) 手書き数字 JIS X 9006 HN/手書きアラビア数字 (7) 手書き英字 JIS X 9007 HA/手書き英字大文字 (8) 手書き記号 JIS X 9008 HS/手書き特殊記号 (9) 手書きひらがな JIS X 9009 HH/手書きひらがな
〔ハード他の規格〕
VCCI〔装置関連〕
ANSI →アンシー(アメリカ)
DIN →ディン (ドイツ)
- 棄却(リジェクト)/キキャク
- [reject]
読取り不能/論理チェック等でエラーとなって読取り結果が採用されないこと。第一の候補の得点が低いか,第二位との有意差が無い場合も棄却の原因となる。
リジェクトの項参照
- 棄却率/キキャクリツ
- [reject rate]
棄却された文字の全体での比率。(リジェクト率とも)
リジェクト率の項参照
- 記号(特殊記号)/キゴウ
- [symbol]
記号には次の様なものがある。
(1)数字記号 数字と共に使われる頻度の高いもの。¥+−.(小数点)等
(2)英字記号 英字と共に使われる頻度の高いもの。#%&@等
JIS X 9008/9001で定義の文字字形
- 記入ガイド/キニュウガイド
- [guidance]
手書き文字の記入枠内に設定するドロップアウトカラーインクで枠と一緒に,印刷された「点」や「基準マーク」のこと。
☆基準マークを付けることで,記入文字の大きさや,形状のバラツキを逓減させる効果がある。反面,記入者にはわずらわしく感じられることもあるので使用場面(どの様なレベルの記入者が多いか)を良く考えて設定する必要がある。
案内点,案内文字の項参照。
- 記入環境/キニュウカンキョウ
- [environment]
読取りの精度を向上させるには,起票(帳票記入)時に,読取りに十分な字形や文字の濃さと,文字線の幅確保等が重要で,書きやすい環境を整えて,筆記具等も読取りに適した文字が書けるものを用意して,下敷きもしくは,表面が滑らかで(傷等の無い)固い机と,ぐらつかないしっかりした椅子等を用意する。
- 記入者/キニュウシャ
OCR帳票に文字を記入する人。「起票者」とも
(1)記入者が限定されている場合と,そうでない場合(不特定/特定)がある。
(2)不特定で,かつ多数(所謂「不特定多数」)の場合は,個々の記入環境を整えることは難しく,さらに記入者教育等も期待できない。しかし,郵便番号等の様に数字等に限定しての使用では,記入者が不特定多数でも,リジェクトや誤読への対応手だて※を十分にすればOCR機能を有効に使用できる。
※「論理チェック」等の導入,容易な確認修正システム,リジェクトへの補間等。
- 記入者教育/キニュウシャキョウイク
- [training for writing]
利用者,特に起票者/記入者に事前に書き方等を提示し,コツをつかんでもらう。
(1)記入者/起票者が,特定の範囲の人に限られる場合は,多数であっても,事前に書き方を提示し,ポイントをつかんでもらう教育ができる場合がある。
(2)また不特定多数でも結果が何らかの形で返送される場合は,記入のポイント等を返信の一部に記載し,次回利用の際には参考にしてもらい,精度向上に役立てる等の手段もある。帳票上に見本文字を印刷しておくなどは初歩的な対応。
(3)FAX−OCRシステムでは,送信者訂正(確認)で入力されるケースが意外と多いが,人間は「学習能力」があり,2〜3回のやり直しで以降はスムーズに。オペレータをセンター側に置きたくない「在庫管理/照会」等の運用では,特に受益者負担ということもあり,送信者が読取り結果には全責任をもつシステムも支持されている。
- 記入時の注意点,留意点/キニュウジノチュウイテン
帳票の欄外等に(クリアエリアを侵害しない様に)記入上の留意点等を印刷しておくと,記入時に起票者に注意を促すことになる。
□読取精度の向上は「字形」のみと考えられやすいが,「変形文字(癖字)」等への対応はかなり進んでおり,OCRに比べて低品質画像となりやすい様々なイメージ入力手段への対処のため,字形だけでなく,「濃く,大きく,太く」等の記入に際しての注意が,むしろ重要になってきている。
☆例)「この帳票はコンピュータで処理されます」等や「見本字形」
実際的な「記入上の注意点/留意点」に付いては,記入者教育の項参照
- 記入枠/キニュウワク
- [entry frame]
読取り対象となる文字を記入する枠。一文字枠,ブロック枠等がある。
(1)一文字毎に独立した枠を並べてフィールドを構成するもの。
図版
(2)一文字毎の仕切りが共通化された「梯子」状のもの。
図版
(3)格子状に上下左右に文字枠が並ぶもの
図版
(4)一文字単位ではなく,複数文字を書込める「ブロック枠」。
図版
(5)「枠」ではなく,下線の場合も(サイン等)
図版
- 起票/キヒョウ
- [fill in a slip]
帳票記入のこと。起票時点で読取り精度の大半は決まるといっても過言ではない。
- 起票者/キヒョウシャ
帳票に書込む人。(記入者と同義)運用の成否を決める重要な要素(書いた文字)。
- 基準辺/キジュンヘン
- [standard side]
定義体での寸法を図る基準になる用紙の辺。裁断精度が要求される。
- 基底(線)/キテイ
- [bottom line]
機密保持/keeping.secret
確認修正画面や,帳票/伝票そのものから,機密事項が第三者の目に触れたり漏れたりしない様に措置を講ずる必要がある。
□認識精度が高く,かつ安価でコンパクトなOCRがあれば,例えば人事部専用のマシン(部門専用)として導入することも可能で,限られた少数の関係者のみがデータにタッチする機密保持システムが組める。.OCRメリット
- 旧OCR−B/キュウオーシーアールビー
- [old style of OCR-B font]
ジィス・オーシーアール・ビィの項参照
- 旧JIS OCR−B/キュウジスオーシーアールビー
- [old style of JIS OCR-B font]
ジィス・オーシーアール・ビィの項参照。
- 給紙機構(給紙系・搬送系)/キュウシキコウ
- [feeding mechanism]
ADF,オートフィード機構,スキャナ部の項
- 給紙系/キュウシケイ
- [document feeding system]
ADF,オートフィード機構,スキャナ部の項
- 給紙方式/キュウシホウシキ
- [document feed method]
原稿や帳票をスキャナやOCR,FAX等にセットする際,読取り対象の面を上にするface upと,下にするface downの2通りがある。最近は両面読取りの機能を備えている機種もあるが,何方の面を先に登録(頁設定)するかで選択は必要である。フラットベッドタイプでガラス面に置く場合はface downである。
□ホッパに用紙を積むタイプでは,積んだ用紙の上部から取込んでいく(上取り)ものと,積まれた用紙の一番下から取込む(下取り)のものとがある。
□スタッカ付きタイプでは,読終えた用紙を取込んだ(face up/down)時のままの向きで排出するものと,半回転させホッパに積んだ時とは逆の面を上にして排出するものとがある。プリンタも単票出力(排出)時にface up/downの2種がある。
- 鏡像/キョウゾウ
- [mirror image] [mirror image/flip image]
鏡に写った像の用に左右対象にイメージデータを処理する機能。鏡像出力。
□一旦格納されたイメージバッファから処理ソフトで左右対象に読出す方法の他に,スキャナからの1ライン分のデータ毎に左右逆に読出す方法とがある。
- 鏡面反射/キョウメンハンシャ
- [reflection of mirror]
記入文字の線が凹んで凹面鏡の様な効果で光って,「白」に近くなること。
文字線の凹みは鉛筆の鉛が張りついて,車のヘッドライトの反射鏡の様な状態になり,照射光を集めて回りより明るい状態になる場合,「白」側となる。
(1)鉛筆の芯が太くなったもので,用紙も重ねたりして記入すると,文字が紙面から凹んだ状態で書込まれる。鉛筆の鉛が塗膜となり,凹面鏡の様に投写光に反射しむしろ明るくなり,「黒」の文字の線として捕らえることが困難になり,字形を正確に取出せず,リジェクトや誤読の原因となる。〜凹面反射/凹み/鉛筆
(2)例えば「単純縦棒」の「1」を書いた場合,書始めに特に筆圧が強いと,書始め部分が凹んで,2値化した時に,針状のイメージが取込まれ,「9」に誤読する場合もある。OCR処理対象のイメージだけを見た場合,「9」の細長い変形と判断される場合があり,確認修正でも誤読の排除が難しいことにもなる。
(3)鉛筆記入はメカニカル(シャープ)ペンシル等,芯の太さが保てるものを使用し下敷きや滑らかで固い表面の机の上で,一枚毎に記入する。
- 教育システム/キョウイクシステム
- [Educational system]
オンライン認識応用 筆順他
オンライン手書き認識等では,教育ソフトとして筆順等を含めた書き方の教材が充実している。OCRは不特定多数を対象にするほど無縁に。
- 教科書体/キョウカショタイ
- [TEXTBOOK]
日本語印刷文書での活字読取対象の一つ。初等教育の教科書のための筆写体に近い活字体
楷書体,明朝体(イワタ/モトヤ/秀英他),「ゴシック」
- 切換/キリカエ
OCR関連では,次の2つの「切換」がある。
(i)フィルタ切換 『OCR/スキャナで,ドロップアウトカラーの異なる帳票を処理する際,光電変換機構の光フィルタを変えて対応すること。』
(ii)帳票切換 『業務の移行等での帳票切換時には,新規帳票のレイアウトばかりに関心を向けず,ドロップアウトカラーも従来通りに機能しているか,また,定義体の登録ミスがないか,等のチェックが重要になる。(慣れは禁物)』
- 切出(文字切出)/キリダシ
認識処理を行う最小単位である文字を,一文字分だけ帳票イメージから切出す。
(1)行イメージを切出し,行内のフィールド,フィールド内の一文字を切出す。
(2)イメージ切出しの指定領域を定義体に従って切出すこと。
(3)カラースキャナ等では指定色の部分だけを自動的に(フィルタを掛け)選別して切出すことも。マニュアルで指定領域を矩形で指定する方法もある。
- 切れ字(途切れ文字)/キレジ
活字(印字)と手書き文字で次の2つの「切れ字」があり,何れも「認識処理」の障害となる。
(1)活字での「切れ字」とは,印字したときに,文字を構成する線の中で途切れたりかすれが生じて印字品質が低下したもの。認識では切出しに影響する。
(2)手書き文字では,記入時に下敷きや机等の傷(凹み)が反映したり,ゴミに乗り上げたりして文字線が途切れたり,筆圧が弱く2値化の際に途切れが生じた文字のこと。#手書き文字での読取り不良字形3種のひとつ。
- 近赤外光/キンセキガイコウ
- [Near Ultrared Ray]
OCR用ボールペンのインクは吸収されない。
- 疑似中間調/ギジチュウカンチョウ
- [halftoning] [halftoning, pseudo continuos tone]
いわゆるグレーレベルを多値で表現するのではなく,ディザ/誤差拡散法等で疑似的に2値で表現するもの。
☆例えば,2×2の4点で,レベル0〜4の5段階を表示,実際には16通りであるが,濃さとしては,0,1,2,3,4となり,各点の周囲の状況に応じレベル1の4パターン,レベル2の6パターン,レベル3の4パターンを使い分ける。
図版
- 仰角(持ち上げ角)/ギョウカク
- [elevation angle]
ハンドOCR(ワンドタイプ)やバーコードリーダのガン部(スキャナ)と読取紙面とのなす角度。
- 行/ギョウ
- [read line]
読取り対象の文字枠が並んだ一つの行。
□通常,OCR(文字認識)処理は帳票上の行単位に行われる。
(1)ID読取り後に,そのIDで定義されたフォーマットに従って読取行位置付近のイメージのみを読込むものと,帳票イメージ全体の読込み後,ID情報に従って行単位の切出しを行うものとがある。
(2)行は1つ以上のフィールドから構成され,各フィールドは1文字から複数文字で構成される。一文字単位の認識処理の後はフィールド単位での論理チェック他の後処理が施される。フィールドは複数の行にわたる場合がある。
(3)一文字単位の認識処理がなされるのは,「行(イメージ)」の切出しからである。
図版
- 行間隔(ピッチ)/ギョウカンカク
- [read-line pitch]
帳票上の読取り対象行の上下の間隔で,
(1)行中心線の間隔(文字枠高さと必要なクリアエリアの高さ)を指すのが普通。
(2)上下の行の文字枠間ギャップ(余白)をいう場合もある。行間余白
図版
- 行間余白/ギョウカンヨハク
- [line space]
行間隔の(2)項参照。格子状の枠では存在しない。
- 行マーク/ギョウマーク
- [read-line mark]
OCR帳票で,読取り行に付けて行位置を正確に検出できる様にするもの。
□行マークを不要とするシステムも多いが,斜行や伸縮の影響を受やすい入力形態のFAX−OCR等では特にドロップアウトカラー枠の帳票イメージの補正や行数チェック等に不可欠である。
- クーリエ
- [courier]
活字フォントの一つ。フォントの項参照
図版
- クライアント・サーバ・システム
- [CS/CSS] [client-server system]
異なるハードウェアや,異なるOSの下にある別々のソフトウェアが連携して,一つのアプリケーションソフトウェアを効率的に実行する形態のシステム。
☆複数のアプリケーションソフトウェアに共通する情報を管理する部分(サーバ)とアプリケーションソフトウェアが利用する部分(クライアント)とが,必要に応じてデータのやりとりをして,処理を進める。 クラサバ,CSS等ともいう。
- クラスタリング
- [clustering]
高次元空間の中で,表現される多次元の点が沢山あるとき,それらを幾つかの塊にグループ分けしていく方法。
☆文字認識の大分類などでも使用される。
- クリーニング・ローラ
- [cleaning roller]
給紙機構の障害や読取り精度に影響する「ゴミ」を除去するローラ。
(1)帳票に付着した消しゴムのカスや鉛筆の芯のカケラ,ミシン目帳票の紙粉等の他人の髪の毛や,その他の空気中の塵が,静電気による吸寄せもあり搬送系には,溜まりやすい。→シェル・タイプのものは,人手による清掃も簡単である。
(2)これらのゴミは,搬送系の邪魔となる(ジャムや斜行)だけではなく,読取り精度にも大きく影響する。これらを防止するために除電ブラシやハケ付きのもの,圧搾空気での吹飛ばし機構等様々なゴミ除去が考案されている。
- クリーン・データ
- [clean data]
OCR処理後の,誤読やリジェクトの修正された,正しいデータ。
- クリア・エリア
- [clear area]
OCR読取り対象の周囲に設ける,余白。文字切出等で必要。
- クリック
- [click]
今やユーザインタフェースの重要な機器となったマウスのボタンを,カチッと一回押して直ぐに離す動作のことで,ダブルクリックは,これを素早く二度繰り返すこと。
□年配者は,クリックを苦手にしている人もいる。ダブルクリックでは設定時間を延ばして,ゆっくりな動作に対応できるように変更する場合が多い。
- クリップ・ボード
- [clip board]
複数のアプリケーションソフトウェアで,互いにデータ交換しながら,処理を進めていくため,データ交換を実現するためのもの。
- クロック(周波数)/クロック
- [clock]
CPUを一定の周期で動かすための信号。
- 区画/クカク
- [partition]
ハードディスクや光磁気ディスク等で記憶容量を,幾つかに分割したもの。
- 区切り文字/クギリモジ
- [delimiter]
カナや数字を混在して記入するが,読取りは単独読取りとしたいとき等に,φや鉤括弧(「,」等)を片方の文字種の文字列の前後に挟んだり,変化する部分に挿入して,文字種の切り替わったことをシステムに感知させる。
□ただし,区切り記号を誤読すると,字種が切り換わらず,誤読が多発することに。
- 空間フィルタ/クウカンフィルタ
- [special filter]
注目画素の近傍の画素に重みを掛けて演算し,平滑化を行う。
平滑化の項
鮮鋭化の項
- 黒(文字)枠/クロワク
- [non-dropoutcolor entry frame]
一般にドロップアウトカラーインクを使わないで印刷された文字枠をいう。
□必ずしも「黒」で印刷されている訳ではない。白/黒の2値化で,黒側になるという意味である。
〜当OCR委員会では「黒色文字枠」を正式名称としている。
- 黒レベル(二値化レベル)/クロレベル
スキャナが取込める白黒の限界レベルで,例えば真っ白を0とし真っ黒を10とすると,(PCS値では0.0〜1.0で表示)平均的なFAX等では,「7」程度以上の黒を,2値化したときとの黒側にできる。しかし,5〜6程度の濃さ(鉛筆等)の黒は2値化で「白側」になる可能性が高く,着信側には白紙となる場合もある。あまり黒レベルが低い(感度が高い)場合もノイズ等の影響が大きくなり,イメージ品質は必ずしも良いとはいえない場合もある。
- 黒レベル不均一性/クロレベルフキンイツセイ
- [dark level non uniformity]
イメージ・センサの個々のエレメントの暗時出力が,熱ノイズ,駆動信号による周期的な誘導ノイズ等により均一でなくなること。
- グリーン
- [Green]
ドロップアウトカラー(寒色系/青系)の一つ。
- 傾角/ケイカク
- [tilt angle]
チルト
ハンドスキャナで手持ちスキャナと用紙媒体のなす角度α。ひねり角ともいう。
□ハンドOCRやバーコードリーダのヘッド部,ワンド等の手持ちのスキャナ部を用紙面に当てる際の角度で紙面になるべく平行になるのが望ましく,小さい方が良い。文字列やバーコードに沿って動かすタイプは角度を一定に保つことも重要。二次元素子等を利用したものでは,一度に面状にイメージを取込むため画素間最大になるところで自動的に取込まれるものもある。
図版
- 蛍光体/ケイコウタイ
- [phosphor]
フォスフォー
CRT管(ブラウン管)の内面に塗布され電子ビームを可視光に変換するもの。
図版
- 蛍光ランプ/ケイコウランプ
- [fluorescent lamp]
JIS Z 8113, Z 8120, Z 9212
発光の主要成分が放電からの紫外線照射によって励起される蛍光物質のホトルミネッセンスである放電ランプ。
(1)管内の水銀蒸気を放電により発光させ,そこから発する遠紫外線を管壁に塗った蛍光体に照射することで,明るい蛍光の発光を得るタイプのランプ。発光できる温度範囲があり,光源として使われるスキャナ等の稼働温度範囲を左右する。
(2)管内にキセノンやネオンを封じた希ガス管と呼ばれるタイプがあり,水銀よりも温度依存性が少なく安定性に優れている。
(3)蛍光ランプは冷陰極管,熱陰極管の2つがあり,放電開始方法が違う。
熱陰極管 予熱フィラメント付から始動時,熱電子が大量に管内に放出される。
冷陰極管 始動時,高電圧を掛けて,二次電子の放出を促す。熱陰極方式よりも長寿命で構造が簡単にできる利点がある。
(4)蛍光面に塗るものを選んで発光色を変えられるためドロップアウトカラーの色に合わせられる。また,円筒形状はラインセンサに沿って一様な光を用紙面に照射でき,イメージセンサの光源として優れている。PC接続等のコンパクトタイプでは,ほとんどが蛍光灯を光源としている。FAX等では二本の蛍光管を途中でダブらせて長さを稼ぐタイプのものもある。中央部の光は減光処理されて均一化されているが,片側だけ寿命で暗くなる場合がある。FAX−OCRの運用ではコピー機能で左右の均一性を時々チェックしておく必要がある。
(5)通常の商用周波数電源(50〜60Hz)は点灯時に光源にフリッカが出るため,蛍光灯インバータによる数10kHzの電源で点灯されるのが一般的である。
(6)集光性を高めるため,蛍光体の均一塗布をせず,ガラス管内面に一定の開口部を有する様に反射膜,蛍光体膜を塗布し,透明の部分を確保して,そこから多くの光量が出る様にしたアパーチャ型の蛍光ランプもある。
- 罫線除去(消去)/ケイセンジョキョ
- [FRAME ERASING]
OCRに取込んだ帳票の画像から,表等に含まれる罫線を消去する機能。
(1)ドロップアウトカラー以外で作成された表や文字枠であっても,その中の文字を精度良く読むことが可能になる。
(2)書式の無い(事前登録等されない)文書では,長い線分やクロス等を基準にして自動的に抽出して消し込んでいく。帳票であらかじめその位置が定義されているものは,実際の入力イメージでの位置を確認しながら,消し込まれる。
(3)印刷物での表等の線は,同時に印刷された文字との絡みの影響がほとんど無い。手書き伝票/帳票では,文字枠に重なったり,突抜けたりした文字もあるために単純な消込みだけでは,読取り結果に影響を及ぼす。またいだ線等の修復が必要。
- 罫線接触文字読取/ケイセンセッショクモジヨミトリ
ドロップアウトカラーを使用しない文字枠や罫線で作られた帳票での読取りでは記入文字が文字枠や罫線に接触した場合は,ドロップアウトカラーの文字枠とは異なり,読取り対象の文字線と罫線を区別して認識処理する必要があること。
(1)同じ「黒」線同志で重なったり隙間無く並行したりした線の取扱次第で,誤読やリジェクトが多発することになる。
(2)取込んだイメージ情報と帳票の定義体の情報とを突き合わせて,消し込み対象の文字枠/罫線を分離し,重なったり,並行している部分は,一旦消込みを行った後に文字成分だけを修復する必要がある。位置ズレを見込んで大きめの消去の範囲を設定するのが普通で,罫線に沿った2の下線部などは修復されずに7への誤読となり得る。
(3)突抜けてはいないが文字枠/罫線で止まった文字線は修復がしにくい。図参照。
図版
- 警告文字表示/ケイコクモジヒョウジ
PL法対応で,商品説明書に追加された「使用上の注意点等を列挙したもの」とOCR帳票上に印刷される記入や取扱での禁止事項等の表記。
- 形態/ケイタイ
- [form] [form/shape]
装置形態/利用形態(運用形態)等。
(1)OCR装置の形態としては,自己完結型のいわゆる「スタンドアローン」タイプから確認修正や定義体登録他,OCRの制御等をPCやWSで行うデバイスタイプやスキャナ以外は全てソフトウェアで処理される形態のものまで様々である。
一体型,分離型
CRU型,1ボード型
(2)OCRの利用形態としては,社内運用で記入者が特定されるものから郵便番号の様に,記入者が特定できず,それも全国規模の多さで,そのほとんどは機械で読取ることを意識しないものまで様々である。FAX−OCRも一つの運用形態。
- 消込作業/ケシコミサギョウ
ターンアラウンド帳票が、それを発行したシステムへ戻ってきて処理済になったときに,その分を未処理リスト等から削除すること。残りを管理することで未着未払い等をチェックして,督促したりするための作業。
□納税通知書や支払い請求書等をOCR化しておいて,支払いとともに提出された帳票を読込んで処理済になったものをリストから消していく。商品券等も通番の管理がされており,使用されると発行リストから削除して,偽造券の排除や二度使用等の不正を発見し,また未然に防ぐのに重要な役割を果している。
- 消しゴム/ケシゴム
- [eraser]
帳票記入文字の書き直しの他に,印刷文書 (新聞雑誌の紙面やWP文書他) でも,元々のイメージで取込みたくない(FAX等で送信したくない)部分を消すのに使われる。またPC画面等でツールとして(アイコン選択)不要箇所の除去等に使われるものを指すこともある。前者の「消しゴム」について以下に詳解する。
□OCR対応の帳票では,「消し残り」や「消しカス」等の問題で,書き直しよりは,取消欄等の設定で別の(次の)記入欄への記入を勧めている。(消さない方向で)
(1)ゴム系とプラスチック系があるが,後者の方が汚れ難く優れている。消しゴムが汚いと紙面を汚し読取り不良の原因となることがある。プラスチック消しゴムの表面の汚れ等を取除いてから,紙面を傷つけない様に消し,消しカスは刷毛等で取除いておく。古い消しゴムは老化して固くなったりして,汚れが取れ難くなり紙面を汚しやすいので使用してはならない。消しゴムのカスは,紙面からハケ等で紙面を汚さない様に良く払ってから読取らせることが大切で,そうでない場合はノイズ要因となり,認識率低下の大きな原因ともなる。
(2)消しカスがまとまりやすいもの,力を入れずに軽く消せるものなど,OCR運用に向いた製品が出てきた。
(3)図面用の「砂消しゴム」ではなく、用紙面を削る量が少なく印刷文字や油性ペンの文字でも消せて通常の消しゴムと同様の感覚で使用可能な製品も登場。(「クリックイレーザ」(ぺんてる)等)
(4)書き直しのため消す他に,「ホワイト」等と呼ばれる塗布タイプのものがあるが,紙面にテンコ盛りになると,その上に書かれた文字は,光学系で焦点が合わずにピンボケになったり,文字の一部が欠損した状態で取込まれ,誤読やリジェクト原因となるので注意が必要。また,貼って書き直すテープも商品化されているが,用紙搬送や文字切出等の基本機能の障害となることが考えられるので避けるべきである。
筆記具,取消欄の項 参照
リジェクトの項 参照
- 桁詰め,桁寄せ/ケタツメ
- [justification]
読取り結果を定義体の指定により,フィールドの前(上位)寄りに詰めるか,後(下位)寄りに詰めるため位置をずらすこと。また,表示装置,CRT等に表示するときに上下のデータが揃う様にすること。
図版
- ゲイン
- [gain]
利得。ゲイン。 装置のやアンプ回路等の出力。ゲインコントロール。
- 原稿サイズ/ゲンコウサイズ
- [document size]
伝票OCRでは「帳票サイズ」が,また文書OCRでは「用紙サイズ」が一般的。コピー機やFAX等では原稿台に載せる原稿サイズと表現される場合も。
帳票サイズ
用紙サイズ の項
- 原稿移動式/ゲンコウイドウシキ
- [moving document scanning type]
走査方式の一つで,イメージセンサを固定して,原稿/帳票側を移動させながら順次イメージを読取る方式。センサ固定式,シートスルー方式とも呼ばれる。
□OCRではホッパに複数枚積込んだ帳票を光学系へ搬送して読取る方式が普通。
- 原稿固定式/ゲンコウコテイシキ
- [stationary document scanning type]
走査方式の一つで,原稿/帳票の方を固定して,イメージセンサまたは,反射ミラーを移動させながら順次イメージを読取る方式。フラットベッドタイプ。
- コーティング・シート
- [coated sheet]
表面加工(コーティング)を施した用紙。OCRシートにも使われる。
□使用する筆記具によっては,湿った布等で拭き取って何度も使えるOCR用紙。
学校等でコンピュータプログラムのコーディング・シートとして使われることがある。OCR読取り後は,記入内容を拭取り再使用する。チョークと黒板消しのある黒板の様な使い方。「コーティング・コーディング・シート」
- コーディング・シート
- [coding sheet]
コンピュータ・プログラムを書く際に使用される一定の書式の用紙。
(1)OCRで読取り可能なものもありコンピュータ・プログラム入力に利用される。
(2)狭義には,帳票定義体の数値入力の用紙(OCR処理される)を示すときも。
用紙・紙質
- コード39/コードサンキュー
- [code 39]
1975年にインターメック社により開発されたバーコードシンボル。
☆産業分野で使用され,2値のレベルの独立コードで1つのキャラクタは5本のバーと,それらに挟まれた4本のスペースで構成されて,内3本は太バーか,太スペースで構成されている。
- コーナ・カット
- [corner cutting]
角面取り。帳票の四隅の一つを三角形,または丸く(1/4円)切取ること。
□カットの位置と大きさの違いで,同じサイズの帳票の分類を迅速に行える。また同一帳票の方向を揃えるのに便利である。ただ,大きさによっては斜行の原因となるため,当該OCRの仕様に沿った(指定の)位置や形状,大きさであること。
- コピー
- [copy]
複写すること。 (広告文案。キャッチコピーの意でもポピュラー)
(1)複写機でコピーする。
(a)感熱紙ファクシミリで受信したものを普通紙に複写して,OCR読取りに供す。
(b)黒枠帳票をコピーして帳票を作る。バージンコピーすること。
(2)ファクシミリでコピーする。
FAX−OCR読取りの対象となる帳票を使用するファクシミリのコピー機能で複写して,ファクシミリのラインセンサに欠陥がないか,記入の文字が筆記具や書き方の都合で薄くなったり,かすれたりしていないかを事前確認する。
(3)データをコピーする。
各種デバイス内のデータ(ファイル)を予備や更新の為にコピーする。
- コル(COLgage)/コル
- [COL gage] [character outline limits]
文字の外縁線。活字/印字の文字に対して許容できる限界を示す輪郭線。
(1)COLには最大限界を示す「最大COL」と,最小限界を示す「最小COL」の二つがある。
「最大COL」は最大文字線幅を直径とする円を文字の芯線字形に沿って移動させてできる輪郭線(包絡線)で,「最小COL」は最小文字線幅を直径とする円を文字の芯線字形に沿って移動させてできる輪郭線/包絡線である。
- コルゲージ
- [col guage]
印字図形の寸法上の特性を測定するために用いるゲージ。
☆「心線」「最大コル」「最小コル」が表示されている。
- コントラスト
- [contrast]
JIS B 0137。原稿またはコピーにおいて,画像部とそれ以外の部分の濃度の比。白黒の明瞭なものをコントラストが高いと表現する。
□画像の最明部と最暗部との明るさの比。〔広辞苑〕
- コンピュータ・テレホニー・インテグレーション
- [CTI] [Computer Telephony Integration]
通販等で電話による注文をコンピュータ画面と対話しながら入力するシステム。
□葉書などに書き込まれたデータをOCR処理するシステムが,段々と置き代わりつつある。人手が必要だが,密度の濃いサービスが可能で,インターネット等で通販が発展するといわれいるが,オペレータ介在の有無でかなりの差が出る。
□コンピュータ・ファクシミリ・インテグレーションとも呼べるFAX−OCRシステムは24時間無人の受注処理や在庫照会,事故報告等が運用されている。また,音声処理により,オペレータの介在無しでCTIを実現するための,音声処理ソフトが提供されつつあり,電話を掛けるエンドユーザ側の操作が不要で,オペレータも介在せず,コンピュータへのデータ入力が可能となるシステムが実現可能になる日も近い。
- 孤立点/コリツテン
- [isolated point] [isolated point (spot noise)]
画像中にある,一定の大きさ以下で周囲の画素とつながりのない塊(点)。
□孤立点(ノイズ)か,カタカナやひらがな等での濁点や点画,または犬や太等の点との区別が認識処理では重要になる。黒ベタの中の同様な白も孤立点であるが,穴埋めしやすい。
- 孤立点検出法/コリツテンケンシュツホウ
- [spot noise elimination]
画像中に存在する孤立雑音を除去する。ノイズ除去。
(1)2値画像では,対象画像によって決められる大きさ以下の塊を雑音として検出。
例えば,周囲が全て白の黒点(1点)等は典型的なノイズとし白に転化。ただしピリオドや小さな点(犬の点)等が含まれる対象では,解像度や記入または印字都合を勘案して上で相対位置関係や,読取り結果内容の並び等も考慮対象となる。
3×3マスク等で大きさのチェックをして,該当箇所を白にしていく。図参照。
黒の中の白の小領域もノイズとなる。
(2)多値画像では対象点と周囲の点の濃度差を調べ,周囲の平均値とかけ離れる場合対象点の濃度を平均値で置換えて孤立点の除去を行う。
〔多値(0〜7)画像例〕
33012124320
30321123210
01070123200
01011212100
00101211210点線内は 321 321 321 321 070 → 010 または 020 または 030 に転化 011 011 011 011
- 光学解像度/コウガクカイゾウド
- [optical resolution]
スキャナの撮像素子の,読取り対象原稿紙面上での単位長当たりの数。
(1)原稿紙面での1インチ当たりに,撮像素子が300個対応しているとき光学解像度は300dpiである。解像度
(2)ファクシミリではラインセンサは用紙搬送方向に直角に設定されて一次元の入力を行う。この解像度が光学解像度で,用紙送り方向は副走査方向として区別される。G3ファクシミリの光学解像度は,8ドット/mmで,副走査方向は,スタンダード・モードでは3.75ドット/mm,ファイン・モードの時は7.7ドット/mm,スーパー・ファイン・モードでは,15.4ドット/mmと用紙搬送量によって異なる。
- 光学式(光学的)文字読取装置/コウガクシキモジヨミトリソウチ
- [OCR]
読取り対象に光を当て,その反射光で,文字や線画のイメージデータを取込んでレイアウト解析や文字切出しを行い,文字認識処理する装置。
オー・シー・アールの項参照
- 光学特性/コウガクトクセイ
- [Optical specificity]
OCR/スキャナ,用紙,筆記具,ドロップアウトカラー等の光学特性。
(1)スキャナでは光源の光学特性,センサの受光光学特性。
(2)用紙では反射特性。
(3)筆記具
(4)ドロップアウトカラー
- 光源/コウゲン
- [light source]
原稿を照明するための光源。スキャナにより種々の光源がある。
□高速に読取るには光量を増やす必要があり,ハロゲンランプやキセノンランプが使われる。赤系のドロップアウトカラー帳票では,赤〜赤外成分の多い白熱球や近赤外波長の蛍光灯が使われる。密着センサ使用のものは,LEDアレイ光源を使う等,目的に合わせて選択される。
LEDアレイ光源
- 光源スペクトル/コウゲンスペクトル
- [light source spectrum]
光源の波長とその放射エネルギ(相対値)との関係。
- 光源切換方式/コウゲンキリカエホウシキ
- [light source switching type]
3原色それぞれの分光特性を有する光源と,白黒用イメージセンサとを用いて,3原色の光源を順次点灯(切替点灯)することによって,3原色の色信号を得る色分解方式。
- 光電変換機構/コウデンヘンカンキコウ
- [light-electro converter]
蛍光管やハロゲンランプ等の光源から照射した光が,読取り対象である原稿や帳票に当たって跳ね返った反射光の強弱を電気信号の強弱に置換える機構。
- 公衆回線/コウシュウカイセン
- [public line] [public line (leased line)]
電話,電信を送るための通信回線。これらの回線を介してコンピュータ間通信も行われている。
□FAX−OCRシステムは通常,公衆回線経由のG3規格のファクシミリからの伝票イメージや文書イメージを読取り対象にしている。
- 構造解析的手法/コウゾウカイセキテキシュホウ
- [structure analysis method]
文字の読取りにおいて,文字の構造を特徴として捕らえ,標準的な字形に対する構造との比較で識別する方式。ストローク(文字線)の本数や相対的存在位置他交点や端点,漢字での扁/旁,冠/足,構え等の基本構造等から文字を判断する。
□アラビア数字の簡単な構造解析は,例えば閉領域(筆記都合での隙間を許容)の数,位置だけでも,「いずれの位置にも無し」は 1,2,3,4,5,7で,「全体に1つ」は0,「下に1つ」は6,「上に1つ」は9,「上下2つ」は8また変形対応では,「(小)下(左寄り)に1つ」は2,「(小)中央(右寄り)に1つ」は3,「上(左寄り)に1つ」は4というように,有無で2分類,ある方はさらに存在位置と個数で4分類。丸か三角か等も。
図版
- 候補単語表示/コウホタンゴヒョウジ
- [display of candidate words]
認識処理結果やキー入力に対応して可能性のある単語を表示すること。
(1)WP等での「かな漢字変換」では「同音異字」があるとき,同じ音/かな表記のものを列挙して(あるいは順に表示して)選択させる。
(2)OCR認識の出力文字の組合せでは該当する単語が見当たらない場合,可能性の高い単語を候補として列挙表示し,マウス等で選択させる。認識結果が一文字の読取りに対して複数の候補から成るときはシステム側で,それらを組合せて見て単語辞書等に存在するかをチェックした上で可能性の高い順に並べて表示する。
(例)住所(都道府県レベル)の読取り
OCRの認識結果 1 2 (a) 単純な候補一位の組合せでは「島取」で「県名」には該当する県がない。 第一位の候補 ……… 島 取 第二位の候補 ……… 鳥 根 (b) 先頭が「馬」の県や 「恨」を使う県は無いので,第二位までの候補の組合せを検討すると「島根」「鳥取」「鳥根」の3つが加わり選択対象となる。 第三位の候補 ……… 馬 恨 第四位の候補 ……… 烏 × 第五位の候補 ……… × × (×→候補として不十分) (c) 住所辞書で「島根」と「鳥取」が選択。
(a)〜(c)までの処理が済むと,後は人間が「島根」か「鳥取」かを判断しなければならないので,これらを選択候補列として表示する。
→階層構造チェックが可能なシステムでは,市区郡レベルの情報で逆指定できる。
- 候補データ/コウホデータ
- [candidate data]
文字認識結果で可能性のある,また,かな入力された読みで対応する文字または単語のこと。複数の可能性があときは,可能性の高い順に,第一位候補,第二位候補……と呼ぶ。
- 候補文字/コウホモジ
- [candidate]
候補データの内,一文字に対する候補のこと。
- 候補文字選択/コウホモジセンタク
- [candidate selection]
システムが候補列の中から,住所氏名や個別登録された辞書内をサーチし単語のレベルで可能性の高いものを候補列の中から選択すること。または,表示された候補文字列から該当するものをマニュアル選択することをいう。
(1)候補単語表示の中から正しい単語を選択すると,個々の文字が決定される。
(2)通常,第二位の候補の評価値と大差が付いていて,第一位の評価値として十分な場合は,システムは第一位の候補を正解として出力する。評価値が低い場合の他二位との有意差がない,あるいは該当する単語が一位の候補では存在しない等の場合に,判断が人間に委ねられる。
- 黒色禁止領域/コクショクキンシリョウイキ
- [clear area]
OCR用紙で文字切出しや行マーク等の検出を行うのに必要な文字枠や印字枠の周辺に設けるべき余白域のこと。 〔帳票設計・印刷仕様〕
□そのエリア内にはドロップアウトしない色での印刷や書込みは無用で,違反すると文字の切出しや黒枠の消込みに支障をきたし,桁ズレや誤読の原因となる。
- 黒色罫線文字枠/コクショクケイセンモジワク
非ドロップアウトカラーでの表形式文字枠。
□色は黒とは限らない。2値化で黒側になるという意味。
- 黒色文字枠,黒線文字枠/コクショクモジワク
- [character frame unused dropout color]
非ドロップアウトカラーでの記入文字枠。
(1)色は「黒」とは限らない。緑や臙脂色もある黒板と同じ意味合いで「黒」を使用。
(2)ユーザが自前のプリンタで帳票印刷したり複写で帳票を作成するときは「黒」が基本でもある。
その意味では黒色枠である。黒以外の非ドロップアウトカラーの帳票もコピー等での複写では黒枠となる。
(3)文字通りの「黒」印刷でも,PCS値によっては,2値化で白側になることも。
- 混在読取/コンザイヨミトリ
- [mixed recognition] [mixed recognition/reading]
(1)「文字種」の混在。
読取り対象の字種が,英字と数字が混在して記入された様な複数対象の場合の読取り。単独読取りに比べ字種間で類似字形が存在する分,単独読取りより,正読率は一般に低下する。また,稀に活字と手書きの混在の読取りもあるが,認識対象としては混在しない方がベター。
(2)「異種帳票」の混在。
フォーマット定義の内容が異なった帳票を混載して読取ること。少なくとも幅(用紙送りに対し直角の方向の長さ〜以降,幅といえばこれを指す)は同じでないと,斜行の原因になる。また,長さ方向も同じでないとダブルフィードの原因になりやすい。レイアウト内容は異なる場合でも,用紙サイズは揃える必要がある。FAX−OCRで複数のFAXからサイズの異なる帳票が送られる場合,ID情報の位置等が一定であれば,互いのFAX同士では幅や長さを合わせる必要はない。
(3)「縦横」の混在。
文書読取り等で見出しは横書き,本文は縦書き等と向きの異なる読取り対象を行方向抽出等で読分ける。
(4)「文字(文書)とグラフや表」の混在。
文書でテキスト部分と表やグラフの中の文字数字をも同時に読込む。表の罫線やグラフの図形も抽出しコード化する場合も。
- ゴシック体/ゴシックタイ
- [gothic style]
文字ストローク(線)の幅を一定にした活字。太ゴシックは強調する単語部分に使われたりする。明朝体の様な縦横での線の太さの違いやウロコ等がない。
□ゴシック体の文字(活字)フォント。
- ゴシック(ゴチック)文字/ゴシックモジ
- [gothic font]
文字ストローク(線)の幅を一定にした活字。太ゴシックは強調する単語部分に使われたりする。明朝体の様な縦横での線の太さの違いやウロコ等がない。
□ゴシック体の文字(活字)フォント。
- ゴム部品/ゴムブヒン
- [rubber parts]
OCRの給紙機構他でゴムローラやベルト類に使われる素材は,化学薬品で変成することがあるので,複写帳票等の化学薬品が添加されている用紙を使うときは注意が必要。装置の使用の忌避薬品等の注意事項を遵守する。
- ゴム印/ゴムイン
- [rubber stamp]
JIS手書き字形で作ったゴム印を使用すると,帳票で特定コードを記入する欄の効率的な書込みと,精度の高い読取りが期待できる。
(1)多少の押印ズレは,手書きのフリーピッチ読取りも実用化され問題なしに?
(2)スタンプ台不要の自滲タイプのものが,インクのムラもなく適当である。
(3)スタンプの周囲の線(枠,特に角)が出ない様に,表面の汚れが無い様にする。
- 誤差拡散法/ゴサカクサンホウ
- [error diffusion method]
注目画素と周辺の画素の濃度の総和と隣接画素間の相互関係に基づき高濃度順に黒画素を再配置し,高階調特性と高解像度特性の両立を図った疑似中間調方式。
図版
- 誤読(エラー)/ゴドク
- [error]
文字や記号を誤って認識すること。通常,棄却(リジェクト)は含めない。
- 誤読帳票/ゴドクチョウヒョウ
- [error sheet] [error sheet, error slip]
誤読された文字や記号のある帳票のこと。
☆実際には,エラー・スタッカに排出された帳票を指す場合が多い。誤読検出で弾かれることはなく,論理エラーで選別されるか,リジェクトの文字・記号があった場合に排出される。正しくは,リジェクト帳票,リジェクト・スタッカ。
- 誤読率〔エラー率〕/ゴドクリツ
- [error rate]
文字や記号を誤って認識した数の,読取り対象全体に対する比率のこと。
□帳票レートでの値と混同され勝ちだが,100文字記入の帳票で1%の平均誤差とすると,全ての帳票が誤読帳票となり,シートレートでは100%となる。
(1)通常,棄却 (リジェクト)は含めない。
(2)「正読率」「リジェクト(棄却)率」「誤読(エラー)率」で100%
(3)「論理エラー」
認識処理の結果が正しくても,2月30日等の様にあり得ないもの等や,論理演算チェック等でエラーとなったもの。処理的にはリジェクト。
- サーバ
- [server]
ネットワーク上で他のコンピュータに対し,サービスを提供するコンピュータ,またはプログラム。ファイルサーバ,プリントサーバ,通信サーバなどがある。
(1)OCRシステムでは,ファイルサーバに認識結果を格納し,ネットワーク上の他の複数のコンピュータ(クライアント)で,確認・修正が可能なシステムもある。
(2)大規模システムでは,「認識サーバ(認識装置を制御する,またはソフト認識する)」や確認修正端末を制御するサーバ,回線等を通じ読取対象のイメージを受信するための回線制御サーバ等を別個に設けるものもある。
クラサバ(クライアント・サーバ)システムの項参照。
- サイズ
- [size]
大きさのこと。用紙サイズ(縦横寸法),装置サイズ(高さ・幅・奥行き)。
サイバネティックス/cybernetics
米国のN.Winnerが提唱した,人工頭脳学。生物と機械の通信と制御の比較理論。
□情報の関知・伝達・処理・記憶の各プロセスは生物も機械も似ていて,総合的に捉える必要がある
と説く。
- サインペン
- [a marker]
OCR等の読取り対象の文字を書くのには,あまりお勧めできない筆記具の一つ。
□太い線となるものが多く,文字の「つぶれ」や「にじみ」を避けられない。また,小さな文字枠内に収めて書くのには,適当でない場合が多い。細字用でインクのあまりボタ落ちしないもので使用可能なものもあるが,裏面まで染込んで,次の用紙を汚すものもある。
筆記具
- サブID/サブアイディ
- [sub ID]
帳票IDによって,業務や帳票サイズ等の切口でまとめられ同じ種類の帳票として,ひとまとめにしてグループID(GID 2〜3桁)を付け,その中でレイアウトや項目の違いによって,サブのIDを付与し,多数の帳票種類を整理して,運用管理を容易にする。
□G/SIDのほか,同じ帳票IDでも,ユーザを特定するためのユーザID等を帳票上に設定することもある。
- サブバンド符号化方式/サブバンドフゴウカホウシキ
- [Sub-band]
データ圧縮方式。静止/動画の自然画の符号化方式のひとつ。
- サブフィールド
- [sub field]
読取り対象のフィールドをさらに細かく分割して,文字種の指定等をきめ細かく行い,読取り精度の向上を図ったり,演算を施す部分を指定したりする。
- サム
- [sum] [sum Σ (summasion)]
合計。モジュラスチェック等で数字の各桁にウェイトを掛けて足し込んだもの等。
□サムをモジュラスで割り算して商を得て,余りを商から引いたものがチェックディジット。
- 3点補正/サンテンホセイ
- [3-point adjusting]
帳票の四隅(右上,右下,左上,左下)の内,3隅に四角や丸, 三角,その他の図形もしくは太線等のマークを黒印刷することにより,入力した帳票イメージの傾斜度(スキュー量)や,上下左右の伸縮率,帳票方向を算出し,補正を行う。
→主に,FAX−OCRでの着信イメージに対しての補正に使用される。
- 3色同時方式/サンショクドウジホウシキ
3原色の色信号を同時に得る色分解方式。次の2つの形態がある。
(1)3色フィルタをセンサの受光面に付けたカラーイメージセンサを用いて,色分解信号を直接出力するもの。
(2)3色それぞれに対応して,白黒イメージセンサと色フィルタを3対設けたもの。
- 左端スペース(ブランク)チェック/サタンスペースチェック
- [left space (blank) check]
フィールド内の左端のスペース/ブランクの有無をチェックするデータチェック方式。レフトブランクチェックともいう。
- 左右マージン/サユウマージン
- [left and right margin]
読取り文字,または文字枠の左右周辺に確保しなければならない黒色禁止領域。
☆図に示すように文字列に対して左右の黒色禁止領域をいう。
図版
- 再生紙/サイセイシ
- [recycled paper]
一度使用した紙を回収し,再利用して製造した紙。
□再生過程の印刷インクの残滓等による,OCRでの「ゴミ」発生等に注意が必要。
紙質の項参照。
- 最近傍類別法/サイキンボウルイベツホウ
- [nearest neighbor classification]
未知パターンχから最も近いκ個の標本パターンを取り,そのκ個の内で,最も多くが属する類をもってχの類とする方法。κの数によりκ−最近傍類別法。
- 最大記入文字数/サイダイキニュウモジスウ
- [maximum character per page]
当該OCRで読取り可能な1帳票あたりの最大文字数のこと。
☆最大桁数(帳票内)と同義。文字間隔
- 最大行数/サイダイギョウスウ
- [maximum read-line per page]
帳票内に設定可能な最大読取行数の意。
- 最大ケーブル長/サイダイケーブルチョウ
- [maximum length of cable]
端末装置(OCR等も含む)と制御装置間を結ぶ信号ケーブル等の許容できる最大の長さ。またインタフェースケーブルの許容最大長。それ以上の長さで通信等を行うと,信号の減衰やノイズの重畳により伝送内容が保証されなくなる。
インタフェース
- 最大桁数/サイダイケタスウ
- [maximum characters per read-line] [maximum characters per read-line (per page)]
行内に設定可能な最大桁数(文字数)マーク等も文字として計数される。
☆(Page)→帳票内に設定可能な最大読取文字数の意。
- 最大転送速度/サイダイテンソウソクド
- [maximum rate of transmission]
回線等を通じてデータ転送するときの最大速度。bps(bits/sec)等で表す。
□FAX−OCR等でイメージ転送する公衆回線のMRTは14.4Kbps他。
- 最大フィールド数/サイダイフィールドスウ
- [maximum fields per read-line] [maximum fields per read-line (per page)]
行内に設定可能な最大フィールド数。
(1)サブフィールド数は内数として係数されるシステムとトータル(の数の制限等に影響するシステムとがある。
(2)(Page)→帳票内に設定可能な最大フィールド数の意。(サブフィールド数は同様)
- 最大文字数/サイダイモジスウ
- [maximum character per read-line] [maximum character per read-line (per page)]
最大桁数と同義。 読取り文字数の意。
- 最大有効画素数/サイダイユウコウガソスウ
- [max alive pixel]
イメージセンサの画素の中の実際に画素読取りに有効な最大画素数。
☆イメージセンサの中には,黒レベルサンプルホールドなどによりマスクされる画素があり,これらの画素を除いた部分が最大有効画素となる。
- 最長一致/サイチョウイッチ
- [maximum fixed letter]
単語照合の識別処理の一つであり,個々の文字が最も多く一致した単語を識別結果とする方法。
☆機械翻訳や文章入力のカナ漢字変換などにも採用される。
- 最適二値化/サイテキニチカ
自動2値化(二値化)
多値画像の2値化操作で,対象点の周囲の状況を折り込み,一定の閾値に固定することなく,濃度傾斜や照明ムラ等に対応するもの。
(1)多値入力画像を,白画素または,黒画素に判定する2値化操作で,入力画像の背景や図形の濃淡にバラツキがあったり,照度ムラによるシェーディング等があるものは,背景の明度レベルや,局所的濃度情報(例えば,3×3マスク,5×5マスク等)により,2値化レベルを動的に変動させて行う方法。
(2)文字を認識する場合,認識したい文書や帳票を,イメージスキャナでスキャンして画像データ(ビットマップ)として読込む。現状のOCRは,CPU等の処理能力から読込んだ画像データは2値(白黒)データとして,その後の認識処理を行う。そこで,この2値化されたデータの品質が後の認識精度に大きな影響を与える。品質の良い2値化データを得る方法としてスキャナの操作者が,2値化レベルを設定する方法や,最初に画像を多値データで読込み,自動的に最適な2値化レベルを決め,2値化する方式が取られている。
(3)これに対して,一定の閾値により2値化を行うものを固定2値化という。
- 裁断精度/サイダンセイド
裁断誤差
帳票外形を示す印刷された基準マーク(トンボ)からの許容できる裁断のズレ量の精度。
寸法的なものと傾き(端面が直交しない)の精度も。
帳票仕様の項参照。
- 彩度/サイド
- [Saturation]
色の鮮やかさの度合い。色の飽和度で白色の混合が少ない方が高い。
色空間
- 錯乱円/サクランエン
ある被写体が結像する焦点面に生じるボケ円のこと。錯乱円が最小となる場合,最も焦点が合っていることになる。焦点深度 の項参照。
- 錯覚/サッカク
- [optical illusion]
最近見直され,「錯覚」は知覚の誤動作ではなく,限定情報から世界を把握する知覚の有能さを反映していると指摘されている。人工知能で人間の処理を模倣し代行しようとすると,錯覚等の働きも考慮しないとうまく行かない。
- 残光性/ザンコウセイ
- [persistence]
ブラウン管や蛍光灯で電源を落と(電子線を遮断)しても蛍光体から暫時,光が放出(ボーッと光る)される性質。表示管の場合,その残光時間の長さで蛍光体種類分けをする。1秒以上は「非常に長い」の分類。
残光特性区分 残光時間 備 考 短 残 光 非常に短い 1μs以下 短 い 1μs〜10μs やや短い 10μs〜1ms 中 残 光 普 通 1ms〜100ms 長 残 光 長 い 100ms〜1s 非常に長い 1s以上 蛍光灯等
- 残差/ザンサ
- [residual]
図版
- CAD/シー・エー・ディ
- [CAD] [Computer Aided Design]
計算機(コンピュータ)を利用して各種の設計を行うこと。
☆コンピュータを利用して各種設計業務,すなわち図面作成,設計データの検証,シミュレーションチェック,設計データから製造データの自動作成を行うシステムのことをいう。この分野では,各種の設計図面を短時間で入力することが望まれておりこのためにイメージスキャナが利用されている。
- CAP/シー・エー・ピー
- [CAP] [Computer Aided Publishing]
キャップ
出版,印刷の編集/作成工程をコンピュータの補助で,効率的に行うシステム。
電子編集印刷(システム)ともいう。
☆CAPの代表的システム例としては,印刷業界で普及拡大している, 電子編集組版システムが挙げられる。
- CSV形式/シー・エス・ヴィケイシキ
- [CSV Format] [Comma Separated Value Format]
出力ファイル形式の一形式で,文字列をダブルクォート「“」で括り,カンマ「,」で区切ったファイル形式。 出力ファイル形式の項参照。
・テキストのデータ形式で1レコードは1行のデータに対応し,各データはカンマによって区切られている。数値データと文字データを区別するために文字データにはダブルコーテーションを付けることもある。拡張子には,CSV,CS1,CS2 等がある。カンマでなくタブで区切られたファイルを,TSV(Tab Separated Value)形式という。(関連語)出力ファイル
- CMC7/シー・エム・シー・セブン
- [CMC7 font]
MICR文字の一つ。フォント,MICR文字の項参照。
MICR(磁気インク文字読取用)の文字の一つ。
図版
(関連語)フォント/MICR文字
- CCD/シー・シー・ディ・イメージセンサ
- [CCD Image sensor]
受光面に配列されたフォトダイオードに蓄積された各画素の電荷を,順次取り出す方式として,CCD(charge coupled device,電荷結合素子)を用いたイメージセンサ。
1次元のCCDイメージセンサにつき,その原理を説明する。
CCDイメージセンサは,フォトダイオードアレイからなる光電変換部と,CCDによる電荷転送部とからなる。CCDは,アナログ電荷量を順次シフトできるアナログシフトレジスタである。フォトダイオードアレイに変電交換・蓄積された各画素の電荷は,ある時点で一斉に並列に電荷転送部に移された後,順次直列にシフトされ,取り出される。以下これを繰り返すことにより主走査が行われる。
図版
なお,色フィルタをチップ上に直接載せることでカラーセンサが実現される。オンチップ色フィルタとして基本的なRGB系とその補色関係にあるYMC系があるがCCDラインセンサでは色演算誤差を少しでも防止するためにRGB系が主として使用されている。
RGB色フィルタを周期的に配列したインラインタイプとRGB各々3列並べた3ラインタイプとがある。1次元のCCDは横1列であり,1万画素のCCDも既に市販されている。しかし,一般の画像は2次元が普通でxy方向に2次元に画素の並んだ撮像目的のCCDがある。
1次元のリニヤセンサに対してエリヤセンサともいわれている。
カラーエリヤセンサは2次元に3色の画素が並び画素数は膨大になる。
NTSCやPALのTV画質に合わせた約20万〜64万画素品が主流である。ハイビジョンTVの画質に合わせた200万画素の試作品もできている。これらのエリヤセンサの大きさはレンズの口径に合わせて3分の2インチ,2分の1インチ,3分の1インチ,4分の1インチ等のサイズで標準化されている。
カラーエリヤセンサの場合,オンチップ色フィルタはリニヤセンサの場合と異なり,暗い所での感度を優先してYMC系が主として使用されている。
- CCTV/シー・シー・ティ・ヴィ
- [CCTV] [Closed Circuit TV]
撮像管方式でスタートした監視カメラもCCD(電荷結合素子)カメラが中心になり,インチ当たり100万画素のIT型の場合は1024×1024の高解像度画像をコンピュータに取込み「画像認識」対象として扱うことが可能になってきた。
○画像中の文字やマーク等の図形(移動物体表面上を含む)等の識別技術がソフトOCR処理の一環で開発され,実用化に近づいている。
- シート・スルー・タイプ(原稿移動式)/シート・スルー・タイプ
- [sheet through type]
走査方式の一つで,イメージセンサを固定して原稿を移動させながら順次,原稿イメージを読取る方式。センサ固定式ともいう。 走査方式の項参照。
- シート間チェック/シートカンチェック
- [checking between sheets]
読取ったデータのチェックを帳票間にまたがって実施するチェックのこと。
(1)簡単な例では,「順序(シートが正しい順で,抜けがないか等の)チェック」
(2)また,1枚に納まりきらないデータを2枚以上に渡って取込み処理する場合等。
- シェーディング補正/シェーディングホセイ
- [shading correction]
イメージセンサの感度の不均一性や光源照度の不均一性,縮小光学系における周辺部の照度低下などから生じる再生像の明るさのムラの補正のこと。
補正を行う方法としては大きく大別して以下の二つに分けられる。
(1)光学系にて行うメカニカルなシェーディング。
一般的に,光学系にて行うシェーディングは,縮小光学系における周辺部の照度低下によるムラに対して行われる。
このムラを表す式としては以下の通りとなる。
入射角θに対応する像高での像面照度をEとすると,
E=E0ηcos4θ
η:開口効率
E0:画面中心の像面照度
(一般的に上式を”照度のcos4乗則”という)
よって,上式に対して照度Eが常に一定になるような補正をかける必要がある。よく使用される補正方法としては以下に示すものがある。
a.中央部の光量をヒョウタン形状の開口部を持つ遮光板にてカットし,端部の照度にあわせる。
b.端部の照射光量を中央部より多くした光源を用いて,端部の照度を中央部にあわせる。
c.反射ミラーの反射率を中央部と端部とで変化させ,中央部の照度を落とし端部に合わせる。
(2)スキャナから出力されるデータに対して事前に求めた補正テーブルを元に補正するシェーディング。
一般的に今方法は,光源照度の不均一性やイメージセンサの感度の不均一性等のランダムなムラに対して行われ,出力画像に対しソフト的処理にて行う。
よく使用される補正方法としては,一様な濃度分布を持つ画像に対するデータより,全画素に対して変換特性を求めておき,その特性に基づいて1画素毎に補正する方法がある。
また,暗時出力の画素毎の不均一性に対する補正も,一種のシェーディング補正といえる。補正方法としては,一様な黒画像に対するデータより,全画素に対して暗時出力をゼロにする変換特性を求めておき,その特性に基づいて1画素毎に補正を行う。
- シェルタイプスキャナ
- [shell type scanner]
貝が口を開けるように,搬送部の口を開けることができるスキャナ。
☆帳票が搬送路で詰まった時,帳票を取出しやすい特徴がある。
図版
- シャープペンシル
- [Sharp pencil]
商品名
今でこそ「あんパン」同様に普通名詞化してしまったが,早川(現シャープ)の元社長の考案の「メカニカルペンシル」で,固有名詞である。
(1)OCR帳票に手書き記入する場合には,芯の太さや硬さによっては,記入文字が潰れたり,かすれたり,用紙の凹みを誘発し,認識に影響を受けるため,最適なものを使用する必要がある。心の不具合は固くて折れるか柔らかくて崩れるか。
(2)一般には,0.5mmφの太さで,HB程度の硬さを持つ芯が推奨されている。これは,H以下の鉛筆は硬くて書き辛く,記入文字も薄くて,2値化で「白」になりやすく,またB以上の鉛筆では芯が柔らかく,欠けた部分が帳票上を転がり,余計な汚れを帳票に付けたり,OCR装置の中に落ちて,他の帳票にも悪影響を及ぼしかねないため,HBないしはFで,芯も細からず,太からずのものを推奨。
(3)通常の削る鉛筆より芯の太さが一定に保てる利点がある。
筆記具の項参照。
- シリアルナンバリング
- [serial numbering]
シリアル番号を帳票の表あるいは裏面にナンバリング印字すること。
ナンバリングの項参照。
- しきい値/シキイチ
- [threshold level]
閾値。OCRやイメージスキャナでは,入力原稿(帳票)の多値画像を認識処理のため白黒の2値化画像にする必要があるが,灰色/グレーレベル箇所のどこからを黒どこまでを白とするかの境界の値。
(1)実際には固定値ではなく,一点の白黒判定に周囲の状況を絡めて処理する場合が多く,単純に,ある値で一律には決まらない方が多い。(浮動しきい値)
(2)2つの異なる状態をとるものにおいて,その境界となる入力の値。
『スライスレベル』または『いき(閾)値』ともいう。
(具体例)スキャナの場合
CCDや密着イメージセンサから読み取り濃度に応じたレベルのアナログ信号が出力される。このアナログ信号は,ADコンバータで多値データに変換される。この多値データは,読み取り濃度に応じて小さな値から大きな値の様々な値である。白と黒の2値データに変換するためには,この様々な値の,”白か黒か”の判定をしなくてはいけない。そこでスライスレベルをきめて,このスライスレベルの値と多値データの値を比較して,その値が白か黒かどちらに変換されるのか決定する。このように通常2値化するときの多値データとの比較する基準の値をいう。
- GMS/ジー・エム・エス
- [GMS] [General Middle-area Supermarket]
総合(中規模商圏)スーパーマーケット。流通業者。OCRユーザ
- GDI/ジー・ディ・アイ
- [GDI] [Graphics Device Interface]
WINDOWSのグラフィックス・インタフェース。
□画面表示も印刷も描画に関すること一切の操作で,アプリケーションソフトからGDIに命令を発行し,GDIは,ディスプレイドライバやプリンタドライバに要求通知する。
- GP−IB/ジー・ピー・アイ・ビー
- [GP-IB] [General Purpose Interface Bus]
アイトルピー488バスの項 参照
- GUI/ジー・ユー・アィ
- [GUI] [Graphical User Interface]
ウインドウの中に配置した,各種のアイコンやメニュー,クリック対象箇所等をリストボックスやインプットボックス等のコントロールを用いたヴィジュアルな操作方法のことで,アイコン(絵)とマウスで画面からコンピュータを操作するインタフェース。
□ゼロックス社のパロアルト研究所で開発され,アップルのマッキントッシュ上で発展し,さらにマイクロソフト社のWindowsで広く一般ユーザもその恩恵を甘受。←→キャラクタ・ユーザ・インタフェース/CUI コマンド(文字)とKB。
- JBIG/ジェイビグ
- [JBIG] [Joint Bi-level Image experts Group]
JBIGとは,ISO(国際標準化機構)と,ITU−TC(国際電気通信連合電気通信標準化部門(センター))の共同作業機関。転じて符号化方式の略称としても,使われている。
☆2値画像の符号化標準としては,ファクシミリ用のMH,MR,MMRが知られているが,階層的伝送方式への適用と,各種画像の効率的符号化を目的として,JBIG符号化方式が,新たに標準化された。JBIGは画像データベースから概略の内容が分かる様な画像を送り,その後徐々に画像を綺麗にしていく階層的符号化処理のことで,最終的には現画像と全く同一の再生画像を得られる。
JBIGは従来標準に比較し、対象画像によらない高い圧縮性能(MMRの6倍以上)と,ソフトコピー表示における階層的伝送への適合性が大きな特徴である。
- JPEG/ジェイペグ
- [JPEG] [Joint Photographic Experts Group]
JPEGとは,カラー自然画像符号化方式の標準化を目的として,1986年に設立した委員会である。転じてカラー静止画像の符号化方式の名称としても使われている。
JPEG設立後,ビデオテックスをアプリケーションの中心に置き,通信回線としては64kbit/sのISDN回線を通して720×576画素(CCIR601デジタルスタジオTV標準)の解像度の画像を圧縮伝送し,ソフトコピー(ディスプレイ)に表示することを念頭に置いた検討が進められた。また,データ圧縮の効率としては1bit/カラー画素で十分な復元画像品質を与え,逐次符号化方式(シーケンシャル符号化)と階層的符号化方式(プログレッシブ符号化)をともに実現できることが要求条件として与えられた。
このような条件を満たすカラー静止画符号化方式のアルゴリズムを世界中に公募して,1993年に離散コサイン変換方式を標準化してJPEG方式と命名した。
その要素技術は,離散コサイン変換(DCT変換),量子化,エントロピー符号化技術から構成されている。
離散コサイン変換とは,画像データを2次元の空間周波数成分に変換する直行変換のことである。
データを量子化することで人間の視覚では認識しにくい高周波成分のデータを減らし,更にエントロピー符号化を行い,自然画像で平均的に20分の1の圧縮を達成している。
- JIS/ジィス
- [JIS] [Japan Industrial Standard]
日本工業規格。JISマーク。
□参考JAS日本農林規格 Japan Agricultural Standard
- JIS OCR−A/ジィス・オーシーアール・エィ
- [JIS OCR-A font]
OCR−Aとも。アルファベット大文字,アラビア数字,英記号他のOCRで読取るのに都合の良い形状をしたフォント。初期のOCR用フォントで,人間よりマシン都合のデザインが特徴。フォントの項参照。
JISで規定された活字(数字・英字・記号)フォント。
JIS X 9001-1976
単にOCR−Aともいう。単純ロジックで認識可能な様にデザインされた字形。
図版
- JIS OCR−K/ジィス・オーシーアール・ケィ
- [JIS OCR-K font]
OCR−Kともいう。カタカナのOCR読取のための印刷フォント。
フォントの項参照。
JISで規定された活字(カタカナ)フォント。
JIS X 9003-1980
単にOCR−Kともいう。カタカナとカタカナ用の記号,小文字。
図版
- JIS OCR−B/ジィス・オーシーアール・ビィ
- [JIS OCR-B font]
OCR−Bとも。アルファベット大文字,アラビア数字,英記号他のOCRで読取るのに都合の良い形状をしたフォント。OCR−Aに比べ,より違和感の少ない自然な形状であり,全部の文字フォントを連続重畳表示するとBの形に見えることからBフォントと呼ばれるとの説もある。
フォントの項参照。
JISで規定された活字(数字・英字・記号)フォント。
JIS X 9002-1976
単にOCR−Bともいう。OCR−Aよりも自然な形状にデザインされた字形。
図版
- ジィスコード共通/ジィスコードキョウツウ
コードと新・旧の字体の何方を取るかは決まるが,フォント(形状/デザインを指定するものではない点に注意。
- JIS第1水準/ジィスダイイチスイジュン
- [JIS 1st level chinese characters]
JIS X 0208-1990
JIS情報交換用漢字符号系で規定される2965文字の第1水準漢字集合。
(1)音読みで(原則,音読みの無いものは訓)並んでいる。1983年に一部を第二水準の文字と入れ換え。JIS C 6226-1978を旧JISと呼ぶのに対して新JISと呼ばれる。
(2)簡略字形の採用等の確認は可能だが,いわゆる認識対象としての字形を規定しているものではない。OCR用手書き漢字の推奨字形は,ひらがな字形のJISのJIS X 9009の付録に参考としてJEIDA案が掲載されている。
(→元日電文字デザイナによる労作「ペン書き字形一覧表」)
図形文字符号表(区点コード表)
JIS X 0208-1997
カンマ区切り形式テキストファイル(CSV形式)23KB。
表計算ソフト等でご利用下さい。
表中の列が「点コード」,行が「区コード」。
- JIS第2水準/ジィスダイニスイジュン
- [JIS 2nd level chinese characters]
JIS X 0208-1990
JIS情報交換用漢字符号系で規定される3390文字の第2水準漢字集合。
(1)部首画数順に並んでいる。
(2)手書き漢字の推奨字形としてのJEIDA案は無い。
JIS区点コード表(図形文字符号表)はJIS第1水準の項を参照。
- JIS非漢字/ジィス・ヒカンジ
JIS X 0208-1990 524字。
JIS情報交換用漢字符号系で規定されている文字の内,第1水準の漢字および,第2水準の漢字を除く,アラビア数字・英字・ひらがな・カタカナ・ギリシャ文字・ロシア文字・罫線素片文字の集合。(1〜15区)
JIS区点コード表(図形文字符号表)はJIS第1水準の項を参照。
- JIS補助漢字/ジィス・ホジョカンジ
JIS X 0212-1990
□JIS X 0208の補助用として用いる5801文字の漢字。
- JEIDA(電子協)データベース/ジェイダデータベース
- [Document Image Database JEIDA'93]
電子協で収集したレイアウト解析用文書データベース。
アラビア数字/英字/かたかな/数字記号/英字記号/漢字/ひらがな
(1)認識処理の研究用としてJEIDAの認識形入力方式専門委員会が主体となり,作成した色々な文書(新聞,雑誌,教科書,論文,特許広報他)のイメージデータが収録されたデータベース。
(2)このデータベースは,CD-ROM1枚に,ISO-9660フォーマットで格納されており,ICDAR-Media officeで販売している。(送料込2000円)
問合せ先:ICDAR-Media office /Telephone:0485-24-0501
Fax:0485-24-0633 E-mail:icdarmo@mediadrive.co.jp
- ジェスチャ
- [gesture]
ペンOSにおいてシステムの動作を指示するためのペン入力による一種の記号。
オンライン文字認識装置の項参照。
- ジャスティファイ
- [justification]
桁寄せの意。(前詰め/後ろ詰め・右寄せ/左寄せ)
- ジャム
- [jam]
(ぎっしり詰まって動きのとれないこと)→ traffic jam 交通渋滞
帳票がスキャナの搬送路の途中に詰まってしまうこと。「ジャムる」
(1)帳票原因としては,用紙が折れたり皺がよって腰が無い場合や,定義体の指定の厚さと異なる帳票だった場合や湿気でダヴルフィードしかかる場合等。他に閉じ穴の周囲に出っ張り部分があって,用紙が斜行して搬送路を塞いだりするもの。
(2)搬送機構が原因のものは,ピックローラやベルトの汚れや老朽化による歪み等でタイミングミスが発生したり,用紙ガイドの設定ミスにより,オープン使用での斜行が引き金になったもの等がある。またミシン目のある帳票を使用する場合は紙粉が静電気で集まって位置センサの機能を働かなくしたり,そのものがジャム原因になる。
- JANコード/ジャンコード
- [JAN code] [JAN code (Japanese Article Code)]
JIS X 0501-1985。
共通商品コード用バーコードシンボルとして規定されるバーコード。
□13桁から構成される標準バージョン(日本国内では先頭の4は国番号でバー・コード対応部分は無い)と8桁から構成される短縮バージョンがある。
- ZIPコード/ジップ・コード
- [Zip code]
郵便番号のこと。日本では,'98年に5桁(〒□□□−□□)から7桁(〒□□□−□□□□)へ変更された。
(1)海外でも広く普及しているが,その読取装置は日本製が大半である。
(2)例えば,カナダでは□□□−□□□の3桁×2の形式で英字数字の混在である。
(3)住所読取では今後七桁化が実現すると,丁目番地や地番の数字書込みや,方書き以外は省略されるものも読取り対象となり,数字読取の重要性が現在より,一層増すことになる。
- 指紋認識/シモンシキベツ
- [FPR] [finger print recognition]
指紋は人間の固体識別の有力な手段で,それらを識別(特定/認識)する技術は既に入室管理等でドアの鍵代わりに実用化されている。
(1)指紋検出は警察沙汰との悪印象もあって普及が憚られた面もあったが,カードに指紋情報を記憶し本人が持ち歩き,必要な時に自分の指紋をチェックポイントで本人の指紋と照合するスタイルが,カードを紛失しても悪用される心配が少なく受け入れられている。また,発汗作用等をキャッチして死体の指紋やコピー等を排除するものもセキュリティの高度化対応として製品化されている。
(2)認識処理としては,やはり警察の鑑識向けに発展したが,文字認識と違って事件現場などでの歪みやかすれ欠損のあるものからの採取照合は文字認識での比ではない。一般的に採用されている「特徴」は文字の渦巻きの中にある線とY字型の分岐箇所の相対位置である。生体かどうかは,表面の汗腺等でチェックするのが一般的である。警察の事件現場からの採取と異なって,本人照合用の場合は比較対象の登録は良好な状況下で行うことが可能で,一般家庭での電子決裁の承認や金融端末等への装備も進んでいる。筆跡鑑定よりは確実で,暗証番号より安全。
(3)テクノイマジカ(東京)の装置は,誤認率0.001%と高精度で種々のシステムにも組込めて暗唱番号等と比べ照合時間も速く,事前蓄積型だが沖等がOEMへ。
- 紙質/シシツ
- [paper quality]
→カミシツ
ADF付きスキャナやOCRが使用できる入力原稿(帳票)の用紙特性。
(1)関連JISとしてJIS X 9004−1983「光学的文字認識のための印字仕様」がある。
(2)カタログに記載される用紙仕様としては,「OCR用紙」「上質紙」「普通紙」「再生紙」「PP
C用紙」などのように,用紙の呼称で表現される。
(3)OCRに使用する用紙は,認識対象との高いコントラストと,均一な反射率を確保するため,次の条件を満足しなければならない。
(a)光学的特性
(i)白色で高い不透明度と反射率を持ち,光沢が少ないこと。
(ii)平滑な仕上がりで組成のムラ,汚点が少ないこと。
(iii)すかし印刷および着色料や蛍光物質などの混入がないこと。
また,装置内で安定した紙送りを行わせるため,次の機械的特性が必要とされる。フラットベッドスキャナでは引張強度は特に必要ないが,用紙設定が重要になる。
(b)機械的特性
(i)用紙の機械的特性(*1)が優れていること。
(※)引裂強さ,破裂強さ,カール度,摩擦係数など
(ii)用紙の温/湿度による伸縮が少なく変形しにくいこと。
「OCR用紙」は,これらの光学的,機械的特性に係わる条件を全て満足したOCRに最も適した用紙である。
(4)「上質紙」は,一般用紙の中で上質の紙のことをいう。
(5)「普通紙」は,一般用紙の総称として用いられている。
(6)「再生紙」は,一度使用した紙を原料として,再利用して製造した紙の総称として用いられる。すなわち,製造方法/製造過程を示す名称である。
(7)「PPC紙」は,電子写真記録式を用いた複写機に使われる紙のことを本来はいう。すなわち使用形態/用途を示す名称であるが,「普通紙」の意味合いで使われる場合も。PlanePaperCopy紙表面に特殊加工していない複写用紙。
(8)これらは,他の呼称と組合わせて,再生上質紙,再生PPC紙などの様に用いられることもある。
(9)「上質紙」「普通紙」「再生紙」「PPC紙」については,光学的/機械的な特性や品質が規格化
されていないため,使用用紙の銘柄指定をしているOCRメーカが多い。また,使用に先がけての事前評価を推奨することもある。複写タイプ帳票では読取対象の用紙の表裏に発色材等の薬品がコーティングされているとOCRの給紙機構の金属に錆や腐食を招いたり,ゴム製部品の化学特性変化を起こすことがあるので,特に注意を要する。
〔紙質・余聞〕
(1)OCR紙は上質紙の中のさらに選りすぐりの特別な紙であったが,今や入力には「普通紙」や「再生紙」を許容する時代となった。転記を繰り返してアチコチでキー入力するのに比べて,最初の一枚のみ読取ってコード情報化してしまえば情報をシステム上で追加編集していくことで無駄な用紙の消費がなくなる。
(2)OCR等での入力は,より省力・省資源・省エネが可能となりインプットされたデータはクリーンデータ化された後,さらに他の有用な情報と組合わされ,プラズマディスプレイやFEDの様な新しいデバイスも加わったディスプレイに表示され,安価でより鮮明になったカラープリンタ等に出力され利用される。新聞と同様に,紙に打ち出したデータは取扱やすく今後も無くなることはない。ディスプレイ画面に表示して確認すれば済むものを除き,今後もユーザインタフェースは「紙」が重要な位置を占めることには変わりなく,OCRシステムでの入力も益々重要となる。
(3)長期保存に向いた質の良い用紙を使える時代になった。また再利用を可能にする技術も発展してきた。(→印刷済用紙から印刷文字を消し去るもの等。)
- 四六判連量/シロクバンレンリョウ
- [ream weight]
シロク判
紙質良否の重要な要素である厚さを相対的に比較できる様に,四六判サイズでの1000枚分の重量(kg単位)を「四六判連量」という。単に連量ともいう。
(1)JIS−P−0001(No.4017)。
1連(ream)とは「四六版(788mm×1091mm)」の1000枚分のこと。
- 視感度特性/シカンドトクセイ
人間が感じることができる分光特性。
□視感度が存在する分光領域が可視領域であり,400〜700nm程度である。
□ドロップアウトカラーで人間にも見辛いものがある。これは上記の範囲を逸脱し人間にもドロップアウトしている場合に起こりえる。
- 視認距離/シニンキョリ
- [visible distance]
人間には,物体表面の文字等を識別できる距離の範囲がある。ぎりぎりまで目を近づけて(近寄って)も見える「近視認距離」と遠く離れて行っても見ることのできる限界の「遠視認距離」とがある。
□スキャナでは取込んだ用紙に密着する形で光路長が短く,ピントを合わせるのが容易ではない。搬送系の振動等他の雑音に対抗し,用紙吸着などで紙面を固定し短光路長をカバーしているものも。
- 市販ボールペン(一般ボールペン)/シハンボールペン
- [ball point pen]
OCR用の特殊インク等を使用していない,一般に販売されているボールペン。
(1)油性,水性ボールペンの他,即乾性の水性インクを用いた中性ボールペンが市販されており,油性のボテや水性の途切れと言った問題を一部解決している。ただ使用後は直ちにキャップをして,インクが乾いてしまうのを防ぐ必要がある。
(2)OCRボールペンとの対比で「市販」が付くが,現在は製造メーカも減り市中の文房具店ではほとんど手に入らず指定するOCRも少ない。「一般」も不要に?
筆記具 の項参照。(→筆記具での制限緩和が進む)
- 識別処理/シキベツショリ
- [recognition] [recognition, clustering, selecting]
(a)文字認識処理で,対象文字の図形的特徴を認識辞書内の特徴と照合して,最も近い認識結果を出力する処理。他の候補カテゴリとの差を検出し「識別」する。
認識方式 の項参照。
(b)複数種類の対象帳票から,帳票の種類を特定する処理。
帳票IDによるもの,帳票のレイアウトの特徴によるものなどがある。
帳票識別,ID認識 の項参照
(c)個別の文字の候補カテゴリ群の中から,取捨選択し「単語」として意味をなす候補の組合わせを探し,個々の文字の候補の内,正しいものを選択する処理。
単語照合/知識処理/後処理の項参照
- 湿度/シツド
- [humidity]
大気中に含まれる水蒸気量を表す尺度。相対湿度(%で表す)または,絶対湿度(gで表す)として表される。入力原稿の(帳票)の搬送精度は最も湿度に影響される。
(1)帳票関連では,
(a)湿度が高い場合は,積んだ帳票が湿気で張付き,1枚づつ分離されなかったり,帳票の腰が弱くなる現象が現れ,斜行やジャムの原因となったり,帳票が伸びたり,変形したりして,文字切出や認識に影響を与える場合がある。
(b)湿度が低い場合は,積んだ帳票が静電気で互いに吸い付いて,1枚づつ分離されなかったり,搬送系の中で金属部分に吸寄せられたりしてジャムったりする場合がある。また積込みの際に,用紙端で手を切る場合があり,要注意である。
(2)装置関連では,仕様として稼働時と休止時それぞれの許容湿度範囲がある。防錆。
運用環境の湿度が高いと空気中に浮遊する化学物質等が装置に付着して,特に金属部分の錆の原因になる。回転部や排気・吸気部では乾燥時には静電気等で電気信号にノイズがのることもあり,適度な湿度範囲での使用が望まれる。
- 写界深度/シャカイシンド
- [depth of field]
被写界深度の意。
- 斜行/シャコウ
- [skew]
用紙が給紙機構内を真っ直ぐに進まず,偏って行くこと。
(1)専用の給紙機構を持つOCR等では,センサで用紙走行を監視して,用紙の左端,あるいは右端を搬送路の壁に突き当てて,斜行を補正したりする機能がある。
(2)FAX等での斜行防止は,ガイドを用紙幅に合わせる程度となり,ホッパの無い機種もあるので,FAX−OCR等のシステムの入力として使うときには用紙のセットがかなり重要になる。
〔余談〕
1)競馬等では,並走馬が隣の馬の進路を横切る形で妨害することを斜行といい,審議の結果「違反」と認められると,上位の着順でも,妨害された馬の後ろへ順位が繰り下げられる。→後着制度
2)ギャンブル場でも馬券や車券(競輪・オートレース),舟券そのものや,その購入申込書等が,OCRやOMR等で処理される例がある。
- 斜行補正/シャコウホセイ
- [skew correction]
斜行防止のための用紙走行補正の意。また斜行したイメージの補正のこと。
□ドキュメントアライメント機能の意。
(1)給紙機構の中で直接斜行し始めた帳票を,メカ的に直進するように補正する。
(2)取込まれたイメージデータを対象に斜行補正を行う。イメージの中の基準となる図形(補正マークや基準点等)を探し,それらを正規の位置に戻すことで傾きも補正する。
- 朱印/シュイン
- [cinnabar seal ink impression]
日本では,朱肉での押印状態のイメージを取込んで印鑑登録等が行われる。印鑑証明の出力は「黒」であるが,登録時は「朱印」で行われる。銀行などの届け出印鑑もイメージデータとして登録され,必要に応じて照合チェックされる。
□朱印と同じ赤色系のドロップアウトカラーのスキャナは,印鑑証明等の登録には使用できないため,専用の印鑑(印影)登録機や,フィルタで青系から赤系へ切換えて使用するものもある。
- 主走査/シュソウサ
- [Main scanning]
帳票や原稿の二次元的広がりのイメージ情報を,走査線方向に走査すること。
(1)紙面から光電変換しながら情報を読取っていくことや,ブラウン管等に光を当て絵を描いていく等を「走査」という。「電子走査」
(2)一次元センサで二次元画像を取込む場合,センサ自体で電子的に走査する方向を主走査という。用紙上をセンサが移動して,あるいは用紙搬送で,二次元紙面をカバーする方向を副走査という。
図版
- 収差/シュウサ
- [aberration]
光学系を経て結像するとき,理論的な結像とのズレ,誤差のこと。
(1)焦点がずれて像が歪んだり,色がズレたりすることで,次の様な種類がある。
〔イ〕「色収差/Chromatic Aberration」
光の波長の違いで,レンズ等の通過でレンズ素材(ガラスやプラスチック)の屈折率や焦点距離が異なることに起因する。また色の違いで像の位置や倍率が異なる軸上の色収差(縦色収差)と,色の違いで像の大きさが異なったり像の縁が色付いたりする倍率による色収差(横色収差)の2つがある。
〔キ〕「球面収差/Spherical Aberration」
レンズ他の光学系が,球面からなっているために起こる。光学系を通った光が一点に集まらずズレて画像がボケる。
〔コ〕「コマ収差/Comatic Aberration」
レンズの中心や端部での倍率が異なっているため起こる。光軸から離れた一点から出てレンズに斜めに入射した光線は像面上の一点に集まらず彗星状に尾を引いた様になる現象。
〔ヒ〕「非点収差/Astigmatism」
レンズの屈折率が,方向によって異なっているために起こる。光軸から離れた一点から出てレンズに斜めに入射した光線が,像面上の一点に集まらず互いに直交する一対の線として異なった焦点面に結像する現象。
(2)歪曲
〔ソ〕「像面歪曲/Curvature of Field」
平面にピントを合わせたとき,像面が平面にならず湾曲した面に焦点を結んだ様な像を作り出すレンズの収差。
〔ワ〕「歪曲収差/Distortion」
レンズの中心を通る主光線の屈折に異常が生じると起こる。
被写体の像の形状と相似形の結像が得られなくなる。
(3)OCRでは光学レンズでの収差によって,帳票周辺部の画像の歪みが出て読取に影響することもあったが,最近では,密着型センサや光路長の短い光学系の採用で認識処理に影響を及ぼすほどのズレはなくなっている。
(4)コピーマシンでは,まだ大型レンズで画像を取込んでいるものが多いが,繰返しコピーすると,その歪みは大きくなり,黒枠帳票等ではバージンコピーを推奨。
- 周波数/シュウハスウ
- [frequency]
例・ペンティアムプロ 200MHz
周期的現象が毎秒繰返される回数またはその逆数。
□OCR関連では,演算処理のCPUの基本周波数が,大幅に向上したため,専用ハードを持たないソフトウェア処理でも,日本語読取が実現するなどしている。
- 縮小光学系/シュクショウコウガクケイ
- [minification optical system]
縮小レンズを用いた光学系の方式で,レンズの結像面に配したイメージセンサの上に縮小した原稿イメージを結像させる方式。縮小レンズ方式ともいう。
(1)縮尺率が大きく取れる反面,光路長が長くなり,通常幾枚かの反射鏡の組合せで機構が複雑になる難点がある。
(2)原稿サイズに合わせて光路長を変えて(光経路の切換えやズーミング)光学的に縮尺率を変えることができる利点もある。
- 出力ファイル形式/シュツリョクファイルケイシキ
- [output file format]
データが記憶装置に書込まれる形式。具体的には,OCRで読取った認識結果をファイルに書込む形式であり,テキスト形式やCSV形式などがある。
(1)テキスト形式
文字列を改行コード,キャリッジリターンコード(0AH 0DH)で区切ったファイル形式。
(2)CSV形式:Comma separated value format
文字列をダブル・クォート「“」で括り,カンマ「,」で区切ったファイル形式。
- 出力フォーマット定義/シュツリョクフォーマットテイギ
(a)OCRが読取ったデータを記憶装置へ出力する際のフォーマット定義。
(b)読取り結果を「受注票」や「確認書」等としてプリントアウトする時のデータの配列や見出しや項目名等のリテラル情報等を定義すること。
出力ファイル形式の項参照。
- 処理速度/ショリソクド
- [throughput]
単位時間当たりの処理量で表示。一般に,1分間の読取帳票枚数。(枚/分)
(1)読取り速度ともいう。→認識速度
(2)ページリーダ/ドキュメントリーダ(→旧来の分類で)での処理速度。
(→文書読取の意味でドキュメントリーダを使う風潮に配慮要。)
(a) ページモード読取りの場合,下記条件での測定値を推奨する。 (i) 帳票サイズ : A4 (ii) 読取り文字数 : 300字(30字/行,10行) (iii) 読取り文字種 : 手書き文字(数字) (iv) データチェック : なし (v) 測定期間 : 一括読取りモードで,帳票を読込み始めてから認識結果を上位のコンピュータに出力し終わるまでの期間。または,ファイルに書込むまでの期間。 (b) ドキュメントモード読取りの場合,下記条件での測定値を推奨する。 (i) 帳票サイズ : 最小サイズ帳票 (ii) 読取り文字数 : 10字(10字/行,1行) (iii) 読取り文字種 : 活字文字(数字) (iv) データチェック : なし (v) 測定期間 : 一括読取りモードで,帳票を読込み始めてから認識結果を上位のコンピュータに出力し終わるまでの期間。または,ファイルに書込むまでの期間。
- 消費電力/ショウヒデンリョク
- [power]
〔定格出力〕
機器または装置が通常の運転状態において消費する電力。
S[VA]=E[V]×I[A]
P[W] =E[V]×I[A]×cosφ
S:皮相電力 E:電圧 I:電流
P:有効電力 cosφ:力率
(1)高速読取り機構等は,それなりの電力消費量に。(受益者負担)
(2)給紙機構以外は,さほど電力消費量は大きくない。
- 焦点深度/ショウテンシンド
- [depth of focus]
ある被写体が結像する真の焦点面の前後で,許容できる鮮明度で結像することのできる前後の焦点面間の距離をいう。
図版
- 白基準/シロキジュン
- [white reference]
イメージスキャナで,シェーディング補正などを行う際に,使用する白の基準値。白色の一様な濃度分布を持つ画像に対する入力データの値で,白の基準となる。
□シェーディング補正を行うときに使用する。
シェーディング補正の項参照。
- 白黒反転/シロクロハンテン
- [Inversion]
2値化されたイメージ画像データの,白データと黒データを反転させる画像処理機能。ネガ/ポジ反転ともいう。
- 伸縮補正/シンシュクホセイ
真の帳票イメージから伸縮した帳票イメージの長さの補正を行うこと。
□伸縮が生じる原因には次のようなものがあり,一般にプレ印刷された補正マークにより補正を行う。
1)温湿度環境の変化により帳票が伸縮する。
2)縮小光学系では,レンズのバラツキから,焦点距離(ピント)の調整を行う場合があり,この時,主走査の解像度にズレが生じ,帳票イメージの横長さが伸縮する。
3)搬送機構部の位置精度が不良の場合は副走査の解像度にズレが生じて,帳票イメージの縦方向の長さが伸縮する。
- 伸長/シンチョウ
- [expansion]
データ圧縮により符号化された画像データを,人間が見て判る元の画像に復元化する,復号化すること。画像データ以外でもメモリ量削減で符号化され,人間が見たり利用する時に復号化することも含まれる。
- 磁気インク読取装置/ジキインクヨミトリソウチ
- [Magnetic Ink Reader] [Magnetic Ink (Character) Reader]
磁気インク認識によって文字を読取る入力装置。
○磁性体を含む特殊インクで印刷された文字を電気磁気的に感知し,文字を認識。
- 磁気ディスク装置/ジキディスクソウチ
- [magnetic disk]
ハードディスクドライブ(HDD Hard disk drive)とも呼ばれ表面に磁性膜を被覆したアルミやガラスの円盤を高速回転させ,データを読み書きする記憶装置。
○コンピュータの記憶媒体として主流。フロッピーディスクからハードディスク,光磁気ディスク※の大容量のイメージ等の大容量を必要とするものにも対応。
※magneto-optical disk drive(640MB)
- 字種/ジシュ
- [character set]
読取り文字種の意。識別精度を上げるために,不要な字種を読取り対象から外したり(例は字種限定の項を参照)あるいは,特定文字の除外を行うのが良い。
- 字種切換記号/ジシュキリカエキゴウ
- [symbol for exchange of character set]
認識対象文字を限定することを表す記号文字のこと。
□例えば,数字とカナが混在する住所欄において,数字で表す丁目・番地の前後を特定の記号で囲むことにより,この記号に囲まれた文字を数字単独読取りで認識でき,数字の10文字の範囲で正解を探せ,3〜ヨ,4〜チ等での混同を避けられる。『シブヤクニシハラ 1−2−3 チヨダビル』の場合,字種切換記号を「,」とする場合は,『シブヤクニシハラ「1−2−3」チヨダビル』に,φとする場合は,『シブヤクニシハラφ1−2−3φチヨダビル』等となる。通常は出力時には前詰めされて切換記号は表に出ない。
- 字種限定/ジシュゲンテイ
- [limited character recognition]
あらかじめ読取り対象文字を限定する機能。
(1)英数字(アラビア数字)とカタカナは,その発祥文化が異なり,お互いの都合を考慮することなく,形状的に似たものが多々ある。また,英数字では,Oオー/0ゼロを意図的に区別せず,「007」をダブルオーセブンと称したりもする。
(2)しかし,コンピュータ上では区別をせざるを得ず,0ゼロに中央に点を入れたり斜めにたすき掛け
したりして,Oオーとの区別をしようと試みたりしている。
(3)OCRでは活字認識/手書き文字認識共に,形状が似ているものは識別しにくい。英字のIと数字の1,カナのクワフ等と数字の7等は形状がかなり似ているため,識別が困難な場合がある。この場合,読取対象文字を限定する。
(4)例えば「数字のみ」として英字やカナを外す,具体的には英字やカナが対象外になることによって,数字の1,7の認識精度を向上させることができる。
(5)現在は,字種の様な大まかなものから,個別の文字単位での除外・追加が可能に。
- 字種チェック/ジシュチェック
- [character type check]
読取りデータに含まれる文字の種類をチェックすること。
□認識結果が次に示すような場合,「有効文字種チェック」を,掛けることにより字種の英字(A〜Z)の中にないものをリジェクトにできる。
※ 『有効文字種が英字』
(1)認識結果:ABC5ET→5は読取対象外→エラー→リジェクト出力へ
(2)また,候補文字列出力の場合は,2位以下で英字の候補があればそれを可能性の高いものとして出力することが可能である。(例・5/S/9/己,→「S」)
(3)ABC5ET→ABC?ET→ABCSET→出力へ
- 字種テーブル/ジシュテーブル
- [character table]
字種限定の範囲を定義するための定義体。字種限定テーブルともいう。
□英字の中でも,数字と混在読取りのときには,O(オー)やI(アイ)を除いて0(ゼロ)や1(イチ)との区別を避ける等で,0〜9とA〜Zの混在読取りの中で対象外の指定を行うこともできる。(5−S,6−G,8−B等も)
- 字種統一/ジシュトウイツ
手書きと活字の混在やカナと英数字等の発祥文化の異なるものを混在読取りせずその種類や生い立ちの同じもので,記入および読取りをおこなうもの。
- 字体/ジタイ
- [font]
フォントの意。明朝体の漢字では「イワタ」「モトヤ」「秀英」等のデザインがある。
- 字並び誤差/ジナラビゴサ
- [letter dislocation]
同一行中にある2つの文字境界のおのおのの基底線間の距離。
- 事例/ジレイ
- [user or system samples]
OCRを導入した事例。
□OCR導入での「起票者」「確認修正オペレータ」その他環境と導入の必要性,導入システム構成,帳票フォーマット,データ(帳票含む)の流れ,導入の効果等から構成される。
- 自動エレベータ機構/ジドウエレベータキコウ
- [auto elevating system]
ホッパをもつスキャナにおいて,ホッパを上下できる機構。
□ホッパに帳票がセットされると上昇して,ピックローラと用紙面に適度な圧力が掛かるフィード位置で停止する。ホッパから帳票が無くなると,それを検知して次の帳票をセットしやすいように下降するもの。
- 自動カーソル移動/ジドウカーソルイドウ
- [automatic cursor locating]
読取データの修正の際,リジェクト文字,またはエラーフィールドに,自動的にカーソルを移動すること。
□リジェクト文字修正では,オペレータがカーソルキーを修正したい文字の位置に移動しなくても,システムが自動的にリジェクト文字にカーソルを移動する。
- 自動マーキング機構/ジドウマーキングキコウ
- [automatic marking system] [automatic marking system (mechanism)]
読取った帳票へ読取ったことを示す印を印字(スタンプ)する機構。
ナンバリングの項参照。(FAXでも送信完了シートに同様のスタンプを押す)
- 自動給紙機構(方式)/ジドウキュウシキコウ
- [auto document feeder] [auto (matic) document feeder]
オートフィード機構(/方式),ADFの意。
ADFの項
- 自由手書き/ジユウテガキ
- [unconstrained handwriting]
制限手書きや常用手書きの様に,文字記入の自由度を制限しない記入方法。
□特に数字(アラビア数字)では,単独(字種)モードでは「自由手書き」可能のメーカが増えている。制限手書き,常用手書きの項参照。
- 自由度/ジユウド
- [liberty freedom of xx]
OCR関連での「自由度」には次の様なものがある。制限事項をできるだけ緩和して,使いやすいシステムとしなければならない。
1)帳票設計の自由度
2)ドロップアウトカラー選択の自由度
3)筆記字形の自由度
4)書式の自由度(出力データ形式/確認修正画面レイアウト)
- 住所辞書/ジュウショジショ
- [address dictionary]
住所に関する処理のための辞書のこと。
一般に,次のような辞書がある。
1)認識した住所欄について単語照合を行うための辞書。住所は地番の前まで一括で登録されヨミガナの付いたものが多い。
「〒100/東京都千代田区大手町/トウキョウトチヨダクオオテマチ」
2)認識したコード(郵便番号など)から住所を特定するための辞書。
3)認識した住所欄からコード(郵便番号など)を特定するための辞書。
4)今後郵便番号の7桁化で数値情報を実際の住所に変換することが必須となり住所辞書の充実が重要になる。
- 重量/ジュウリョウ
- [weight]
重さのこと。OCR関連ではOCR他のハードの重さと用紙等の媒体の重さ
用紙の重さは,四六判連量の項を参照
シールレター等の二枚重ねの用紙も登場し,従来の用紙形態と異なるものも読取り対象として対応せざるを得ない状況である。再生紙や普通紙といった定義(仕様)の曖昧なものも増え,重量だけでは「腰」の強さや粘りは想定できなくなってきている。
- 上位インタフェース/ジョウイインタフェース
- [Interface for Upper system]
機器または装置の動作を制御する上位機器(または装置)との接続方法のこと。
SCSI,GP−IBの項参照。
- 上下マージン/ジョウゲマージン
- [top and bottom margin]
読取り文字,または文字枠の上下周辺に確保しなければならない黒色禁止領域。
図に示すように文字列に対して上下の黒色禁止領域をいう。
図版
- 上質紙/ジョウシツシ
- [High Quality Paper]
化学パルプだけで製造した紙。印刷,筆記などの用途に用いる。
JIS P 0001-1979(No.6084)紙質の項参照。
□OCR紙は上質紙の中で,更にOCR向けの品質が高いもの。
- 常用漢字/ジョウヨウカンジ
- [daily use chinese characters]
一般の社会生活における使用の目安として選定された約2000字の漢字。
(1)字種とともに,音訓も併せて選定されている。
(2)手書き漢字OCRでの最小限度の読取り対象といえる?
当用漢字は1981年(昭和56年)に常用漢字が告示され,廃止となった。
- 常用手書き/ジョウヨウテガキ
- [easy writing] [easy writing (casual)]
JIS等※で提示された標準字体や推奨(参考)字形を参考にして,混同しやすい字形では,その区別を明確にするために字形に付与する条件を受け入れて記入する必要があるが,制限手書き文字に比べて,格段に制限を緩和させた記入方法。
(1)文字記入の自由度の制限の程度としては,自由手書きと制限手書きの中間であり一応の文字字形についての規則,例えば0(ゼロ)とO(オー)の区別のためにO(オー)には上部にループ部と接触しないバー(アッパーバー)を付けて書くといった,特に紛らわしい文字については規則があるという程度のものである。
(2)英字と数字等の混在では文字によっては,「自由手書き」が望めない組合わせもあり,一文字単位での認識では,メーカ共通の字形として重要である。
(3)常用手書き文字字形(JIS字形)を基本として,単独字種読取りでは,かなり自由手書きに近い読取りを,特に数字については実現しているOCRもある。
制限手書き自由手書きの項参照
- 人名漢字/ジンメイカンジ
- [biographical chinese]
常用漢字以外の漢字で戸籍上の人名に使用することを認められた漢字。
□OCRの読取り対象として,常用漢字やJIS第一水準の他に「住所氏名」には不可欠と思われる漢字を,追加文字として対象にしている漢字OCRシステムは多い。〜地名で「新潟」の潟はあるが,「岡山」の岡は無い。<JIS第1水準:有,常用・人名:無,要確認>
- 人名照合/ジンメイショウゴウ
- [name matching]
漢字かな等で書かれた名前の読取り結果(各文字単位の候補列)を,単語として辞書(人名辞書)内の単語と比較照合して,記入意図に合う様に選択すること。
(1)「ふりがな」や「ヨミガナ」付きの場合は,かな漢字変換して得られる漢字等と比較することにより,より冗長度の高い情報から選択することができる。
(2)「太田」「大田」等,OCR認識で「混同しやすい字形」であり,読み方も違わずという例は案外多く,画数の少ない簡単な文字ほど難しい場合がある。
(3)地域特有の読み等,使用する地域により辞書内容の拡充が重要である。
金城/キャン,雑賀/サイガ,他
(4)区切りなしで書かれた姓名は判断が難しい場合もある。
『金田一(キンダイチ)』さんか,『金田(カネダ)一(ハジメ)』さんか?
金田一太郎は「金田一 太郎」か,「金田 一太郎」か?
判断はヨミガナや姓名のワンモアブランク記入の要素がないと難しい。ベタ書きの名前は冗長度は高いが,人名辞書では姓と名が別々の場合が多いので結局は姓と名の付き合わせが必要になり,手間が掛かる。
- スーパー・ファイン・モード
- [super fine mode]
ファクシミリの解像度レベルを表すもの。ファインモードでの副走査の線密度を倍にしたもので,G3規格での最高の解像度である。主走査,および副走査の解像度が,それぞれ8点/mmおよび15.4点/mmの場合をいう。
□ファインの「鮮明」に対して,「精細」や「細密」また超精細という場合もある。主走査方向はラインスキャナ等の物理的な分解能に依存し,最高でも8dot/mm。
主走査 副走査 ノーマル(間引き穴埋め)モード 8点 /mm 3.85点 /mm ファイン(鮮明)モード 8点 /mm 7.7点 /mm ★ スーパーファイン(精細)モード 8点 /mm 15.4点 /mm dot /mm 1 /mm
G3規格FAXのG4モードでは主走査は200dpiで固定で,副走査方向が100,200,400の3通りが選択可能。解像度的には,G3でのノーマルファイン,スーパーファインに相当する。
- スイーベル
- [swivel]
ディスプレイでの水平方向の角度調整機能。チルトは上下の首振り機構である。
□表示装置の種類によっては角度により見え難い場合がある。確認修正作業の際は見やすい向きに微調整して,見やすい明るさと,コントラストを保つことが重要。
- SCSI/スカジー
- [SCSI] [small computer system Interface]
ホストコンピュータとディスクやプリンタ等の周辺装置をケーブルで繋ぐため規格化されたインタフェース。
エス・シー・エス・アイ(SCSI)の項に詳細説明。
- スキャナ部/スキャナブ
- [scanner]
OCRの一部で帳票の搬送,光電変換,帳票の排出を行う部分。
(1)読取り部ともいう。
(2)ホッパ,搬送系,読取りヘッドを含めた機械系・光学系から構成されている。
(3)なお,フラットベッドタイプスキャナにADFを付けたタイプがある。
- スキュー
- [skew]
帳票とスキャナとの間の傾きの角度。「斜行」
□帳票とスキャナとのなす角度が平行でないとき,スキューがあるという。
斜行(シャコウ),ドキュメント・アライメント機能参照。
図版
- スキュー・エラー
- [skew error]
帳票搬送中に帳票が許容値を超えて傾いた(スキュー)ために発生するエラー。
スキューの項参照。
- スキュー・マーク
- [skew detection mark]
帳票傾きを正確に検出するために通常,帳票上部両端に印刷される黒色マーク
(1)文字行単位に設けて,より正確な補正を行う場合もある。
(2)スキューの大きさを検出しスキューを補正するために使われる。
- スキュー角/スキューカク
- [skew angle]
ハンドOCRによる読取りにおいて,スキャナと文字列のなす角度。
☆ひねり角(同項の図の角度)θ,この角度を小さく操作することが望ましい。
- スキュー補正機能/スキューホセイキノウ
- [skew correction]
ドキュメント・アライメント機能の意。
□給紙機構(ハード)対応/給紙機構を通過する間(スキャナ部に入る前)に,用紙の斜行をセンサ等を用い検出し,用紙を給紙機構の基準端側へ突き当てる等して修正する。入力画像へのソフト対応/入力画像内に補正のマークが全て入る場合は,ソフトウェア処理で,イメージを回転させて補正する。
- スクリーン印刷/スクリーンインサツ
- [screen printing]
ドロップアウトカラーなどを用い,細かい網をかけて印刷する手法。
□記入部分を明確にし,使いやすい帳票を作ることができる。
- スタッカ
- [output stacker]
読取りの終了した帳票を格納する機構部分。ポケットともいう。
(1)帳票OCRでは,論理チェック等に掛からずに,誤読のままスルーとなった誤読文字を含んだ帳票と,誤読が無く正常に読取られた帳票とを格納するアクセプトスタッカと,リジェクト文字や論理チェックエラーのあるリジェクト帳票を格納するリジェクトスタッカの2つを備えたものと,小型軽量タイプの1スタッカのもの,逆に多数のスタッカで帳票仕分けを同時に行える,ソータ付属型がある。
(2)ダヴルスタッカのものは,スタッカ選択が可能で,スタッカの選択はソフト的に行うことができて,リジェクトスタッカにどのような帳票を格納するかは,パラメータにより指定できる。誤読が皆無に近い場合は,リジェクトや論理エラーの無い帳票をアクセプトスタッカに入れ,その他の帳票を,リジェクトスタッカに格納する様にすると,リジェクトスタッカに排出された帳票だけを,人手で修正すればよいことになる。しかし,誤読があっても,論理チェック等が掛からない項目に対しては,完全なクリーンデータとするためには,アクセプトスタッカに入った帳票であっても,逐一チェックする必要がある。
(4)複数(3以上)のスタッカがあり,帳票の種類や担当部署等により分けることのできる大型機もある。また,専用用途OCRの一種であるが,郵便番号読取り装置はソータ機能が中心のマシンである。
- スタッカ選択/スタッカセンタク
- [stacker selecting]
複数のスタッカのある装置で,どのスタッカにどの様なものを集めるかの内容を決めて,処理された帳票が,それぞれのスタッカに割当てられた性格に該当する場合,そのスタッカに出力される様に制御すること。
□複数スタッカをもつものでもダブルスタッカタイプが最も多く,またそれぞれのスタッカ容量が偏っている場合が多いので,割当てる性格には単純なものが良い。
- スタッカ・フル
- [stacker full]
スタッカが格納された帳票で満杯になること。ポケットフルともいう。
□通常,2スタッカタイプでは,アクセプトスタッカ容量が大きく,リジェクトスタッカ容量はかなり小さい。しかし,起票者のレベルや論理チェック内容がシビアな場合は,大半がリジェクト帳票となることも考えられ,運用レベルに合わせた,スタッカ選択が必要である。スタッカの項参照。
- スタッカ容量/スタッカヨウリョウ
- [stacker capacity]
帳票が格納されるスタッカの容量のこと。
☆帳票枚数で参考表示されることが多いが,紙厚によって帳票格納枚数が変わるため,スタッカの深さ(mm)で表示されることも多い。
- スタンプ機構/スタンプキコウ
- [stamp mechanism]
〔関連/ナンバリング機構〕
印字機構の意。☆読取終了帳票に押印し,未処理帳票と容易な区別を可能に。
- ステッピングモータ
- [stepping motor]
パルス信号が入力する度に決められた方向に一定の量だけ回転するモータ。
□位置精度と高トルクを得られる特徴があり,スキャナの搬送モータに使用。
(1) P M 型 ロータが永久磁石で,ローコストタイプ。 (2) V R 型 ロータを鉄芯のみで,鉄芯の飽和限界まで磁束密度を高くすることで大きなトルクが得られる。 (3) ハイブリッド 型 上記双方の長所を兼備え,位置精度と高トルクが得られる。
- ストローク
- [stroke]
文字の点画の意味。文字の線。認識方式の項参照。
オンライン認識等では(1)(2)(3)の3つのストロークを独立して捉えることが可能。
OCR等では書き終わった後のパターンのために,Xの箇所で分離した4本と(3)の5つのストロークが対象となる。
芯線化等ではXの箇所がT字路が2つになったりして複雑になる場合も。
図版
- スプロケットホール
- [sprocket hole]
連続用紙の左右両端にある穴のこと。(プリンタ等の連続用紙の搬送用)
- スペースチェック
- [space check]
フィールド内のスペースの有無をチェックするデータチェック方式。
(1)ブランクチェックともいう。 データ・チェックの項参照。
(2)スペースチェックには,以下の種類がある。
・〔イ〕インナースペース(ブランク)チェック…文字間スペースの有無をチェックする。
・〔オ〕オールスペース(ブランク)チェック…全桁がスペースであるかチェックする。全桁スペースの場合にエラーとする。
・〔ノ〕ノンスペース(ブランク)チェック…スペースが無いことをチェックする。フィールド内に,一つでもスペースがある場合にエラーとする。
・〔ウ〕右端スペース(ブランク)チェック…→ライト・ブランク・チェックともいう。フィールド右端にスペースがあるかをチェックする。
・〔サ〕左端スペース(ブランク)チェック…→レフト・ブランク・チェックともいう。フィールド左端にスペースがあるかをチェックする。
- スペルチェック
- [spell check]
知識処理の一種。
(1)入力したデータの妥当性チェックを英単語のスペルと照合して行う方法。
(2)OCRの場合は,読取ったデータに適用し誤読の検出に使用される。
- スポット
- [spot]
JIS X 9004-1983
印字文字の外側で背景より明らかに反射率の低い部分。
(1)JIS X 9004-1983
「光学式文字認識のための印字仕様」では,直径0.2mmの円をはみ出るスポットは禁止されている。
(2)スポットにより,文字の切出しや認識が正確にできない場合がある。
印字仕様の項参照。
- スポットノイズ
- [spot noise]
用紙上やイメージ内のスポット状の汚れ/シミ。
(1)OCRのための印字仕様で禁止されている直径以上のものは,OCR読取りでのノイズ(障害)となり,文字範囲の特定(文字切出)や読取りに悪影響を及ぼす。
(2)スポットの元となるものは,製紙過程での製紙滓等やプレプリント時のインクの飛散等での汚れによるものがある。
(3)スキャナが不安定で,電気信号的にランダムノイズが発生しイメージデータ上でスポットノイズとなることもある。 〔コ〕孤立点,孤立点(ノイズ)除去
- スループット
- [through-put]
単位時間内に処理できる仕事量。速さが問題になるシステムでは処理速度(ppm:page per minutes)の意。
□OCR運用で重要なのは「トータル・スループット」である。↑ppm等
(1)OCRの仕様で特に注目されるのは用紙搬送速度で,「毎分何枚読込みます」というものであるが,実際の運用ではクリーンデータ化されるまでの時間が重要。
(2)用紙搬送速度より重要なのは,読取り精度であるが,これは読込むデータの文字品質次第という部分もあり,仕様には明確にできないのも事実である。
(3)実運用と同レベルの記入者が,実運用で使用する帳票に書込んだものを用意して各OCRメーカのショールーム(巻末に場所や申込方法を表にまとめてある)へ出かけ,読取り率や確認修正等のユーザインタフェースについて,良く見極めてやるべきである。
(4)帳票読取りでのクリーン化の時間とは直接リンクしないが,帳票設計のしやすさや定義体登録のしやすさ等も帳票種類が多かったり,帳票をテンポラリーにドンドン変えていく機会の多い運用では重要要素となる。
スループット=ファイル容量÷転送時間
(1)東基幹ノード→(2)東日本端末 最大114.6/最小26.9(kbps)
(1)東基幹ノード→(3)西日本端末 最大114.6/最小48.2
(3)西日本端末 →(2)東日本端末 最大102.9/最小36.9
(2)東日本端末 →(3)西日本端末 最大108.1/最小34.4
- 水性ボールペン/スイセイボールペン
- [liquid ink ball-point pen]
筆記具の項参照
水に溶解する特性のインクを使用したボールペン。
□油性ボールペンに比べて,滲みやすい特徴があり,OCRに使用する場合は注意が必要である。即乾性の水性インクを用いた『中性ボールペン』もお勧めである。
- 錐体分光感度/スイタイブンコウカンド
- [Cone Action Spectra]
眼球に入射した光は網膜に結像し,網膜に並ぶ光受容器に吸収されて初めて視覚情報として取込まれる。網膜には光を信号に変える4種類の細胞があり,明視野では,その内3種類の錐体が主に使われている。それらの分光感度特性のこと。
- 数字/スウジ
- [numeric]
アラビア数字〜Arabic numerals
0〜9のこと。手書きではアラビア数字を指す。数量・金額等での重要字種。
☆「自由手書き」対象として,OCR各メーカがJIS字形等を中心に,郵便番号記入程度の感覚で(OCRでの読取り等を意識せずに)記入しても誤読が無くて,リジェクトもほとんどない読取りを目指している字種である。〒番号7桁に伴い数字読取り精度が益々重要になってくる。
- すきムラ/スキムラ
用紙品質
製紙過程で用紙の厚さにムラが発生したりすること。
(1)裏が透けて見える様な部分があったり,表面に凹凸の顕著な用紙のできる原因。
(2)通常のバージンパルプからの製紙過程では最近は,ほとんど見られない。
(3)再生紙で,バージンパルプ使用時のすきムラに相当する印刷インクの除去漏れや原材料の古紙の種類の異なるものが混在して同様のムラが発生することもある。
- 捨て書き/ステガキ
- [test writing] [test writing, smoothing]
記入/ボールペン
ボールペン記入の際に,インクの出の悪いものを使う場合は,不要紙に前もって円や線の捨て書きを行い,ボール表面にまんべんなくインクが広がる様にする。
(1)捨て書きによって,記入途中での線の途切れや,かすれを防ぐことができる。
(2)また,夏場の外気温や,冬場の暖房の効き過ぎ等でのインクのボテ/ボタ落ちを捨て書きで除去してから,記入するのもOCR読取りに好結果を与える。
(3)逆に,夏場にクーラの吹き出し口近くに置いたりしたり,厳冬の戸外でインクが固まり出難くなった場合も,捨て書きによりインクを滑らかに導くことができる。
- 寸法/スンポウ
- [size]
サイズのこと。
1)帳票寸法の場合は,縦の長さと横の長さで表す。
A系B系の欧州系と,リーガル他米国系の寸法系がある。
2)OCR装置等の場合は,装置外形の縦(奥行き)・横(幅)・高さの長さで表す。
奥行きDistance,幅Wideness,高さHeight DWH
サイズ(帳票サイズ)の項 参照
- ズームイメージ
- [zoomed Image]
OCRで読取ったデータの確認・修正の際に,対応するイメージを拡大して表示する機能または拡大して表示されたイメージ。
イメージ確認修正機能の項参照。
- ズーム光学系/ズームコウガクケイ
- [zoom optical system]
読取る際に縮小または拡大する目的で光学系の倍率を変え得る様にしたもの。
□イメージスキャナでは,CCD等の受光素子で画像を読取った後に,電気的に,間引き処理,あるいは補完処理を行って,原稿の倍率を変えることが一般的で,コピー機の分野では良く用いられる。
(1)「共役長変更方式」
レンズ倍率をm,物面から物主面までの距離をa,像主面から像面までの距離をb,物面から像面までの距離をl(共役長),レンズの焦点距離をfとすると,
a=f(1+1/m) b=f(1+m)
l=a+b=f(1+1/m) + f(1+m)
=f+f/m + f+fm
=f(2+m + 1/m)
となるので,倍率mの変化に応じてa,b,lを変えることで倍率変化を行う。
(2)「ズームレンズ方式」
l(共役長)を一定にして倍率を変えるもの。結像面を移動させる必要は内が光学系が複雑になる。
(3)「ターレットレンズ方式」
必要となる倍率のレンズを複数用意して切換える。簡単なアタッチメントで構成されるものもある。
- 図形歪み/ズケイヒズミ
- [distortion]
幾何学的な歪み。OCRでの読取り対象イメージは斜行や蛇行,伸縮,欠損等の種々の歪みを受ける。帳票位置を示すマーク等を頼りに補正を施すが,非線形な歪みの補正は難しいため,ホッパ積込み時やFAX送信時の注意が必要。
(1)読取り対象範囲のイメージに欠損が無い場合は単純な斜行は基準マーク等の検知により伸縮補正も合わせて行える。S字蛇行対応は読取り各行の前後に基準マークを入れるか,黒枠文字枠にし,基準点を明確にして補正するしか手がない。
(2)印刷(プリンタ)での歪み 歪みの2項(読取り対象印刷歪み)
(3)表示(ディスプレイ)での歪み歪みの3項(確認修正画面歪み)
- 7−DR check/セブンディアールチェック
- [7-DR check]
チェック・ディジット・チェック方式の一つであり,数値を7で割った余りを,チェックディジットとする方法。
チェックディジット・チェックの項に一括
- 7−DSR check/セブンディエスアールチェック
- [7-DSR check]
チェック・ディジット・チェック方式の一つであり,数値を7で割った余りを,7から引いた数をチェックディジットとする方法。
チェックディジット・チェックの項に一括
- 7Bフォント/セブン・ビー・フォント
- [7B font]
JIS X 6301-1979で規定されている。活字フォントの一種。数字の0〜9とEとPの英字。 主にエンボス文字として,カードの番号(転写印刷対象)の字形として使用される。
(キャッシュカード等の盛り上がった文字)
フォントの項参照。
図版
- セグメント
- [segment]
連続した黒画素の塊をいう。
- セグメント抽出/セグメントチュウシュツ
- [collecting segments]
文字の構成要素としてのセグメントを意味のある塊として抽出すること。
(1)文字単位では「ストローク抽出」に相当する意味で使われることもある。
(2)オンライン認識(ペン入力等)では,セグメントがクロスしたものでも,個々に把握できるため,記入後の文字パターンを対象とするOCR系認識処理に比べてその抽出は容易である。簡単なソフト処理でオンライン認識が可能な理由である。
- セパレータローラ
- [separating roller]
自動給紙機構のスキャナにおいて,帳票の2枚送り(ダヴルフィード)の防止のために給紙部に設けられたローラ。給紙方向と逆に回転して2枚送りを防止する。
(1)まず,ローラAがホッパ最上部の用紙の表面をセンサで感知して,適度な圧力で用紙を押しつけながらイメージセンサのある(図では左)側へ引込む。
(2)Bのローラ位置まで押進めると,指定の用紙厚さに調整された隙間が,BとCの間に設定されて2枚目以降の用紙を排除する。ただし用紙厚さは湿度等で変わることや用紙端の折れ等でのジャム発生の防止のために隙間は大きめに設定されるのが普通で,複数の用紙が入りこめる。
(3)透過光等で複数枚か否かをチェックする機構(D位置等)を有するものもあるが,直下の用紙は引込まれやすい。注)
(4)これを防ぐため,CのローラがBと同一積込み用紙の下から引き込むものや方向に回転し,用紙の下面では逆方向に簡易タイプではローラCの代わりに押す力となり,静電気や綴じ穴等により摩擦係数の大きいものを張り付けた、取込み対象の用紙の下に張りつく用紙をダブルフィード防止具をあてがう。ホッパ側に押し戻す。
図版
- セントロニクス・インタフェース
- [centronics Interface]
米国セントロニクス社が1960年代に,自社プリンタ用に開発した8ビット・パラレルインタフェース。コネクタ形状,信号定義等,物理的仕様が決められている。
(1)データ伝送は,非同期の片方向通信方式で,データ線以外の複数の制御信号線により制御される。
(Busy ACK Strobe等の信号線)最大ケーブル長は3m程度。
(2)伝送データの形式 コマンドセットは決まっていないため,かなりの数のサブ・バージョンがあるので,接続の際には注意が必要。
(3)元々プリンタ側だけの信号を規定したものであるため,ホストコンピュータ側がサポートする信号やコネクタは不統一のまま1981年IBMがIBM-PC用にサポートしたあと,ホスト側インタフェース使用がPCパラレルインタフェースとして多用される様になった。1992年にIEEEが双方向パラレルインタフェースとしてIEEE1284を提案,Nibble yte,ECP(Enhanced Capabilities Port),EPP(Enhanced Prallel Port)の4つの新しい双方向モードと従来のPCパラレルとに互換性のあるCompatibilityモードとがある。Nibble yteの両モードは低速のリバースチャンネルとして使用されCompatibilityモードと同時に使用して双方向通信を実現できる。ECPとEPPのモードはそれ自信で高速の双方向通信が可能である。
- 正読率/セイドクリツ
- [correct reading rate]
正しく認識した率。(対象文字の中で正しく読取れた文字の比率)
(1)何を正解とするかの基準により変わる。記入者意図と合ったものを正解とするとシやツを逆に書く人の文字でも,マシン側のエラー(誤読)となり不合理である。
(2)記入位置が(例〜アイウエオ等順に欄外の指示文字に従って書込む様な)固定のテスト帳票では,書く位置の間違いや,シとツの様なものの評価は,文字形状とそれに合ったカテゴリの出力かどうかで判定されなければならない。
(3)同形文字の存在する「混在読取り」での1文字単位の正解は,「力,カ」の様な候補の2位,あるいは「工,エ,I」での候補の3位にあっても,同形文字の数だけ下位の候補出力も正解にカウントしなければならない。(後処理での結果をベースに一文字単位に戻してシステムトータルでの正解率を出す場合も多い。)
(4)正読率を上げるため,「学習機能」でユーザが個別に辞書登録できるシステムが出ているが,手書き文字の場合は前述の「ツとシ」の様に登録するものよってはそれでの正読対象の誤読化等の副作用も出るので,安易な登録は禁物である。
(5)候補列で出力されるものは,n位正解率で示されることも多い。
- 制限手書き/セイゲンテガキ
- [constrained handwriting]
文字枠内にプレプリントしてある記入ガイド(パターン)に沿って,文字を記入させることで,文字記入の自由度を制限させ,読取り精度を上げる記入方法。
(1)制限手書きによる文字記入例を図に示す。
(2)なお,制限手書きは,初期の手書きOCRで用いられた方式であるが,現在でも一部,「誤読が皆無の方式」として,愛用しているベンチャー企業もある。
(3)ソフトOCRも急速に発展普及してきた現在では,常用手書き,または,一部で自由手書きでの読取りが可能となっており利用範囲は減少の一途をたどっている。
図版
- 製紙メーカ/セイシメーカ
- [paper plant] [paper plant (manufacturer)]
文字認識技術が未熟な時代には,帳票用紙の品質にも認識精度が左右されたためOCRメーカ各社は,「○○社の銘柄△△の紙を推奨する。」等としたりした。
(1)実際に,すきムラ等で製紙メーカの技術レベルにバラツキが大きい頃もあった。
(2)現在では「普通紙」と称する定義の曖昧な紙で,ほとんどのOCRメーカがOKとしておりOCRシートのみ限定する機種は皆無と言って良い。OCR側都合ですきムラやゴミの混入などによるボイドも,ある一定の大きさ以下なら前処理でゴミ除去されるものが普通になり,用紙の表面の品質も緩和された。また用紙の「腰」の強さに比例する「連量」も,薄い側へのレンジが広がり選択肢が増えた。
- 専門入力要員/センモンニュウリョクヨウイン
- [special operator]
OCRデータのクリーン化で専任のキーパンチャのこと。
(1)現在は操作性改善などで,非熟練者でも容易にクリーンデータ化が可能に。
(2)コンピュータシステムが導入され始めた頃は80欄のパンチカードに穴を開けてカードリーダで読込ませるものが主流だった。この頃,一旦パンチしたカードをチェックするため,再度カードパンチャーに通し,ベリファイ打鍵をしてミスを発見するという手間を掛けていた。ブラインドタッチで高速打鍵が可能な専門のキーパンチャーが不可欠であった。現在ではOCRで読取ったデータを確認修正段階で非熟練要員でも処理可能だが,誤読は絶対に困るという検査請負機関等でOCR読取り後のデータを専任者のベリファイ打鍵でチェックしている所もある。
- 専用用途OCR/センヨウヨウトオーシーアール
- [special purpose OCR]
特定の業務のみを対象に用いられるOCRのこと。
(1)郵便番号読取り区分機(郵便物仕分け)装置や自動車のナンバープレート読取り、チェーンストア統一伝票専用読取り等の特定の用途に作られたOCR装置。
(2)仕分け専用の大型ソーターを備えた『活字専用機』等か米国製である。
(例)スピード違反車の証拠写真から車のナンバープレートの文字を読み車の特定を行う。
召喚状の発送等を迅速に行う。高速道路などでの走行中の車を撮ったブレのある写真を対象にしたもののほか,止まっている車を正面から撮ったものとして,重量検査場でのダンプトラック等の過積載違反車両の特定にも使われている。
(例)特殊形状をした帳票を読込むものとしては「タグ読取り機」がある。
帳票に比べ硬い紙で形状も「千切った」部分など不確定な,平らとは限らない台形状の(商品から引き千切った)裏表も揃っていないものを取込み読込む。
- 線順次/センジュンジ
- [line sequential]
色信号配列の方式で,画像の1ライン毎に各色成分の信号を順次一次元的に配列していく方式。〜色信号配列
- 線数1/センスウイチ
- [screen ruling]
網点や万線等の中間調を表現するスクリーンの粗さのこと。
□中間調の画像を網点処理して印刷するとき,互いに直交する網点列が1インチに幾つ並んでいるかを表す。(「万線」は,1インチ当たりの線数をいう。)
〔参考〕新聞雑誌は65〜100,モノクロ印刷85〜150,カラー印刷133〜200印刷物の線数は線数カウンタでモアレの発生で調べることができる。
- 線数2/センスウニ
- [stroke accounts]
特に手書き文字の認識処理で,文字の持つ特徴の大きな要素として,指定の方向毎の文字線の混み具合をカウントするもの。また各々の方向毎にゾーン分けをしてより細かな特徴として把握することもある。
□手書き文字は活字と異なり,切出した後に正規化しても,パターン形状そのままでは特徴とならない場合が多く,縮退した情報が必要である。単純線数は画数を反映しており,複雑な文字か簡単な構造の文字か等,大分類段階で使いやすい特徴。
- 鮮鋭化/センエイカ
- [sharpening]
画像を鮮鋭化すること。輪郭強調や高域強調により鮮鋭化が行われる。
- 鮮明モード/センメイモード
- [fine mode]
G3/FAXの送信モードの内,副走査(紙送り・給紙・搬送)方向の解像度が7.7ドット/mmとなるもの。FAX−OCRでは印刷文書等,文字サイズが小さいものではノーマルモードではなく,このファイン(鮮明)モードで送る。
- 選択法(間引法)/センタクホウ
画像の縮小あるいは密画素から粗画素への変換時,画素を減らす一手段。
- ソータ
- [sorter]
読取った帳票の内容により,複数のスタッカに分けて帳票を仕分けする機構。
□顧客番号で帳票を仕分けする時などに使用する。
- ソフトOCR/ソフト・オーシーアール
- [OCR by Software engine/OCR based on software]
ソフトウエアで認識処理を行うOCRシステムのこと。
(1)OCRを構成するスキャナ部,文字認識部,確認修正・定義体登録部のうち,いずれのOCR専用の,あるいは主目的がOCR用のハードウェアを持たないで認識処理はPCやWS,サーバ等の装置上のソフトウエアで実現されるOCR。
(2)現在CPUの処理速度が格段に速くなり,小型帳票を高速に読取る様なOCRのスキャナ部は専用機として持ち,ページリーダ機能やドキュメントモードも実現する様なOCR専用スキャナを持ち,認識処理はソフト化してしまったOCRもある。スキャナと制御装置からのみ構成されるが,ハードOCRに分類される。
(3)元々,パソコン等でアプリソフトとして,対象画像の入力手段を問わないものや専用(指定)のイメージスキャナはあるものの,いわゆるOCRスキャナの様な帳票を高速に,またサイズを色々と扱える様な作りになっていないものの場合はソフトOCRとして分類する。
(4)MPU性能の向上やメモリ装置の低価格により,専用のハードウェアを一切持たないで認識処理をソフトウェアのみで行うシステム。OCRでのイメージ入力は別途スキャナやファクシミリ,イメージファイル等から行う。パソコン接続したイメージスキャナで文書を入力しソフトOCRでコード情報化して,さらに翻訳等の処理をするシステムが普及してきつつある。
- 相違度/ソウイド
- [distance]
相異度
文字認識で対象の文字や記号の形状から抽出した特徴と,あらかじめ十分な数のサンプルデータから作られた辞書パターンとを照合して,ある辞書パターンとの違いの累積を評価して,目的のカテゴリかどうかを相対的に判断する評価値。
(1)辞書の特徴パターンの内で,最も相違点の少なかった特徴パターンのカテゴリを答とするものだが
,逆に似ている部分の累積を評価するのが「類似度」である。
(2)特徴抽出方式により,相違点か類似点かで,演算時間に差が出るため,どちらが良いとはいえないが,相違度演算中に閾値を越えると途中で放棄して次に取掛かれる効率的な利点が相違度にはある。類似度は全てを足込んで見ないと不明。
☆2つの物の間で違っている度合い。←類似度の項参照。
- 走査スピード/ソウサスピード
手走査型ハンドOCRでスキャナを手で走査する時の媒体とスキャナの相対速度。
帳票OCRでは,副走査の移動スピードをいう。一般にmm/秒で表される。
手走査型ハンドOCRの項参照。
- 走査線/ソウサセン
- [scanning line]
原稿イメージは,主走査および副走査により,電気信号へと変換されていくが,副走査によって生成される主走査方向の1ラインを走査線という。
☆副走査方向の解像力は,この走査線が副走査方向の単位長さ当たり,何本あるかで決まり,副走査方向の読取密度を走査線密度が何本/mmという。
図版
- 走査方式/ソウサホウシキ
- [scanning system]
読取るべき原稿イメージを個々の画素データ列として,順次入力していくための機構や方式。走査機構,読取方式,スキャンニング方式ともいう。
☆走査方法としては,主走査および,副走査の機械的相対運動の行わせ方や,走査させる手段,形状等により様々な方式がある。これらを分類すると図の様になる。
図版
- 即時修正モード/ソクジシュウセイモード
- [Immediate correcting mode]
OCR読取りにおいて,リジェクトが発生した時点またはエラーフィールドが発生した時点で修正操作を行う処理方法のこと。
☆OCR読取り実行中,リジェクト文字やデータチェックエラーなどが発生して修正が必要となる都度,読取り動作を中断してオペレータに修正を求めるため,読取り完了までの処理時間は長くなるが修正入力ミスが低減できる。
OCR修正モードの項参照。
3点補正/斜行補正/蛇行補正/伸縮補正
- 像域分離/ゾウイキブンリ
- [segmentation]
文字と絵柄を最適なモードで読取るために読取り画像領域を分離すること。
☆文字と絵柄が混在した原稿を読取る場合に,文字を綺麗に読取るモードにすると網点がつぶれ,逆に絵柄を綺麗に読取るモードにすれば,文字がかすれる場合がある。これを避けるため,文字と絵柄領域を分けて,各々に最適な処理を行ってきれいな画像を再現するときに使用する。
- ターン・アラウンド処理/ターン・アラウンドショリ
- [turn-around document data processing]
計算機で必要事項を印刷した帳票を顧客に送り,記入されたり,払込で戻ってきた帳票をOCRで読取り消し込み作業等をする処理。
□顧客で滞留したり払込窓口や郵送等により人手の介入が多くなるため,帳票の汚れ,破損などが起こらない様,注意が必要である。
消込作業の項 参照。
- ターン・アラウンド帳票/ターン・アラウンドチョウヒョウ
- [turnaround document]
ターンアラウンド処理に用いられる帳票。主に複写帳票が用いられる。
ターン・アラウンド処理の項参照。
- タイミング・マーク
- [timing mark]
下記の3通りの意味がある。
(1)マーク読取り位置を正確に検出するために,帳票内の片端または両端あるいは上下端に印刷される黒色のマーク。
(2)帳票内の文字行位置を,正確に検出するために,帳票の片端または両端に印刷される黒色のマーク。
(3)ラインマーク,行マーク,スキューマーク,補正マークの総称。
- TIFF/タグ・イメージ・ファイル・フォーマット
- [TIFF] [Tag Image File Format]
ソフトOCR等の共通イメージフォーマット。
〔テ〕ティフ形式の項参照
- タブレット
- [tablet]
オンライン文字認識装置に用いられる手書き文字,記号等を入力する際に使用する板状の入力装置である。オンライン文字認識装置の項参照。
- ダイアログ・ボックス
- [dialog box]
設定や確認の際に,一時的に表示するウィンドウのこと。
- ダイナミック・レンジ
- [dynamic range]
イメージセンサが検出可能な信号の範囲を表す。
☆一定のS/N比を定義したときの最小検出露光量をEminとし,飽和露光量をEsatとしたとき,ダイナミックレンジDrは,以下の様に定義される。
Dr=20Log10 Esat Emin
- ダイナミック文字認識/ダイナミックモジニンシキ
- [dynamic character recognition]
下記に示す2通りの意味がある。
(1)オンライン文字認識装置の様な,文字記入と同時に認識し,文字コードとして入力する文字認識の総称。
(2)活字認識に用いられるパタンマッチング法。
〜文字パタンそのものを標準パタン(辞書)として持っておき,入力パタンとの重ね合わせにより識別を行う文字認識の方法。
- ダイレクト(入力)モード/ダイレクトモード
- [direct mode]
OCRを使用せずデータをキーボードから手入力する方法。
☆〔キ〕キーエントリーモードの意。
- ダブル・クリック
- [double click]
マウスのボタンを,「カチッ,カチッ」と二度連続して(間を開けないで)押すこと。
□余り間隔を開けると,クリックが2回と見なされて,所定の反応をしない。
年配者向けに間隔をデフォルト値よりも長い目に,設定し直されることもある。
- ダブル・フィード
- [double feed]
帳票搬送時に同時に2枚以上の帳票を搬送すること。
(1)裏カーボンなどの摩擦係数が大きい帳票はダブルフィードが発生しやすい。
(2)OCR専用スキャナでは,ダブルフィード検出機能を持つものもある。
(3)梅雨時の湿った帳票や,冬場の乾燥時の静電気を帯びた用紙等は一枚毎の分離が困難となり,ダブルフィードやジャムの原因となりやすい。用紙の保管には注意が必要で,湿度や過度の乾燥の他,固さが不均一な台や段差のある所へ置いて保管するのは避けて,用紙が歪んだり,カールしたりしない様に配慮する。
- ダブル・マーク・チェック
- [double mark check]
一つの欄またはフィールドにはマークが複数書かれることは無い(書かれてはいけない)ことを前提とし,マークが一つであるか,複数であるかをチェックするマーク読取りチェック方式。 マーク読取りチェックの項参照。
- ダブル・レター・サイズ
- [double letter size]
アメリカ,カナダで広く使われている用紙のサイズ。
ダブルレターサイズの用紙サイズは17×11インチ(縦×横431.8×279.4mm)
サイズ,用紙サイズの項 参照
- 多言語情報処理環境/タゲンゴジョウホウショリカンキョウ
英語以外の言語を使って,パソコン通信やインターネット等でメールを送っても相手側のパソコン画面に,文字バケせず正確に表示されるシステムのこと。
(1)多言語情報処理環境をアジアと欧州各国が共同して開発する構想がある。これは1997年9月千葉で開催予定のアジア欧州会議の経済閣僚会議の席で,26の加盟国・地域の合意を得て文字コードの統一に着手しようとするもので,日本の政府も参加主要国に打診を始めている。
(2)OCRの面では,ハングル文字やタイ文字の読取りの研究が盛んで,ミャンマー(ビルマ)文字の認識の研究もタイ文字に影響されて始まっている。将来的にはベトナム文字等も対象になるかも知れない。モンゴル文字は縦の続け文字で研究対象としては面白そうである。(ロシア文字世代が当分は社会の中心だが)
- 多字種言語/タジシュゲンゴ
日本での漢字等の主に表意文字を用いる言語はその文字数では,欧米のアルファベット等の表音文字と比較して,桁違いに多い。OCRの読取対象文字で見ても英数字での文字は記号を入れても100文字以下であるのに対し,日本語表記の漢字は3000〜4000字が最低限度必要とされ40倍近い差となる。朝鮮韓国語のハングルは表音文字で現在は10の母音と14の子音文字が使われ,母音子音の単純な組み合わせ以上の文字が可能であり,500以上の使用がされている。
□同時に読取る対象が増えるほど,認識処理は難しくなり規模や時間も増大する。
- 多段階処理/タダンカイショリ
- [multiple processing]
文字認識や文書認識における処理手法の一つで,処理段階を多数設けて段階的に処理を進めていく方式。
□処理が不具合のとき,一つ前の段階へ戻ることを可能にしたフィードバック型も。
(1)文書認識では,まず紙面内の文字領域の切出しを行って,「見出し」や「本文」「フッタ部」等の領域の性格と行の方向等の把握を行う。さらに,プロポーショナルピッチも含め文字を一文字単位に切り出し,認識処理を施し,単語や文節等の情報を組入れ,文章として意味の通るものに仕上げる。
(2)文字認識においては,「大分類→中分類→小分類→詳細識別」の様に,段階的に候補を絞込みながら認識する方法のこと。
(3)文章理解においては文書構造を,文書全体→段落→文章→文節→単語という様に段階的に単語レベルにまで分割していく方法のこと。
(4)多値レベルイメージから2値化までの前処理,認識処理((1)項)の後,知識処理の後処理を含む広い意味での認識処理を指すことも。
- 多段構造解析法/タダンコウゾウカイセキホウ
- [multiple structure analysis]
文字認識において,対象文字の構造を順次分解し,解析していくことで,文字を識別していく方法。漢字等で,扁や旁,冠や足といった部分構造を把握し,より小さな構造(クロスや端点等)へ分解していく方法。
- 多値画像/タチガゾウ
- [multi leveled image data]
多値レベル画像
中間調レベルのある画像。スキャナ解像度1点分の濃度情報が(0/1)でなく例えば4ビット情報で,0〜F(15)の16段階の濃淡レベルがあるもの等。
□通常,OCR処理対象の2値化画像もスキャナで取込まれる際は16レベル位の多値レベルの場合が多い。この多値レベル画像を,単純な固定しきい値で2値化するのではなく,周囲の状況を反映して,薄い文字を「かすれ」を発生させずに取込んだり,全体が濃い雰囲気の中の薄い部分を確実に「白」に取込んだりする浮動(最適)2値化が行われている。二値化データ/画像
□ディザ画像は表現できる値は白黒の2値であるが,一定エリア(2×2ドットで4点分等)を使って濃淡を表そうとするもので,多値画像ではない。
ディザ
- 多値レベル/タチレベル
- [multi level]
濃淡画像を,0と1(白と黒)の2値化(binaries)するのではなく,灰色の(中間/グレー)レベルが存在する,0,1,2…の様に3段階以上のレベルに量子化するための境界値。
- 対象文字/タイショウモジ
- [character set]
読取り文字種の意。
- 縦書き記号/タテガキキゴウ
横書きの文書の場合は,ー(長音)や「,」等の鍵括弧,句読点の。,は位置や向きが決まっている。日本語の文章等で縦書きのものでは,ー(長音)は縦棒になり,鍵括弧も90度右へ回転したものに,句読点も左下から右上へ,対角線の位置に変わる。
- 縦マーク/タテマーク
- [vertical mark]
記入図形として「|」(縦棒)を記入するマーク。
☆一般にマークの記入位置,記入方向を示すマーク枠がドロップアウトカラーでプレプリントされている。マーク,横マーク,手書きチェックマークの項参照
- 縦横混在読取り/タテヨココンザイヨミトリ
- [mixed vertical/horizontal line reading]
文書OCRにおいて同一紙面(原稿)中に縦書き横書きが混在している文書を読取ること。
☆新聞紙面等では,「見出し」と「本文」が縦横に配列される場合が多い。
- 縦横比/タテヨコヒ
- [the ratio of width to height]
OCRでの縦横比には次のものがある。
(1)文字の縦横比=文字パターンの高さ(縦)と幅(横)の比率
(2)文字枠の縦横比=文字を記入する枠の高さと幅の比率(JISに推奨比率)
(3)帳票の縦横比=読取り帳票の縦と横の長さの比率。
OCR仕様では帳票搬送の安定性を保証できる縦横比を示す。この場合の縦横は走行方向となる辺を縦,走行方向に垂直となる辺を横としている。
- 縦横変換読み/タテヨコヘンカンヨミ
- [orientation-changed reading]
文字単位のイメージをその読取り方式の向きに合わせること。または,帳票の向きそのものを±90度回転して文字切出を行うこと。
ローテーション読み
- 単票処理/タンピョウショリ
OCRではホッパを最上位まで上げ,一枚づつ手挿入で読込ませることをいう。
□プリンタ等では連続用紙に対して,コピーマシンの様に一枚づつ切り離された用紙に打出すこと。
- 単語辞書/タンゴジショ
- [word dictionary]
単語照合で使われる知識辞書のこと。知識辞書,単語照合の項参照
☆文章認識レベルで使われる単語単位の辞書をさす場合もある。
- 単語辞書登録(ユーザ辞書)/タンゴジショトウロク
- [word dictionary entry]
単語照合レベルで使われる知識辞書の一つで,一般単語にはないユーザ固有の単語を登録すること。
☆一般単語のうちユーザが使用するものだけを登録しておく場合もある。
- 単語照合/タンゴショウゴウ
- [word matching]
OCRが内蔵(または,外部アプリケーションで使用する)単語辞書と,文字認識の結果から得られた単語を照らし合わせること。
(1)OCRにおいて認識率を高めるために,認識結果が単語として妥当となる様に認識結果を変更または候補を絞り込む処理のこと。
(2)簡単のために,2文字単語で文字毎に,それぞれ2つの候補文字が得られたとすると,例えば,1文字目は「態」または「熊」,2文字目は「本」または,「茶」と認識したとする。これらから,態本/態茶/熊本/熊茶 の4種類の単語の組合せが考えられるが,地名を集めた単語(住所)辞書と照合した場合には,単語として妥当なものは「熊本」だけなので正しく認識できる。
(3)単語照合は,住所,姓名,品名,団体名,一般単語等目的に合わせて作られる。
(4)類似字形の文字同士や,個人の癖により単語照合でも区別の付かない場合もある。
例えば,地名で,「鳥取」と「島根」等は書き方によっては,1文字目の候補が,「島/鳥」で,2番目が「取/根」の場合,島取/島根/鳥取/鳥根の4通りとなり,島根/鳥取の2つの可能性が出てくる。「大田/太田」等ではヨミも同じとなり,他の情報との総合で判断するしか手がない。島根/鳥取等は次の市や郡のレベルでの地名により,何方かを判断することになり,米子市が次に来れば鳥取県であり,出雲市が来れば島根県等,階層構造チェックが可能。
知識処理(後処理),単語辞書の項参照。
- 単語変換/タンゴヘンカン
OCR認識後の後処理/知識処理等の一つであり,特定の文字や記号,または単語を指定した単語に置き換えること。
☆符牒を決め,少ない文字記入で済ませる場合などにも使われる。
『○○本部キ』→「キ」を「気付け」に変換して『○○本部気付け』で出力。
- 端点/タンテン
- [terminal point]
特に手書き文字での,認識特徴の一つ。ストロークの両端部分。始筆終筆部分。
(1)オイラー定数。交点と端点。
(2)書き始めや書き終わりに余分なハネや鉤があると端点の方向が逆になったりする。
- 蛇行補正/ダコウホセイ
- [meander correction]
用紙/帳票が走行中に直進せず左右に振れて入力画像が歪むのを補正する。
(1)スキャナで帳票イメージを取込む場合に,搬送途中で帳票の傾き角度や,進行方向が変わったりすることを蛇行という。蛇行して取込まれたイメージの歪みを補正し,文字切出等の処理を行うこと。S字蛇行ともいう。
(2)補正するための手段としては,帳票に複数のマークを設けて置き,このマークを検出することで,ずれ量を測定・補正する方法がある。
補正マークの項参照。
〔蛇足〕「蛇行〜鉄道等のレールの間を車輪がS字状に左右にくねりながら走る」
- 代替字形/ダイタイジケイ
- [alternative shape]
本来の字形では,他の文字と似ていて識別が困難な文字について,識別可能な別の形を充てたもの。
□複雑な文字を簡略化した略字(公式なものではない)を指す場合も。
- 代替記入欄(フィールド)/ダイタイキニュウラン
- [alternative frame]
帳票記入が,読取精度向上のため,ボールペン等の消せない筆記具を使用する運用において,記入ミスがあったときに,訂正記入するための記入欄のこと。
☆チェックマーク欄を設け,「チェックマークありの場合は,代替記入欄の方のデータを有効とする」という使い方がある。
(例) 誤記入 → レ←チェックマーク 代替記入欄 →
- 段組み認識/ダングミニンシキ
- [layout analysis]
帳票あるいは文書において,縦および横の投影のみでは分割できない領域(行または段落)が存在する帳票や文書を読取ること。
- チェック・エラー
- [check error]
データチェックにより検出されたエラー。
データ・チェックの項参照。
- チェックディジット・チェック
- [check digit check]
OCRでの誤読をチェックするため,読取りフィールド内に,チェック用の桁を設けて,演算結果がチェックディジットと一致しないとき,エラーとするデータチェック方式。(桁→チェックディジット)
☆チェックディジットチェックには,以下の種類がある。尚,nDRチェック,nDSRチェックにおいては,下記のnは,7または9が通常は使用される。
図版
データ・チェックの項参照。
- チェック機能/チェックキノウ
- [data check function]
読取ったデータをチェックする機能。 後処理の一種
データ・チェックの項参照。
- チャタリング
- [chattering]
電子回路等でスイッチが入った当初の不安定な状態のこと。
□元来は「お喋り」の意味であるが,オンライン認識等では,タブレットの表面にペンが当たった瞬間,オンオフが激しく切替わったり,一定のレベルに安定するまでに波打った波形になり,余分なノイズ的なデータが入ること。チャタリング期間を避けてデータ取り込みを行う様にしたものが多い。
- チルト
- [tilt]
垂直方向に角度を変えること。表示装置で画面の上下の首振り調整機能。
□表示装置の水平方向の向きを合わせる(スイーベル)機能と,このチルト機能を使って最も見やすい角度にして確認修正を行う。
図版
- 知識辞書/チシキジショ
- [knowledge-based dictionary]
知識処理を行うための情報が収められた1つまたは複数のデータファイル。
(1)知識処理での単語照合レベルで用いられる辞書としては,住所辞書,姓名辞書,一般用語辞書,(品名辞書,各種団体/企業名辞書,学校辞書等)がある。
(2)文書認識レベルで用いられる辞書には,文法辞書や意味辞書がある。
(3)一般用語辞書は,ユーザが,必要な用語を登録して使用することが多い。
知識処理
ユーザ辞書,単語辞書,用語辞書の項 参照。
- 知識処理/チシキショリ
- [knowledge-based processing]
認識結果が,単語または,意味のある文字列となるように,知識辞書等を使って認識結果を変更,または候補を絞り込む処理のこと。後処理ともいう。
☆認識処理のレベルとしては,おおむね
□ 文字認識 低レベル (〔モ〕モジニンシキ) □ 単語認識(単語照合) ↑ (〔タ〕タンゴニンシキ) □ 文章認識(構文識別) ↓ (〔フ〕ブンショウニンシキ) □ 理解 高レベル (〔リ〕リカイ) の4段階に分類できる。
☆知識処理は単語認識レベル以上の総称として用いられることが多い。
後処理
単語照合
知識辞書 の項参照。
- 逐一モード/チクイチモード
- [one-by-one mode]
帳票の読取り結果を,その帳票が認識処理される毎に一枚単位で確認修正処理を行うこと。枚数が少ないときや,重要データで誤読等を徹底チェックする場合に有効。即時修正モードの意。
- 中間調指定/チュウカンチョウシテイ
- [halftone selection]
濃淡のある画像を,中間調で表現する場合の処理の仕方を指定すること。
(1)スキャナで濃淡のある画像を中間調で表す場合は通常,白基準のレベルを最大とし,黒のレベルとの間で,N個のレベルに量子化し,多値で表すハーフトーンとある画像に対しては,二つのレベルに量子化して二値で表す擬似中間調がある。
(2)多値データで表す方法では,8ビット(256階調)が多く使用される。
(3)二値データ(擬似中間調)で表す方法として代表的なものは,画像データをあるしきい(閾)値,二値データに変換する単純二値,画像データを通常4×4〜8×8のまとまりとしてマトリックス処理を施す組織ディザ法,ある画像で生じた誤差を,以降の画素へ拡散する誤差拡散法などがある。
- 調子補正/チョウシホセイ
- [tone correction] [tone correction/correcting]
入出力の濃度域が異なる場合,これを補正すること。
(1)原稿がカラーフィルムの場合は,光度濃度域(OD)が3.0以上ある場合が多い。一方,出力となる印刷は,せいぜい2.0くらいの濃度域しか再現できないため必ず原稿濃度を圧縮して再現する必要がある。
(2)一般に, 図のBに示す様に,直線的に濃度圧縮を行うと,全体的に淡い絵となり好ましくない。
このためAのようにハイライト(淡い部分)から中間にかけてはあまり圧縮せず,シャドー(高濃度)を圧縮すると見栄えのする絵になる。
(3)しかし,絵によっては,ハイライトやシャドーを特に強調したい場合があるため,上記の考え方を基本として,補正曲線を表現したい絵に合わせて任意に調節する。
階調補正ともいう。
図版
- 帳票/チョウヒョウ
- [sheet slip]
JIS X 9004-1983規定。OCRへの入力媒体のこと。
☆使用される帳票の種類は,各装置の仕様により異なるが,サイズ,紙質,厚さ,用紙の特性,コーナーカット,パンチ穴,ミシン目などの制限がある。
帳票仕様(規格)の項参照。
- 帳票ID/チョウヒョウアイディ
- [sheet ID]
帳票読取りにおいて,帳票の種別を識別する文字列のこと。
☆単にID,フォーマットIDともいう。
ID(アイディ),ID行の項 参照。
異種帳票読取りの項 参照。
リジェクト帳票,リジェクトの項 参照
- 帳票厚さ/チョウヒョウアツサ
- [sheet thickness]
厚さの意。用紙の厚さ〜坪量,連量,帳票仕様の項参照。
☆四六判連量でのkg表示が一般的。(35kg〜150kg)
厚さ の項で詳細。
- 帳票OCR/チョウヒョウオーシーアール
- [slip OCR/page reader]
各種の帳票を読取るOCRのこと。伝票OCRとも,単にOCRともいう。
(1)新聞や書籍等の一般的な文書を読取るOCRを,文書OCRと呼ぶのに対して,各種の伝票や帳票を読取るOCRをいう。一般的なOCR機能の利用形態。注文書等を高速に一括処理しエントリー業務を効率良く行うことができる。
(2)使用する帳票は,通常,記入枠や印字ガイド枠がドロップアウトカラーで正確に印刷されたOCR入力用の帳票である。
(3)読取り文字は,手書きや活字の数字,英字,カナ,記号,漢字およびマーク等である。イメージ入力機能を持った帳票OCRをイメージOCRと呼ぶこともある。
(4)ソフトOCRも,FAX−OCRも帳票処理を行うOCRはすべて帳票OCRであるといって良いが,スキャナと認識部の筐体があるものと区別したいときは,これらは帳票OCRシステムと呼ばれる。
- 帳票サイズ(寸法)/チョウヒョウサイズ
- [sheet size]
当該OCRが読取り可能な帳票の大きさの仕様のこと。用紙/原稿サイズとも。
□カタログに記載される仕様としては,「縦/横の最小および最大寸法」,または「A4,B4等の用紙寸法の一般呼称」が用いられる。日本国内ではA4やA3,B4等のA系列,B系列の用紙の使用が大半である。米国では,レターサイズやリーガルサイズと呼ばれるものが主で,欧州はA系列が90%以上を占める。
図版
- 帳票仕様(規格)/チョウヒョウシヨウ
- [sheet specification]
正常な読取り動作を保証するために必要とされる,帳票に対する要求仕様。
(1)カタログに記載される仕様は,「厚さ,紙質,サイズ」の3項目である。
(2)OCRの導入時に,まず最初に手掛けなければならないのが,OCR帳票作成であり,事前に入手した帳票設計仕様書に記載されている詳細規定内容に合わせた帳票設計をすることが,導入成功のポイントとなる。当該OCRの帳票設計仕様から外れた帳票は,搬送性能の悪化(斜行,ミス/ダブルフィード,ジャム等の多発)や認識性能の悪化(誤読読取不能文字の増加)要因となり,注意を要する。
(3)なお,帳票設計仕様書に記載されている詳細項目には以下のようなものがある。
□ 厚さ…………………厚さの項参照。
□ 紙質…………………紙質の項参照。
□ サイズ………………帳票サイズの項参照。
□ 縦横寸法比…………縦横各々の最小/最大サイズの範囲内で,どんな組合せのサイズでも良いという訳ではなく,選択可能な縦横比が規定されている。
□ コーナーカット(角面取り)
又はコーナーの丸め…カットできるサイズ,位置を規定している機種もある。
□ 綴じ穴………………綴じ穴可能範囲を規定している機種もある。〔ア〕穴
□ スプロケット・ホール(プリンタ用留穴)…縦ミシン目付き帳票のみを可能とする機種もあるが,帳票内ミシン目で切り離して読ませる場合は,カット/タイ比(カット部と連結部の長さの比)が,大抵は規定され,要注意。
□ 複写帳票……………ほとんどの機種でワンタイムカーボン紙の使用を推奨している。ノーカーボン紙の使用は,被複写紙自体が自己発色するものを許容するものが多く通常のノーカーボン紙の(原票の裏と被複写票の表に塗布された薬剤で発色するものは薬剤が搬送ローラに悪影響を及ぼすため推奨せず。また,被複写票の読取りも上記同様の理由で推奨しない。
□ 裁断誤差……………帳票OCRの場合,読取った帳票の位置基準を帳票端辺としているため,高い裁断精度が要求される。
また,下記項目を規定している。
□ 印刷仕様/印字仕様………印刷仕様/印字仕様の項参照。
- 帳票設計/チョウヒョウセッケイ
- [sheet design]
OCRの規約/制約事項を盛り込んで,帳票原稿を作成すること。
☆OCRで読取る帳票には,下記のような制約事項がある。
□ 帳票のサイズ,色/帳票の紙質,厚さ
□ 文字の種類/文字のサイズ/文字枠のサイズ,色,形状
□ ドロップアウトカラー/ドロップアウトカラー以外の色の使用制限
□ ラインマーク(黒・非ドロップアウトカラー)
□ 文字間隔/行間隔/行配列とフィールド間隔/フィールド数とクリアエリア
□ その他(帳票1枚に収容できる最大文字数/最大フィールド数等)
帳票仕様,印字仕様,印刷仕様,紙質の項参照。
- 帳票定義体/チョウヒョウテイギタイ
- [sheet design definition]
帳票フォーマットのこと。帳票OCRにおいて,読取り帳票のサイズ,読取り行数,位置,字種,文字数等の帳票を読取るために必要なパラメータ。
- 帳票定義体自動作成/チョウヒョウテイギタイジドウサクセイ
- [automatic definition]
帳票フォーマットを自動的に作成する機能。
☆未記入の帳票をOCRやスキャナで読取り,読取り位置,文字数等の読取りに必要なパラメータを自動的に作成する機能。
- 直交変換符号化/チョッコウヘンカンフゴウカ
画像情報の符号化方式の一つ。
圧縮の項参照。
- 通信サービス/ツウシンサービス
- [transmission service]
単体OCRが主流だった昔と比べ,現在は,OCRシステムも色々な通信手段を介して読取り結果や,読取り対象のイメージデータを受信したり転送したりして他のシステムと連携した形が増えてきた。 以下に各通信網の現状について。
(1)国内電話網 NCC(New Common Carrier)が値下げを進め,またNTTも割引のサービスを強化する等,利用コストが軽減され,また専用線との接続の解禁等でさらに安価な利用が可能になってきている。→FAX−OCR 等の利用もしやすくなる。
(a)可変短縮ダイヤル機能,(b)番号情報送出(PBXダイヤルイン)機能,(c)通話中着信(キャッチホン)機能,(d)自動着信転送機能,(e)簡易会議機能,(f)不在案内機能,(g)無鳴動着信機能,(h)迷惑電話対策機能(再呼出し禁止機能)
(2)ISDN 50万回線を越え,さらに設備投資追加へ。割引サービスも導入済。FAX−OCRでも利用される回線。
→〔ア〕アイ・エス・ディ・エヌ
(3)専用線 高速ディジタル回線の近距離については値上げへ。NCC同志の接続で遠距離通信をカバー。NTTは廉価版「ディジタル・アクセス64」を運用開始。公専接続の解禁。
→〔セ〕専用線
(4)OCN(オー・シー・エヌ/Open Computer Network) NTTのインターネット接続サービス。
品質第一から廉価版通信網へ。
→〔オ〕オー・シー・エヌ
(5)PHS 端末はタダというものまで出現。携帯電話との通話料金優位性が低下し,シェアは頭打ち。新たな利用形態を模索。現状に合わなくなってきた。
→〔ヒ〕ピー・エイチ・エス(移動通信)
(6)携帯電話 ディジタル化が急速に進んでいる。通話料等の値下げや加入料の免除等で加入者が増え,番号不足に。PHSとの相互乗入れが実現しさらに加速へ。
(7)パケット網 転送データを一定の長さ以下(普通は128ないし256オクテット=バイト)に分割し,アドレスデータを付けて多重通信する方式で信頼性を重視した伝送技術。利用に際してはX.25のプロトコル対応の端末が必要。対応していない端末を収容するPAD(Packet assembler/disassembler)と呼ばれる装置もある。パケット網にはISDN網や一般加入回線からも接続できる。
(8)インターネット プロバイダーが1000社を越え,料金も半額ベースに。CATV網を利用したものも出現。
→〔イ〕インターネット/イントラネット
(9)フレーム・リレー/セル・リレー CIR(Committed information rate)認定
情報速度ゼロ型の定額料金制等。LAN間接続等に向く高速データ通信。
超高速セル・リレー(97年開始)
(10)ATM専用線(97年4月サービス開始)
(11)衛星通信サービス JSATやNTTがサービス提供。(インターネットもつなぐ)
- 通信事業者/ツウシンジギョウシャ
- [carrier]
FAX等をつなぐ回線網を張り通信サービスを行っている業者。
(1)NTT(エヌ・ティ・ティ)日本電信電話
NTTアメリカ社はFCCに対して1997年1月日本以外の国とも米国からの通信回線を構築する事業免許を申請した。先ずは米英間から始める。
(2)DDI(ディ・ディ・アイ)第二電電(NCC) 沖縄を除く全国。DDIセルラー/DDIポケット電話グループ
(3)JT(ジェイ・ティ)日本テレコム(NCC) 「日本タバコ」とは違う。
JR各社の線路沿線に張った通信網で8支社で全国ネット。JRが株主。
(4)テレウェイ/日本高速通信(NCC) 高速道路に沿って光ファイバー網を設置。全国ネット。ATM網化はこれから。
(5)KDD(ケイ・ディ・ディ)国際電信電話(株)
(6)IJT(アイ・ジェイ・ティ)日本国際通信
(7)IDC(アイ・ディ・シー)国際ディジタル通信
(8)TTNet/東京通信ネットワーク 東京電力の鉄塔や地中管路や電柱を利用。
現状では首都圏の地域会社だがNTTを逆にした略称は全国展開への意気込み。
(9)JSAT(ジェイ・サット)日本サテライトシステムズ。衛星通信サービス
(10)SCC(エス・シー・シー)宇宙通信(株)
(11)デシタルホン・グループ
(12)東北インテリジェント通信(株)
(13)日本移動通信(株)IDO
(14)日本高速通信(株)
(15)北陸通信ネットワーク(株)
(16)北海道総合通信網(株)
(17)ツーカー・グループ
(18)NTT移動通信網グループ
(19)大阪メディアポート(株)
(20)(株)四国情報通信ネットワーク(株)
(21)(株)ジュピターテレコム
(22)(株)タイタス・コミュニケーションズ
(23)中国通信ネットワーク(株)
(24)中部テレコミュニケーション(株)
→NCCは New Common Carrierの略。
- 通信速度/ツウシンソクド
データの転送速度。毎秒何ビットのデータを送信できるか,bits per secondで表す。bpsと表記。
- 坪量/ツボリョウ
- [basis weight]
用紙の厚さを示す単位で,紙および,板紙の面積1m2当たりの質量をグラム(g)で表した値(g/m2)である。
☆最近では,四六版連量(Kg連量)の方が一般的に用いられており,「坪量」は推奨しない。
- TIFF/ティ・アイ・エフ・エフ
- [TIFF] [Tag (ged) Image File Format]
ティフ形式。ティフ形式の項参照〔タグ・イメージ・ファイル・フォーマット〕
- TA/ティ・エィ
- [TA] [Terminal Adapter]
コンピュータに種々の端末・周辺機器をつないだり,端末を回線接続する際に間に入るもので,筐体のある装置あるいは,プリント板等で構成される。
□FAXアダプタ
- DSP/ディ・エス・ピィ
- [DSP] [Digital Signal Processor]
ディジタル信号処理プロセッサ。モデム接続や画像解析等に使用される。
- DSU/ディ・エス・ユー
- [DSU] [Digital Service Unit]
ISDN等の回線接続で終端の装置として必要なもの。
- DLL/ディ・エル・エル
- [DLL] [Dynamic-Link Library]
1つまたは複数の関数が,それらを使用するプロセスとは別に,コンパイルされリンクされ格納されているファイル。OSはプロセスの起動時または実行時にDLLをそのプロセスのアドレス空間にマップしDLL内の関数を実行できる。複数のアプリケーションプログラムでDLLを共有することができるためメモリとディスク空間が節約できる。
- DLL/ディ・エル・エル
- [DLL] [delay locked loop]
DDR/SRAMを作ることを可能にするDDL回路。
- DLT/ディ・エル・ティ
- [DLT] [Digital Linear Tape]
DEC社が開発した10GB以上の容量をもつ大容量磁気テープの名称。
□イメージ・データ等の容量の大きいものにも適している?
- DTP:デスクトップパブリッシング/ディ・ティ・ピー
- [DTP] [Desk Top Publishing]
技術文書,仕様書,マニュアル等の企業内印刷分野を対象として,高印字品質文書が作成可能な卓上簡易電子編集印刷システム。
(1)PC/LBP/IS,パソコン/レーザビームプリンタ/イメージスキャナが代表的なハードウェア構成である。
(2)字義通り,「机上で原稿作成から編集・印刷までできる電子編集システム」であるDTPは,近来のパソコンの高性能化(16ビット,32ビットパソコン)と小型レーザプリンタの登場により実現可能となった。
(3)ワープロとの相違点としては,次の項目が挙げられるが,高級機ワープロではDTPとの区別は無くなりつつある。
1)文書中の図表,イラスト,写真等のイメージの取り込み。
2)アウトラインフォント採用による複数フォント/サイズの混在使用。
3)多段組レイアウトツールの充実。
4)目次や索引の自動作成機能。
5)誤字・脱字の自動修正。
6)ページ単位の高速印刷。
(4)イメージスキャナを使用した印刷編集システムであるWP,DTP,CAP,CTSの利用形態としての位置付け,およびDTPを含めたイメージスキャナ応用システムにおける,イメージスキャナのクラス分けについては,ワード・プロセッサ(WP)」の項。
- DTPR(デスクトッププレゼンテーション)/ディ・ティ・ピー・アール
- [DTPR] [Desk Top PResentation]
近年パソコンの性能向上と周辺機器の充実で,カラフルなプレゼンテーション資料をパソコン上で作成し,紙やOHPにすることは,もちろん,直接にパソコン画面上や液晶プロジェクタ等でスクリーンに投影し電子的に行うことが比較的容易にできるようになった。
(1)このプレゼンテーション資料を,短時間にプロフェッショナルの様に,上手に作成できるソフトが安価に入手可能になってきている。
(2)これらのことを少し前に普及が始まったDTPになぞらえてDTPR(Desk Top PResentation)と称している。
- DDE出力/ディ・ディ・イーシュツリョク
- [DDE Output] [Dynamic Data Exchange Output]
DDEとはWindowsのプロセス間通信の1つの手段であり他のプログラムへのデータ受け渡しやプログラムの制御を行うことができる。
☆例えば,Aというプログラムがデータをクリップボードへコピーし,BというプログラムにDDE機能で,ペーストコマンドを発行するデータが転送され,カット&ペースト機能をプログラムで行うことができる。
- DPI/ディ・ピィ・アイ
- [DPI] [dots per inch]
インチ(約2.54cm)当たり何点存在するか。
□プリンタ等の印字密度やスキャナ等の解像度を表現する。
OCRで使われるスキャナの解像度やファクシミリは200dpi相当。
- TIFF/ティフケイシキ
- [Tiff] [Tag Image File Format]
Tiffファイルは表示色として,1bit2色,4bit16色,8bit256色,24bit1670万色の,画像の保存として非圧縮/圧縮がある。ファイルは,イメージ・データ部の他に,ファイルの先頭に画像ファイルヘッダ(Image File Header:IFH),画像ファイルディレクトリ(Image File Directory:IFD)によって構成される。複数の画像を1つのファイルに保存することができる。その場合には,IDFとイメージデータが複数存在する。
- テキスト・エディタ
- [text editor]
テキストの作成,編集,表示,修正等のアプリケーション・ソフト。
- テキスト・リーダ
- [text reader]
文書リーダ,文書OCRのことを指すのが一般的。読上げマシンの意味に使われることもある。
□帳票OCR(ページリーダ)の対語。
- テキスト形式/テキストケイシキ
- [text format]
出力ファイル形式の一つ。
☆文字列を改行コード,キャリッジコード(0ah,0dh)で区切ったファイル形式。
出力ファイル形式の項参照。
- テキスト自動抽出/テキストジドウチュウシュツ
- [automatic text extraction]
文書のレイアウトを解析した後,写真,図,罫線等を除去しテキスト(文章)のみを自動的に抜き出すこと。
文書OCRの項参照。
- テンプレートマッチング
- [template matching]
(表)テンプレート(自動)マッチング
あらかじめ用意されたテンプレートとの照合で結果を得ること。
1)種々の表を認識処理する場合に,一般に表の罫線を認識して,その内部の文字を読取る処理を行っている。このときに,いろいろな表の罫線情報をテンプレートとして登録しておき,表の認識を行う場合には,最初にこの(表)テンプレートとのマッチングにより表の罫線情報を得てから,読取処理に進む方式がとられている。
2)一般的には活字のパターンマッチングによる識別で,認識辞書に予め登録されたフォント対応パターン情報をテンプレートといい,これと切出された入力文字パターンとを照合することをいう。手書き文字対応の抽出特徴パターンとその辞書パターンとの照合を含むこともある。
- データ・チェック
- [data check]
認識結果または,確認・修正作業によって確定されたデータの妥当性を,プログラムで検証すること。OCRそのもので一般の記入データや印字データで,100%の正読を常に確保することは不可能であり,また確認修正作業の多くが,目視に頼っており,その補完機能として数値データ等では非常に重要である。検証する内容は適用業務毎に多岐にわたるため,アプリケーションプログラムで対応することが多い。その例として下記のようなものがある。
□フィールド内チェック〜読取りデータをフィールド単位にチェックする。字種チェック,スペースチェック,レングスチェック,チェックディジット・チェック等。
□フィールド間チェック〜フィールド間のデータを使ってチェックする。演算チェック,比較チェック等。
□シート間チェック〜トータルチェック,枚数カウントチェックなど。
- DR/データ・レイト(イメージセンサノ)
- [DR] [data rate]
イメージセンサから画素単位に情報を取り出す速度。
(1)1画素当たりの出力時間の逆数でHz等で表す。CCDイメージセンサにおける最大のデータレートは,電荷転送部であるCCDアナログシフトレジスタの最高転送速度で決まる。高速のデータレートを得るためCDアナログシフトレジスタを2チャンネル(またはそれ以上)設けることが多い。
(2)2チャンネルの場合は,それらを交互にシフトし,1チャンネルの場合に比し,最大2倍のデータレートでビデオ信号を得ることができる。(DDR/double data rate)
- データ圧縮/データアッシュク
- [data compression]
画像の転送や記録に際して,画像自体が有している冗長成分を,情報符号化の手法により除去し,情報量を大幅に縮小させる手段(方式)。単に圧縮とも。
(1)一般に,ファクシミリ等のモノクロスキャナでの入力(人間が見たり作成したりする)画像は,白紙に文字や線図形等が,記入または印刷されたもので,用紙の大部分で白画素が連続し,白地に黒画素の少ない文字や図表,絵等から成立つ。
(2)この様な対象を光学的に走査して,画素単位に白黒のビット情報に信号化する。
(3)白地部分の効率的な圧縮が大きな要素となるが,得られた画像イメージ情報では,用紙余白の白画素が連続する場合が多いだけでなく,文字や図形の黒の部分でも,隣接する画素間での,連続性/相関性が強い,すなわち連続性に冗長成分が多く含まれている。これらの冗長成分を取除く処理,例えば白や黒の連続長を符号で表現する等の符号化処理を行うことにより,情報量を削減することができる。
(4)この様に原画像に対して符号化処理を施し,冗長分が削除された符号化データを得る手段または過程を「圧縮」といい,この圧縮データを元画像に復元する手段,または過程を「伸長」という。これらを総称し,情報符号化方式(またはデータ符号化方式)という。 (データ)伸長の項参照。
(5)情報符号化方式には下記に示すような様々な方式がある。国際電信電話諮問委員会(CCITT)勧告のG3,G4ファクシミリにて規格化。
図版
- データ伸長/データシンチョウ
- [data expansion]
データ圧縮により符号化された画像データを,元の画像(人間が見てわかる画像)に復号化する手段(方法)。データ圧縮の項参照。
☆データ伸長は同一方式のデータ圧縮と対になって使用される。
- データ発生現場/データハッセイゲンバ
- [point of printing or handprinting]
帳票に記入するデータが発生した場所,または帳票記入した場所をいう。
□「臭い匂いは元から絶たなきゃダメ」と同じで,何事も始めが肝腎で,記入者の教育と筆記具の選定,記入環境の整備で認識精度の大半を決定付ける。
環境/記入環境の項 参照
- データ符号化/データフゴウカ
- [data coding]
データ圧縮 (前記)の項参照
- ディザ
- [dither]
乱数または,擬似乱数により変化させて,しきい値を決め,濃淡のある画像を2値化する方法。
(1)「ランダムディザ法」と「組織的ディザ法」
乱数の与え方により,ランダムディザ法および組織的ディザ法の二つに分けられる。乱数の与え方は,視覚実験により,2次元のブロックとするのが良いとされている。→ディザ・マトリックス4×4〜8×8が多く使われる。これを組織的ディザ法という。また,2次元のブロックの大きさを,無制限に広げたものがランダムディザ法である。
(2)「ドット集中型」と「ドット分散型」(組織的ディザ法の細分化)
組織的ディザ法はパターンの方がさらにドット集中型,ドット分散型の二つに分けられる。
(3)ドット集中型はブロックの中心から,渦巻き型にパターンを配置する方法で,隣接画素に,にじむような表示装置や印刷装置の場合,良い結果が得られるといわれている。ドット分散型はミクロなドット構成が目立たないため解像度の高い表現ができる。ドット集中型,ドット分散型ともに,誤差拡散法に比べて違和感の少ない表現が可能である。また,ドット集中型はドット分散型や誤差拡散法に比べ画像データ圧縮効率の低下が少ない。
☆OCRにおいては単純2値の画像で処理しており,ディザ等の擬似階調画像は認識率の低下を招く。特に,汎用スキャナを用いるソフトOCRや画像入力がFAXとなるFAX−OCRでは,画像取込み(送信)時に,単純2値を選ぶ必要がある。(FAXでは「ハーフトーン」や「写真」のモードを選択しないこと。濃淡無しの2値出力では「中間調」等も同様のディザ画像である。)
- ディザ・マトリックス
- [dither matrix]
擬似中間調を表すためのディザに用いられる擬似乱数を発生させるマスク。通常,4×4〜8×8が使われる。ディザの項参照。
- ディジタル(スチル)カメラ/ディジタルカメラ
- [digital still camera]
デジカメ
撮影した画像をフィルムに記録し現像する代わりにセンサで直接画像を取込み電気的に変換しメモリに記録するカメラ。「通称 デジカメ」。
☆スキャナを使って画像をコンピュータ入力する場合は,一旦,通常のカメラでフィルムや写真を作成して,それをスキャナで読込む必要がある。これに対しデジタルカメラの場合はデジタルカメラで撮影した画像を,そのまま入力することができる長所がある。しかし,一般にデジタルカメラは,通常のカメラのフィルムに比べ解像度が劣る。 ディジタルカメラ・スペック参照
- DVD/ディジタル・ビデオ・ディスク
- [DVD] [digital video disk]
DVD−RAM等に使われる。アナログ録画からディジタル化された映像ディスク。
□次世代の記録媒体として米国映画産業などが注目しているもの。
- ディジタル複写機/ディジタルフクシャキ
- [digital copier]
イメージスキャナで画像を読取り,プリンタで出力する複写機。
(1)デジタルコピアともいう。
(2)従来の複写機が原稿イメージを直接感光ドラムに露光するのに対し,デジタル複写機は,イメージスキャナで原稿を読取るため,画像をデータとして取扱うことができる。従って,コンピュータ利用による様々な画像編集が可能な他,画像処理による階調再現性,および色再現性が優れているため,写真の複写やカラー複写用に適している。
- ディバイス・ドライバ
- [device driver]
パーソナルコンピュータ(PC)やワークステーション(WS)の周辺装置を制御するソフトウェアのことで,一般的には,ドライバソフトウェアと呼ばれるが,MS−DOSやUNIXではデバイス・ドライバという。
☆代表的な周辺装置としてキーボード,ディスプレイ,マウス,ディスク装置,プリンタ等がある。
☆周辺装置の仕様は,パーソナルコンピュータ,ワークステーションのメーカや機種毎に異なっている。また,ユーザーによっては使用する周辺装置の種類は違っている。したがって,これらの周辺装置をOS本体で管理するのは効率が悪いので多くのOSでは,これらの周辺装置を管理する部分をデバイス・ドライバとしてOS本体から切離し,必要に応じて組込んで使用する様な仕組みにしている。標準的な周辺装置のデバイス・ドライバは,OSに含まれているが,それ以外のものは,周辺装置メーカーと,アプリケーション・ソフトウェアの開発メーカーが開発して供給している。
☆イメージスキャナの分野では,アプリケーション・ソフトウェアからイメージスキャナを使用するために,イメージスキャナ・メーカとアプリケーション・ソフトウェアの開発メーカがイメージスキャナ・メーカのインタフェースに合わせて,ディバイス・ドライバや,Photoshopプラグイン・モジュール等を開発して供給している。しかし,これでは,アプリケーション・ソフトウェア開発メーカは,イメージスキャナの数だけディバイス・ドライバを開発しなければならない。そこでアプリケーション・ソフトウェアとイメージスキャナの間の標準的なインタフェースが検討され,TWAIN(トウェイン)と呼ばれるインタフェース標準が出てきた。現在,各社が,これらに準拠する形となってきつつある。また,TWAINと同じ様なインタフェース標準としてISISがある。アイシス(ISIS)の項参照
- ディフォルト(デフォルト)/ディフォルト
- [default]
あらかじめ設定してある環境。数値や条件等。必要に応じ希望のものに変更して使用する。
- デスクトップ・パブリッシング
- [desk top publishing]
DTP(ディー・ティー・ピー)の項参照
- デスクトップ・プレゼンテーション
- [desk top PResentation]
DTPR(ディー・ティー・ピー・アール)の項参照
- デュプリケート
- [duplicate]
データ複写機能。
- 手書き/テガキ
- [handwriting]
認識の対象となる手書き文字の種類。
(1)手書き文字,手書き文字種ともいう。記号(濁点半濁点や長音,鍵括弧等)を含む。
(2)一般にOCR装置で読取る手書き文字の標準字形は次のとおりである。
□ 数字……………JIS X 9006-1979で規定されている。アラビア数字。
□ 英字……………JIS X 9007-1981で規定されている。アルファベット大文字。
□ カタカナ………JIS X 9005-1979で規定されている。カタカナ,記号。
□ 記号……………JIS X 9008-1981で規定されている。数字記号,英字記号。
□ ひらがな………JIS X 9009-1991で規定されている。ひらがな,記号。
□ 漢字……………JIS X 9009-1991(参考)で規定されている。
以上の字種に加えて,ユーザ定義文字も認識対象文字種とすることもある。
- 手書き活字混在読取り/テガキカツジコンザイヨミトリ
- [mixed handwritten] [mixed handwritten/printed character reading]
混在読取り/手書き活字混在読取りの意。
- 手書きチェックマーク/テガキチェックマーク
- [handwritten check mark]
手書き文字枠内に手書きで記入した「○,×,レ 等」の印(マーク)。
☆入力項目が限られている時には,チェックマークが便利である。
(例) 明 大 昭 平 生年月日 □ □ □ □ □□年□□月□□日 数字記入と同じ枠
- 手書き文字/テガキモジ
- [handwritten character]
手書きの意。手書き字形の文字をいう。
(1)手書き文字には,実際に人が書いた文字と,あらかじめ帳票に印刷された手書き標準字形(手書き風プレプリント文字)とがある。プレプリント文字の読取りは活字読取に対し認識精度で勝り,多少の文字パタンの変形にも影響が少ない。
(2)ID印刷等は「手書き風プレプリント」の利用を勧める。FAX−OCR等では文字のサイズが認識精度にとって重要であり,ノーマルモードで十分な読取りを期待するなら,帳票全体を手書き文字読取りにすべきである。
(3)一口に「手書き文字」と言っても,数字の10文字の記入(〜郵便番号等も)や名前をサイン的に書く場合,英字の大文字を書込む場合等で,それぞれ異なる。
・数字10文字については,単独読取り指定では,かなりの変形文字にも対応が可能な機種,システムが増えている。ループ付の2や上閉じの4,フ型の7等。
・カタカナで自分の名前を書く場合は,かなりサイン的になり鈍った字形になりがちで,マシンの読取りからは遠くなる。幅広に書ける文字枠設定も必須。
・漢字では楷書(直線が明確な)で書いて,類似文字や同形文字は,後処理での単語照合等に委ねるしか手がない。行書,叢書はかなり難しい。
(4)活字読取りは,主に特定字形(フォント)を対象としている場合は,それなりに高い認識率であるが,フォントが異なると極端に認識率が低くなる。但し最近はマルチフォントに対応した機種が多くなっている。プリンタ次第で,認識精度が変わるが,それは手書き文字の精度が記入者次第であるのと同じで,書き方の他筆記具や用紙の置き方でも影響がある。
- 手書き文字種/テガキモジシュ
- [handwritten character]
手書きの文字の意。手書き対象の文字。
- 手書き文字枠/テガキモジワク
- [handwritten character entry frame]
認識対象となる手書き文字(数字,英字,カタカナ,記号,漢字他)のための記入領域を示す枠。
記入枠ともいう。
(1)OCRで読取る手書き文字を記入する枠のことで,文字枠には種々の大きさ,ピッチ,色がある。
手書き文字字形を定めたJISに文字種に適した文字枠のサイズおよび,縦 横比率が推奨されている。
(2)手書き対応での文字枠には以下の様なものがある。
□漢字枠 漢字は多画数で複雑なものも多いため,通常,手書き漢字の文字枠は,1バイト系処理対象である数字,英字,カタカナ,(英字)記号等の文字枠より,大きく,1インチ(2.54cm)当たり3文字相当の8mm角が目安となっている。縦横比は,ほぼ1:1。
□カナ枠 カタカナは,アラビア数字やアルファベット等と発生文化が異なり,文字の横幅が数字,英字,記号に比べ大きいため,カタカナの文字枠は漢字枠同様に,縦横比を1:1に近くして,幅をやや大きめに確保するのが,カとヤ,シとツ,リとソとン等の区別に良い。フリガナ等の枠は1インチ当たり4文字程度(6mm角)が目安となっている。
□英数字記号枠
1バイト系(ASCII/EBCDICの出力対応)では,上の2つより縦長の枠となり,サイズも1インチ当たり5〜6文字位のものが多い。あまり漢字並みに大きくすると却って書き辛い場合がある。大きければ良いとは限らない。幅は5mm程度で高さは7mm程度が普通。
・縦長の文字を反映して,文字枠内に,上下2つの案内点と称するものや8の字をドロップアウトカラーで印刷したガイドを入れておき,個人の癖字記入を規制しようとするものもある。水性/中性のボールペンではいずれも弾かれて,文字線の途切れの原因になりかねず,現在では余り使用されていない。
- 手走査型ハンドOCR/テソウサガタハンドオーシーアール
- [hand-scanning OCR]
光学センサに,ラインセンサや,1文字分のエリアセンサを使用し,文字列に沿って,スキャナを手走査して文字を読取る方式のハンドOCR。
☆最近では,この種のOCRは数機種しかない。ハンドスキャナ/ワンドは主にバーコードリーダの入力部とし用いられている。
ハンドOCR参照。
- 手挿入方式/テソウニュウホウシキ
- [manual feeding]
一枚ずつ手で帳票をセットし給紙する方式。
(1)マニュアルフィード方式,一枚給紙/一枚読みともいう。
(2)手挿入方式のみのもの(家庭用ファクシミリの様な固定した台のみのもの)と,複数枚の帳票をセットできる可動ホッパを最上位まで上げた状態て手挿入でも読取りを可能とするものがある。
(3)いずれも,斜行や,用紙の角を折り曲げてしまわない様に注意が必要である。
- 定義体/テイギタイ
- [definition]
OCRシステムにおいて帳票の読取りを行うための各種情報群のこと。
☆定義体には大きく次の3つに別れる。
□ 帳票読取りに関するもの
帳票サイズ,行位置,行数,文字数,字種 等
□ 画面表示に関するもの
結果表示位置,イメージ表示位置,等のレイアウト情報の他,表示イメージ解像度,表示ガイダンス情報
□ 出力形式に関するもの
DDE出力,ファイル出力(text,csv,rtf 等)
- 天地逆回転/テンチギャクカイテン
- [upside-down rotation]
帳票の送り方向に対し,180度回転(すなわち天地逆転)した方向で読取る方式のこと。ローテーション読取りともいう。〔ロ〕ローテーション読み
□帳票に所定のマークを設け,このマークの検出位置により天地方向を判定する方法と,あらかじめ天地逆の情報を持っておき読取る方法がある。前者の場合,帳票セットの方向を意識しなくて良い,というメリットがあり,後者の場合は,スタンプ・印影(朱肉)などがローラに掛かり汚れてしまう恐れがある場合に,帳票搬送方向を変えることで,避けることができるというメリットがある。
- 転送時間/テンソウジカン
- [transfer time]
JIS X 0012/データ転送の開始から終了するまでの時間。
□OCRの出力には認識結果(文字コード)と帳票全体や文字あるいは読取りのフィールド単位でのイメージ・データがあり,特に,イメージデータの量が,大きいと転送時間への影響が大きくなる。
- 転送速度/テンソウソクド
- [transfer speed]
装置間でデータを転送する速度。OCRシステムにおいては,イメージデータ転送は処理速度に大きく影響するため,圧縮して送信する場合が多い。
- 伝票OCR/デンピョウオーシーアール
- [ocr for slips] [ocr for slips/slip OCR]
→帳票OCRの意
オー・シー・アールの項参照
- 電荷転送効率/デンカテンソウコウリツ
- [charge transfer efficiency]
CCDイメージ・センサのCCDアナログ・シフトレジスタにおいて,1つのエレメントから,次のエレメントに電荷を移動した場合の,移された電荷量と移される前の電荷量の比のことで,CTE/転送効率ともいう。
(1)1段分の転送効率をε,全転送段数をnとすると,全転送効率はεnとなる。これをシフトレジスタ全転送効率と呼ぶ。(shift register total transfer efficiency,STTE)
(2)転送効率が悪化すると,隣接画素同士のクロストークが増し,得られる画像の解像度が低下する。
- 電子協/デンシキョウ
- [JEIDA] [Japan Electronic Industry Development Association]
正式名称は,社団法人 日本電子工業振興協会である。
- 電子黒板/デンシコクバン
- [electric blackboard]
黒板としての機能を持った板面,またはシート面上の文字や図形を,光学的にスキャンして複写する装置。
(1)スキャナとしては,汎用の黒板(白色ボード)面を密着イメージセンサにより,移動してスキャンする方式のものと,板面の代わりとなる白いプラスチック製のシートを巻取り移動させて,光学系として固定した縮小光学系または密着型で,スキャンするものがある。取込んだイメージを認識処理すると面白い。
(2)出力プリンタ装置としては,感熱型プリンタが用いられるものが多い。
- 電子修正機能/デンシシュウセイキノウ
イメージ確認修正機能の意
- 電子ファイリング装置/デンシファイリング
- [electronic filing system]
スキャナから読取った原稿イメージ情報に検索コードを付けて光ディスク等の大容量ファイルに登録し,必要に応じて,ある条件のもとに,該当する文書をコンピュータで検索し表示するシステム。EFSとも。
(1)大容量で高速検索に適した媒体として,光ディスクが開発され,画像データをそのまま記録管理する電子ファイリングシステムが実現できるようになった。
(2)電子ファイリングシステムに使用されるスキャナは通常,フラットベッド型で自動給紙装置(ADF)が付いて解像度が400dpiと高く,A3版までの原稿が可能なものが多い。これに伴いディスプレイも高解像度で,A4フルサイズで表示できるものになってきている。
(3)また,多くのシステムは拡大・縮小等の画像処理機能も多く搭載されている。
(4)電子ファイリングシステムの機能として,画像編集機能や高速検索機能の他に新文書を作成するためのワープロ並みの日本語処理機能が付加されているものもある。
(5)電子ファイリングシステムを含めた,イメージスキャナの応用システムでの,イメージスキャナのクラス分けについてはワードプロセッサ/WPの項を参照。
<引用文献>
「イメージスキャナ装置に関する技術動向調査報告書」電子協(63−C−603) 1988年3月
- トータリゼータ
- [totalizator]
競馬場や競輪場等のギャンブル場で使用されるコンピュータシステムのこと。
(1)「勝ち馬投票券(馬券と略称される)」等を発行し,オッズを表示し,払戻金を計算管理するシステム。馬券の他に,車券(競輪,オート),舟券(競艇)等があり,一部はOCRで(馬券等がOCRシート)処理される。日本では競馬場は日本中央競馬会(JRA)が主催する10場と,地方公共団体が,単独あるいは組合で運営する地方競馬場がある。首都圏ではJRAの東京競馬場(府中市)と中山競馬場(千葉県)の他,東京都競馬(大井),船橋競馬,川崎競馬,浦和競馬,高崎競馬,宇都宮競馬等がある。競輪場やオートレース場も多数ある。
(2)馬券等の購入依頼用紙が,「馬番連勝」等の掛け式の追加で複雑になったことも手伝って,OMR用紙での自動発券機投票となっているものが増えつつある。
(3)OCRでは,誤読の際のリアクションを心配してか,印刷舟券払戻業務で職員の読み間違いを防ぐ目的で,活字OCRが利用されているくらいのものである。
- トータル・スループット
- [total throughput]
帳票セットから認識,ユーザアプリケーションプログラムでのデータ処理,その後のクリーンデータのファイル出力,あるいはホストへの転送が完了するまでの全てのOCRシステムとしての処理速度(時間)のこと。
☆OCRシステムの処理速度には,様々な要因が関与している。トータルスルー・プットは,これら要因を全て考慮したシステムの処理速度である。
<主な要因>
□ 実運用帳票の処理速度
□ 帳票あたりの平均記入率(認識文字数)…実運用で記入される平均文字数
□ 記入文字品質(認識率の見積もり)
□ 読取り結果の修正時間
□ ホストへのデータ転送時間(オンライン/オフライン)
□ 帳票走行速度(FAX−OCRでは回線速度など)
□ 一括処理/逐次処理
- TWAIN/トゥウェイン
- [TWAIN]
Aldus,Caere,Eastman Kodak,Hewlett Packard/HP,Logitechの5社からなるWG“Working Groupを中心として定義されてきたもので,イメージ・データを扱うデバイスとMS Windows,及びMac上のアプリケーションとの,インタフェース標準である。
(1)TWAINは,アプリケーションソフトウェアと,イメージスキャナの間のAPIとのプロトコルを定めたものである。これにより,このAPIとプロトコルに従っていれば,アプリケーションソフトウェア開発のメーカは,デバイスを意識する必要が無くなり,またイメージスキャナメーカでは,アプリケーションソフトウェアを意識する必要が無くなる。デスクトップ・イメージスキャナのインタフェースとして,業界(世界)標準。
(2)アプリケーション,ソースマネージャ,ソースと呼ばれる3つのモジュールでTWAINは構成されている。
□ アプリケーション : イメージを扱うことのできるソフトウェア。 □ ソースマネージャ : 複数のソースを管理し,アプリケーションからの要求に対する応答,呼出すソースの選択,ソースの呼出し等のアプリケーションとソースの間の仲介を行う。TWAINの核である。 □ ソース : デバイスからアプリケーションヘ,データを提供するソフトウェアの実体。
ここでいうデバイスとは,イメージスキャナ等のハードウェアとイメージデータベース等のソフトウェアの両方を含む。ソースは各イメージスキャナ等のデバイス毎に提供される。イメージスキャナ開発者はドライバとして上記ソースを提供すればよい。これには,そのイメージスキャナを設定/操作する為のUiも含まれる。
- トランザクション処理/トランザクションショリ
- [transaction processing]
帳票を1枚読むたびに上位装置に伝送し処理する方式。
(1)次に示す手順に従い,読取った結果を上位装置に伝送する。
□ホストコンピュータ(サーバ)の指示で帳票1枚読取る毎にデータを伝送する。
□ホストコンピュータ(サーバ)の指示でエラーデータを表示しキーボード等で修正した結果を再転送する。
(2)上位装置でデータチェックを行ったり帳票ID認識により異種フォーマットの帳票も同一ジョブとして入力したりすることができる。
- 統一伝票/トウイツデンピョウ
同一の業種内で共通に使用できるように規格化されたOCR伝票。
☆例として,チェーンストア協会統一伝票がある。百貨店の商品券も共通読取り可。
- 統計データ処理/トウケイデータショリ
OCRの運用において,筆記者単位や分散処理(運用者)単位で,月次処理して読取率,誤読内容等を把握して,正読率向上に役立てること。
□確認修正等の手間が予想以上等で運用がスムーズに行かない場合は,その原因を追求する手段として有効。全体的にレベルが低いのか,特定範囲でのみ不具合があるのかで,対応策も当然変わってくる。ある特定の記入者のある文字が原因の場合は,筆記具や書いた字の濃さや大きさと形状を調べ本人へフィードバック。
- 透過濃度/トウカノウド
- [through density]
光を通しやすい帳票において,光が原稿を透過する度合い(透過率)を用いて,表した濃度のこと。
反射濃度の項参照
- 特殊記号/トクシュキゴウ
- [special symbol]
記号 の項 参照
- 特徴/トクチョウ
- [feature]
文字認識では,入力パターン・イメージと辞書パターンを媒介するもの。
(1)印刷/活字文字等では入力イメージ・パターン自体,あるいは正規化後のそれが特徴となり,辞書に格納されたパターンイメージとのマッチングを行い最も差の少ないものを答えとする。大きさを調整したり,非線形の補正をしたりはするが「抽出」段階を踏まないものである。
(2)手書き文字の認識では,入力文字パターンから様々な特徴を抽出し,辞書内容と比較する方式のものが多い。特徴は文字パターンから直接取るもの,例えば線の端である「端点」の数や相対位置,向き等や,閉じた領域(ループ)の数や相対位置,形状等,さらに文字の背景の白地に文字パターンから反映させた特徴等があり,漢字認識ではこれらの特徴を組合わせて用いる方式が多い。
(3)特徴抽出の前段階として,文字線(ストローク)幅を1ドットのチェーン化する『芯線化』を行うものもある。芯線化パターンそのものを特徴とする方式もある。現在は,芯線化での弊害(元の字形には無い,「ヒゲ」的な線分やクロスがT字2つになったりする)を克服するため,文字線の外縁を利用した特徴を用いる方式も多い。
(4)漢字等を「記述表現」する特徴もある。
(杢)『上に「木」,下に「工」』 (手書きでは上下の分離が難しい)
→(木)『十に八』,(工)『上下に横棒,中央に縦棒』(カナ「エ」と同形)
- 特徴抽出/トクチョウチュウシュツ
- [feature extraction]
文字の特徴を抽出する過程(処理)。
☆特徴は認識方式により異なるが,次の様なものがある。
1)芯線化法
入力パターンの文字線を1ドット幅に細線化した芯線を基に,そのチェーン状態を辞書と比較したり,端点や交点,各線分 (ストロークの相対的長さや方向等を特徴として捕らえる方法。
(a)オンライン認識と一部共通化できるメリットも。
(b)芯線化に失敗するとカーブで余計な端点(突起点)が生じたり,クロスが2つのT字路に化けたりする。このため,無理な芯線化はなるべく避けて処理しようとするものが増えている。
2)輪郭に基づく方法
芯線化の弊害を克服するため文字線の幅に拘泥せず,端点や交点等を把握し,文字線の向きや相対位置関係も,輪郭(縁)を使って把握しようとする方式。
3)背景に基づく方法
文字線(黒)の周囲の白部分に文字線に反映した特徴を設定して,それらの存在や,他の特徴との相対関係等を利用して文字を識別しようとするもの。個人の癖等を,直接に文字線から特徴を取らないことで回避しようと試みるものもある。微小な違いを丸めてしまうので,類似文字の便別には逆行する部分もある。
- 取消欄/トリケシラン
- [cancel mark field]
読取った行あるいはフィールドの結果を破棄するためのチェックマーク欄。
(1)行単位,又はフィールド単位に取消欄を設けておき,記入内容をデータとしては取込みたくない場合にチェックマークを記入すると,その行またはフィールドの読取り結果を廃棄する機能。ボールペン記入で書損じた場合,その行にマークをし,次の行に書直したものを読取る,というような運用に用いられる。
(2)尚,データの廃棄はOCR自身で行う場合と,アプリケーションソフトウェアで行う場合とがある。アプリケーションソフトウェアで行う場合は,OCRはマークの存在のみ通知する。
- ドキュメント・アライメント機能/ドキュメント・アライメントキノウ
- [document alignment function]
傾いて給紙された帳票を,搬送しながらまっすぐに補正していく機能のこと。
☆スキュー補正機能,斜行補正機能ともいう。帳票が真直ぐに給紙されず,傾いたまま搬送されることがある。帳票が傾いてイメージ入力されると文字位置検出や文字切出しに支障を来たして,文字が読めないことがあるため,帳票を真直ぐに揃える機能の付いたOCRの他に,取込んだ帳票イメージから,傾きを検出して電子的に補正するタイプもある。
スキュー,搬送系の項参照。
- ドキュメント・イメージ・データベース
- [document image database]
(document image database JEIDA'93)
文書処理の研究用として,電子協の認識形入力方式専門委員会が主体となって,収集作成した種々の文書(新聞雑誌,教科書,論文,特許広報他)のイメージデータが収録されたデータベース。
☆このデータベースはCD−ROM1枚に,ISO-9660フォーマットで格納され,ICDAR-Media officeで販売している。
問合せ先:ICDAR-Media office/Tel:0485-24-0501/Fax:0485-24-0633
E-mail:icdarmo@mediadrive.co.jp
- ドキュメント・モード(読取り)/ドキュメント・モード
- [document mode]
小型の帳票を高速で読取るモード。ドキュメント読取りともいう。
(1)ページリーダの中には,小型の帳票を高速で読取るモードを付けたものがあり,このモードをドキュメント(リード)モードと呼ぶ。
(2)近年,一般文書を読取り対象としたソフトOCR(〜文書OCR)が普及し,この中には,手書き伝票を読取る機能を持ったものもあり,一般文書(ドキュメント)読取りのモードと,伝票読取りのモードを区別するためドキュメントモードということもある。ハードメーカとソフトメーカの文化の違い。
- ドキュメント・リーダ
- [document reader]
ハードOCRメーカの業界用語としては,「高速で主に活字読取専用(消込み作業)のOCR」を意味したが,
文書OCR,翻訳原稿入力等の普及により,『ドキュメント』の意味が,一般(本来)の意味で使われる様になってきており『ページリーダ』に対して『ドキュメントリーダ』という対比は影が薄くなってきている。ハードOCRメーカのパンフレットでは「ドキュメントリーダ機能を備えたページ・リーダ」というのが多い。
- ドキュメントOCR/ドキュメントオーシーアール
- [document OCR]
ドキュメント・リーダの意
- ドットプリンタ
- [dot printer]
ドット(点)の組合せで文字の形をつくり,印字する方式のプリンタ。
- ドット文字/ドットモジ
- [dot-formed character]
ドットで構成された文字のこと。
(1)たとえば,ドット構成が「36×36の文字」とは,縦横ともそれぞれ36個のドットマトリクスで文字が構成されることを示す。
(2)通常,OCRではドットインパクトプリンタ装置で印字した文字のことをいう。
(3)字形はプリンタ装置により異なるため,読取対象のプリンタ装置や読取り字種を制限している場合が多い。フォントの項の図(数字・英字・記号・カタカナ)
- ドット文字枠/ドットモジワク
- [dot character entry frame]
実線ではなく,点線(ドット)を用いた読取り用の文字枠。
□点の大きさにより,そのOCRシステムでは,ゴミ除去処理対象となる場合には疑似的なドロップアウトカラー枠になる。但し,ドット径の管理が十分でないとノイズ除去されず,文字認識に影響が出る場合がある。(濁点付きの文字等へ)
□オリジナルの印刷物からコピーしたものやFAX−OCR(ノーマルモード等)での利用では,ドット径が歪んだり,倍加したり(搬送方向に間延び)する等で文字枠が消去できなかったりするので注意が必要である。
□「黒枠」でしっかり文字枠として認識して消去する方が確実である。
ただ,書く側からは抵抗の少ない文字枠であり,文字線と重なっても影響しない方式では,ドット径が保たれOCR専用スキャナで読取る場合は,良好な結果が期待できる。文字枠の項参照。擬似的なドロップアウトカラー枠。
- ドライブ
- [drive]
駆動装置。フロッピーディスクやCDへ指示によりアクセスする。
□ドライブAはフロッピー・ディスク,ドライブBはCD,ドライブCはハード・ディスク等と,名前を与えてシステム管理する。
- ドラッグ
- [drag]
引きずること,「俗語」では煙草の煙を吸込むこと,1服。
マウスでアイコン等を移動するときの操作方法。アイコン等の画面上の対象物にマウスのカーソルを合わせ,ボタンを押したまま目的位置までずらし,ボタンを離して,その場所に置くこと。
- ドラッグ&ドロップ/ドラッグアンドドロップ
- [drag & drop] [drag and drop]
ドラッグ(ドラッグの項参照)して,対象物を目的位置に置くこと。
図版
- ドロップ
- [drop]
drop降ろす,垂らす,落とす
マウス等でドラッグしたものを目的位置で放して置くこと。
- ドロップアウト・カラー
- [dropout color]
原稿上に予め印刷もしくは印字されている画像の色の内,人の目には見えるが,イメージスキャナ等で読取ったときに画像として現れない色のこと。
見た目の感じで「暖色系」と「寒色系」がある。オレンジ系・赤系等と呼ばれる暖色系はOCRのドロップアウトカラーとして採用されており,チェーンストア協会統一伝票の様なブルー系のドロップアウトカラーの帳票は,専用のOCRかフィルタ切り換えで対応することになる。青系は,コピーマシン等でドロップアウトカラーインクでない罫線もドロップアウトする。ファクシミリで読込まれるOCR帳票では「寒色系(青緑系)」のドロップアウトカラーが用いられるがOCRと違い,不特定多数のファクシミリに全て対応できるものは少ない。
(1)ドロップアウトカラーの印刷濃度は,PCS値で管理する。PCS測定方法には黒の裏当て法と,白の裏当て法の2通りがあり,機種によって異なるので注意が必要である。「ピーシーエス」PCS の項参照
(2)OCR帳票は,一般にドロップアウトカラーインクを使って文字枠を印刷したりクリアエリア内の文字印刷を行う。
印刷仕様 の項参照
(3)最近では,黒色文字枠帳票の読取りが可能な機種も出ているが,ドロップアウトカラー印刷帳票読取りの方が,認識性能,処理速度共に勝っている場合が多い。
(4)ドロップアウトカラーの選択は,スキャナセンサ,光源,フィルタで決定される分光特性とPCS値により行われる。
分光特性 の項(印刷インクの分光特性)
(5)ドロップアウトカラーとして使える色は機種により異なるが,一般ボールペンのインクもドロップアウトしてしまい,使えない機種もある。この場合は今は殆ど見かけないOCRボールペンが必要になる。
次に波長と色の関係表を示す。
ピーク感度波長 色 備 考740(nm)
セピア マゼンダ magenda パープル 紫 ブラウン 茶 ドロップアウトカラーが豊富
一般ボールペンの一部が使用不可
青系
緑系660
ローズ
ピンク
レッド
オレンジ
薔薇
桃
赤
橙赤系のみ ローズアニリン 赤紫 深紅
一般ボールペンも使用可能570
イエロー
黄 FAX イメージスキャナと同等
人間の目にも見辛い色→避けるべき色
一般ボールペンも使用可能
530
ブルー
青 青系のみ
一般ボールペンも使用可能
グリーン
緑
(a)ドロップアウトカラーインクは国内で2社しか製造していない。
(b)ドロップアウトカラーでの印刷はPCS値の管理が重要となる。
(PCS値を測定できる機器を備えている印刷メーカを選ぶ必要がある。)
(c)色を豊富に使いたい場合は,「黒枠帳票」として,ドロップアウトカラー以外のインクで印刷することをお勧めする。
- 同形文字/ドウケイモジ
- [same shape character]
カタカナと漢字の字形は,その発生過程や文化からして,ほとんど同じ構造で,その字の形状だけでは,カタカナ,漢字の区別がつかないが,同様に他の字種についても,同一文字種内,あるいは相互間で区別の着かない文字のこと。
☆同形文字は,単語照合等の知識処理を施さないと一位の認識率は上がらない。
<同形文字列> カタカナ → エ オ カ タ チ ト ニ ロ 記入事例 (混同字形) 漢字 → 工 才 力 夕 千 卜 二 口 (類似形状) 英数字/カナ → I ホ ヤ ア 4 ハ = D
- 導入手順/ドウニュウテジュン
- [Introduction of OCR]
OCRシステムは,適用業務内容に応じた様々なスタイルのものが製品化されており,その選択も容易ではない。その導入はソフトOCRからスタンドアローンタイプまで,次の様な手順で行われる。通常のシステム導入と手順は同じだが,手書き帳票の読取り等では起票者の見極め等,システム運用者に直接見えるもの以外の要件も見落とさないことが重要である。
(1)企画(Planning)『どの様な業務のどの様な場面での使用を前提とするか』
・適用業務内容,読取り対象,起票者,クリーンデータ化,処理規模,ピーク処理現用アプリケーションソフトやデータベースとのリンク他の要件を整理する。
・手書き伝票等の場合は,記入レベルの予測が検討段階では,運用側だけで済まず,第三者要因が大きい(特に,不特定多数に近い様な記入教育等の可能性が皆無のエンドユーザが記入する)場合には重要である。文書の読取りでは,処理対象のものをサンプル的に集め,本当に処理したいものを絞り込む等の作業も重要。
(2)選定(Selecting)「機種・システムの選定」『メーカショールーム等の活用』
できれば,使用予定の帳票(試作帳票等)や読取り対象の文書等を用いて,各社パンフレットの中であらかじめ選定した機種について,ショールーム等でテストしてみる。読取り率や処理速度だけに注目せず,確認修正でのユーザインタフェースや帳票設計,定義体登録のしやすさ等,幅広く比較検討する。
(3)設計・開発(Design/Development)
機種やシステムが決まったら,現用システムからの変更箇所や接続点に注意してアプリケーションプログラムの開発や帳票設計他を行い業務システムを作成する。
(4)導入(Introduction)
新規導入分を現用システム等に接続し環境定義他を行う。導入教育を行う。
FAX−OCR等では,末端(エンドユーザ)のFAX性能(保守状況)次第という面も大きいので,事前確認ができる範囲は実施する。不特定多数からの問合わせや申込書送付等では,受信イメージを返送する等して万全を期すシステムに組む。
(5)運用(Operation)
手書き伝票等の処理の場合は,時間的な余裕を作り,テスト運用や従来運用との並行処理等を行い,実運用を通じて,特に帳票や確認修正画面等のユーザインタフェース関連は良く見直し,書き易さや確認修正のしやすさを追求し,要変更箇所の早期手直しにより,運用者側,起票者側,双方にとってスムーズな移行と実運用を実現する。
- ナインDRチェック/ナインディアールチェック
- [9 DR check]
チェックディジットチェックに一括掲載
- ナインDSRチェック/ナインディエスアールチェック
- [9 DSR check]
チェックディジットチェックに一括掲載
- NAPLPS/ナプルプス
- [NAPLPS] [North American Presentation Level Protocol Syntax]
画像(グラフィックス)通信でイメージデータをコード化して送る方法の一つ。
(1)北米統一規格の画像通信方式でビデオテックスに用いられている。多数の描画のコマンドを持ち,送信側からはコマンドのみを送り受信側でコマンド実行により絵を再現する。直線や曲線に細かく刻み,その色,角度,大きさをコード化して送信し,受信側でそれを基に復元する。但し手書きの絵や写真は送信できない。
(2)ビデオテックスは映像情報サービスのことで,日本はキャプテン等。
→GIF(Graphic Interchange Format)はイメージデータをそのまま送る方式。
- ナンバリング(機構)/ナンバリング
- [numbering]
読取った帳票の表または裏面に固定番号またはシリアル番号等を印字する機構。
(1)認証印字ともいう。ナンバリングを実施する機構を印字機構という。
(2)読取った帳票にシリアル番号を印字することで,読取った帳票の順序付けや,二度読みを防止したり,ホストでエラー検出した場合の処理の手掛かりとすることができる。
(3)装置によっても異なるが,通常,数字(0−9)および英字(A−Z)を印字することができる。
また図に示す様に,2個所に印字したり,第1印字位置のナンバリングを消去したり,印字方向を変えたりが,可能なものもある。なお帳票の大きさによっては印字桁数が制限されることもある。
(4)機種によっては,ナンバリングの代わりに固定番号を印字する機構,読取済みを示す印を印字するマーキング機構,あるいはスタンプ機構を設置したものもある。
(5)帳票の表面にする印字を表面印字,裏にする印字を裏面印字という。
- 捺印/ナツイン
- [seal]
ICの表面や薬他のカプセルの曲面上に,型番や製造番号を不滅インク等で印刷すること。
○活字読取りの対象となる。(→3次元空間でのピント合わせ他)
- 捺印読取/ナツインヨミトリ
ICの表面などに,型番や製造番号が不滅インク等でプリントされているものを読取って,部品の製造年月や機能仕様をチェックしたりするのに用いる。
☆一般にIC表面等の狭い面積に,必ずしも一定して※プリントされていないため活字の読取りとしては,斜行や歪み等,困難な要素を抱えている。また,3次元空間で,プリント板上の焦点深度に関わる方向での微妙な浮沈みも,イメージをぼかさずに撮るのに影響する。このため照明の当て方も難しい。
※不滅インク等での捺印は印字欠けや線幅不均一等の不安定要素もある。
- 斜め読み/ナナメヨミ
- [short cut checking]
帳票データの確認等で,逐一記入文字を見るのではなく,サラッと変形文字のみ注意して(視線の端に引っ掛けて読み)確認修正の効率を上げること。
○運用開始後,暫くすると,記入者の癖も判ってくるため,問題のありそうな帳票のみ詳しくチェックして,他のものは比較的簡便なチェックで済ませられる様になること。効率化。習熟効果。
- ニアレスト・ネイバ法/ニアレスト・ネイバホウ
- [nearest neighbor method]
画像データを拡大/縮小するための解像度変換方式の一つ。
☆変換画素に最も近い元の画素の値を,変換画素の値とする方法。
拡大縮小の項参照。
- ニモニック・コード
- [mnemonic code]
連想記号。コードにイニシャルや略号等を使って連想を助ける方式。
- 二次元バーコード/ニジゲンバーコード
- [two-dimensional bar-code]
数種の幅の白と黒の平行バーで構成される1次元バーコードに対して,これらを複数段積重ねて構成されるものを2次元バーコード(単に2次元コード)という。
□1次元バーコードは,数字,英字の一部,および記号しか扱えないが2次元バーコードは漢字を扱うことができる等,以下の特徴がある。1)小さいスペースに多量の情報を表現でき,2)エラー訂正機能を持たせることができ,3)データベースを必要としないシステムを構築することができる。現在は未だ,2次元のバーコードの国際規格はないが,EN,ANSI,AIMで規格化が進んでおり主な2次元コードには次の様なものがある。
<スタックド・バーコード方式> CODE49,CODE16K,PDF417
<マトリクス方式> CODE ONE,DATA DODE,Maxi Code PDF417の例
バーコードの項参照
- 二次元変化点検出符号化/ニジゲンヘンカテンケンシュツフゴウカ
2値画像の情報符号化方式の一つ。
- 二次元POS(ポス)/ニジゲンポス
- [2-dimensional coded POS]
二次元コードを使用したPOSの開発が,日本IDテック(本社大阪 吉田博一社長)と東芝系の情報システム開発会社,テックと共同で行われる。
(1)消費財関連業界向け(日用品・食品の「製造 卸 小売り」の業界)に売り込む。靴業界や文具業界が多品種少量生産に有効なものとして関心を示している。
(2)従来の1次元のバーコードに比べて数百倍の情報量がある日本IDテックが開発したCPコードを使ってシステム化し,1997年内に製品化する。
(3)二次元コードは世界で約30種類あるが,PCコードも日欧米で特許を取得。
- 二重読取り防止/ニジュウヨミトリボウシ
- [double-reading check]
一度読取った帳票を再び読込ませたとき,二度目の帳票データの重複入力を防止すること。
(1)1枚の帳票を2回読取って,そのデータが2重に処理されることが重大な問題を招く様な業務では,一度読取りを行った帳票は誤ってもう一度読んでしまわない様な仕掛けが必須で二重読取り防止は,この様な目的で設けられた機能である。
(2)二重読取り防止機構の例としては,一度読取りを行なった帳票に対して決まった位置にマークまたはナンバリング印字するようにしておいて,読取の際に,その位置にマークまたはナンバリング印字があるかどうかを,当該OCRで読取って判断する方法がある。したがって,帳票設計時にマークやナンバリング位置には何も書かない,あるいはドロップアウトカラーにするなどの考慮が必要である。
- 2000年対応/ニセンネンタイオウ
西暦を下2桁で表現しているシステムが多いが,2000年は,「00」となるために,99年から00年へ時間が逆上ったり,00そのものを取扱えない等のシステムもあって,コンピュータシステムが混乱するのは避けられない。
(1)2桁システムでは,1900年代と2000年代とが上位の2桁無しで比較され逆転現象が発生するため,何らかのプログラムの変更無しには済まされない。
(2)プログラムの作成年代によっては,1970年以前に戻らない(比較対象の最も古いものを1970年に指定してある)ものもあり事態をより複雑にしている。
(3)業種毎に影響を見ると,
(i)金融業では
a)金利計算(マイナス演算)
b)契約年のチェック(更新や書換え内容確認等の定期的な対応)
(ii)製造業では
a)生産計画,受発注業務
b)製品保証期間
(iii)流通業では
a)クレジットカードの有効期間のチェック
b)保存食品などの品質保証期間2000年にまたがる品質保証
(4)2000年以前に,既に2000年を越えた日付が計算の対象となることもあり2000年の1月1日以降に,影響が出るだけでは済まない。米国での調査では対応した企業の平均では3600本のプログラムに変更が必要で,631人月の工数が掛かったとしている。(日経コンピュータ1996.8.5)
(5)対応方法としては,これまでの2桁対応の箇所を全て4桁対応するのが簡単だが対象プログラム本数が膨大だったり,一本のプログラムで何箇所も存在する様な場合は,全てを完全に入れ換えるのは至難の技となる。また,プログラムだけでなく出力データの対象桁数も倍になり,データの互換性を保つためにはデータのコンバージョンや旧データの読出専用プログラム等が必要で作業量は益々増える。
(6)2桁のままでの(00〜99年)対応も真剣に考えられている。平成以降に限ることができるシステムでは,2桁で和暦を表示して2000年を潜り抜けようとしたり,昭和で継続して演算処理し,西暦や平成に換算する等が考えられている。
(7)同様に2桁処理をデータコンバート無しに済ますものが,2000年を境にして50年づつ1900年代と2000年代に割り振り,50〜99年は19xx年,00〜49は2000年と見なす方法。ただし,100年を越す処理はできない。
(6)待った無しの状況になった2000年対応だが,業界団体レベルでは取組みへの姿勢に差がでてきた。
関連データやプログラムの抽出等の作業にもOCRを活用。
- 二値化/ニチカ
- [binarization]
濃淡のある入力画像を2つのレベルに量子化する操作。
□濃淡のある入力画像を量子化する操作に2値化がある。
i)安定した濃淡を持つ入力画像については,一定のしきい値を決めて,2値化をすることが,一般に使われている。この方法を固定2値化という。これに対し,
ii)入力画像中の背景や図形の濃淡にバラツキがあるものや,照明等のムラによるシェーディングまたはランプ光量変動や低下によるセンサ出力の変動のあるものには,背景の明度レベルや局所的濃淡情報(例えば,3×3,5×5のマスク,ライン)により自動的に2値化する方法が用いられ,これらを自動2値化と呼ぶ。
- 日本語ワードチェッカー/ニホンゴワードチェッカー
- [Japanese Word Checker]
ソフトOCRや文書リーダで文字の認識を行った後に誤認識の部分を発見する方法で,英文のスペルチェッカーに相当する。
☆日本語ワードチェッカーは,一般に形態素解析辞書に基づく,形態素解析により,誤認識部分の発見を行っている。
- 入出力装置(I/O)/ニュウシュツリョクソウチ
- [input/output device] [input/output device (equipment?)]
コンピュータシステム(装置)に各種データを入力(input)したり,あるいは,出力(output)する装置の総称。(入力方式の項の対応装置参照)
☆OCRは,帳票(イメージ)に書かれた文字コードを入力するための入力装置。
- 入力コスト(低減)/ニュウリョクコスト
- [decreasing of input cost]
現場での多くのデータの入力は,キーボード(人手)入力によるが,大量の帳票データを入力するには機械化するのが,最も入力コストの低減につながる。
☆帳票データを高速に入力する装置としてOCRは最も優れている。
- 入力方式/ニュウリョクホウシキ
- [input method]
コンピュータシステムにデータを入力する際の各種手段(装置)。入力方式は入力したいデータの種類によって決まる。
□「原票/原稿入力」〜OCR/OMR/MICR/BCR/タグリーダ
「打鍵入力」〜KB 「手(指)操作入力」〜マウス/タッチパネル/ライト
ペン/ジョイスティック/トラックボール/ポインティングデバイス
「オンライン手書き入力」〜ペン入力
「画像入力」〜イメージスキャナ/ディジタルカメラ/ビデオスキャナ
「音声入力」〜音声認識装置VRU(個人登録照合・不特定多数限定単語)
「媒体入力」〜PTR/CR/MTU
- 認識エリア(領域)/ニンシキエリア
- [recognition area]
読取り領域の項参照
イメージとして取込む対象エリアの内,コード化対象となる範囲。
- 認識テンプレート/ニンシキテンプレート
- [recognition template]
認識辞書の意。テンプレートマッチングの項参照
- 認識辞書/ニンシキジショ
- [recognition dictionary]
文字の認識を行うために,識別処理で使用する文字の標準パタンのこと。
認識テンプレートともいう。
- 認識処理/ニンシキショリ
- [recognition]
文字を認識する処理。イメージデータをコードデータに変換する。
(1)OCRの文字認識処理は,前処理,特徴抽出,識別の3つの処理から構成されているのが一般的である。文字単位の識別の後の論理チェック機能搭載も多い。
(2)漢字OCRでは,さらに知識処理などの後処理が追加されることが多い。
1)(認識)前処理〜 イメージ情報から,文字ゾーンの抽出(文書等の場合),行の検出,ノイズ除去,文字切出し等を行って,文字パタンの位置や大きさの正規化を行う。フリーピッチの場合は分離文字等の可能性も追求する。
2)特徴抽出〜 識別処理で使われる特徴を抽出する。特徴は認識方式によって異なり,文字を細線化し(1ドット幅に近づけ)た芯線に基づく方法,輪郭に基づく(直線や曲線,相対位置等による)方法,背景に基づく方法などがある。
→活字認識では,(正規化)入力パターンそのものが特徴となる場合も多い。
パターンマッチング的手法
3)識別処理〜 抽出された特徴と認識辞書の各々の特徴とを照合し,最も近いものを選択して出力する。また,「らしさ」の順に候補カテゴリを並べて出力するものもある。抽出特徴と辞書特徴の差分の累積/サンメンション(Σ)を相違度と呼び,その小さい順に候補カテゴリとして並べ上位を出力するものや逆に似ている部分のカウントである類似度で比較して大きい順に並べるものも。
4)(認識)後処理〜 住所・姓名・品名・団体名や,一般文書等の漢字を含む読取り結果/候補列に対し,単語辞書等との照合を行い,OCR読取り結果を置換える知識処理などがある。数値データでは,上限下限や範囲チェックの他チェックディジット・チェック等で読取り結果の妥当性を検証する。
- 認識速度/ニンシキソクド
- [recognition speed]
1秒間に認識できる文字数(字/秒)。文字認識速度ともいう。
□1文字当たりの「文字切出しと文字認識」の合計時間,あるいは文字認識のみの時間を表す場合が多い。従って,OCRシステムの中の文字認識ユニットの性能指標を表すものであり,単純に読取文字数を掛けたものが,1帳票当たりの読取時間とはならない。帳票当たりの読取り時間は一般に以下が含まれる。
「帳票搬送」「帳票イメージ読取り」「文字切出し」「文字認識」「読取り結果編集」「出力(ファイル格納)」「帳票排出」
処理速度の項参照。
- 認識不能文字/ニンシキフノウモジ
- [unreadable character]
認識できなかった文字のこと。リジェクト文字ともいう。〔原因/対策〕の項
- 認識方式/ニンシキホウシキ
- [recognition algorithm]
文字を認識する方式(アルゴリズム)。
☆認識アルゴリズムは,パターンマッチング的手法と構造解析的手法に大別され,活字はパターンマッチング的手法,手書き文字は構造解析的手法が,一般的に使われている。
1)パターンマッチング的手法〜〜認識文字パターンと辞書文字パターンを重ね合わせて,それらの重合わせの一致度合いで文字を認識する手法。
2)構造解析的手法〜〜例えば形状で,閉領域(ループ)の数が1つで,02469,2つで8等の構成要素を解析しカテゴリを推定するもの。他に端点の数や向き,相対位置,クロス箇所等。
- 認識率/ニンシキリツ
- [recognition rate]
文字を認識する率をパーセントで表したもの。
(1)読取った文字の中で,正しく認識された文字の比率を正読率,誤認識した比率を誤読率,リジェクトした比率をリジェクト率という。誤読率とリジェクト率とは相補的関係にある場合が多く,誤読を減らせば,その10倍近いリジェクト増となる様な傾向にあり,リジェクトが増える分だけ正読率は低下する。
(2)誤読対策とリジェクト対策の両立はメーカの永遠の課題である。通常は,記入者意図と異なる読取り結果を誤読というが,「シ」と「ツ」では逆に書いて誤読にカウントする向きもあるが,文字単位の処理では,上下3本(左寄り)を「シ」左右3本(上寄り)を「ツ」として正解である。「システム」が「ツステム」となる場合もあるが,記入ミスである。後は単語単位でのチェックで正しい文字に変換することになる。(スペルチェック対応)
(3)漢字の場合は,知識処理などで救済できる場合があるので,n位正解率(文字認識結果のn個の候補の中に正解が含まれるとき正読とする)が使われることもある。n位正解率と同意で累積分類率といういい方もある。
- 認証印字/ニンショウインジ
- [verification printing]
ナンバリングの項参照
- ヌル
- [null]
ゼロ/ブランク。データ無し。
□ヌル・データ
- ネガ・ポジ反転/ネガ・ポジハンテン
- [reverse]
白黒反転 の項参照。
- ネイバー
- [neighborhood]
隣接するもの。対象点の周囲の点等。
ニアレスト・ネイバ法→最も近くに隣接するもの。
- ネットワーク・OS/ネットワーク・オーエス
- [NOS] [network operating system]
端末とコンピュータを通信回線で結び相互にデータのやり取りをするシステムで利用される小規模なオンラインシステムOSのこと。
□クライアント側にシェル,サーバ側にNOS本体。PC−LAN
- ノーカーボン複写帳票/ノーカーボンフクシャチョウヒョウ
- [no-carbon copy document]
OCR帳票の中で,原票と複写帳票が複数枚綴りとなっている形態のものであり,複写票への転写方法が薬剤による発色方式のもの。
複写帳票 の項参照。
- ノーマーク・チェック
- [no-mark check]
一つの欄または,読取りフィールドにおいて,マークが無いことをチェックするマーク読取りチェック方式。
マーク読取りチェック の項参照。
- ノーマル・スタッカ
- [normal stacker]
アクセプトスタッカの意。2つあるスタッカの内,通常,大きい方。
- ノーマル・モード(FAX)/ノーマル・モード
- [normal mode]
「標準」や「大きな文字」の表記もFAXで画像を送信する際の解像度指定のモード。
(1)一般に,FAX(G3)のセンサ分解能は8ドット/mmで,用紙送り(搬送)方向では7.7ドット/mmである。センサ解像度は,200dpi相当であるが,ほとんどの機種で,副走査方向(原稿の送り方向)に対して,100dpi相当に間引いてデータ量を半分にして送るノーマル(標準)モードと,200dpi相当のままのファイン(鮮明)モードがある。スーパーファインも普及し,ファインモードが中心になりつつある中では,ノーマル,標準という呼び名は実情に合わない。むしろ「間引き・穴埋めモード,簡便モード」等というべき。
(2)ノーマルモードでは,送信データ量が半分で済む,というメリットがある反面,分解能が粗くなるため,文字の細い線が途切れてしまったり,あるいは逆に線がデッドコピーで太くなって小さい文字が潰れてしまうというデメリットがある。
(3)FAX−OCRへの帳票送信は,活字等の小さい文字を読取り対象とする場合はファインモードの指定が良い。
- ノイズ除去/ノイズジョキョ
- [noise elimination]
画像内に存在するノイズを除去すること。
画像内には様々な種類のノイズ(雑音ともいう)が含まれている。読取り対象の帳票上に元々(記入や印刷での汚れ等で)存在するものの他に,スキャナ自体が原因の縦線状の白抜け線,黒線のノイズ添加や,回線等の経由経路上でのノイズ重畳(雷やその他電波的なノイズによるもの)等がある。
- ノッチレス二値化/ノッチレスニチカ
- [notchless binarization]
画像の中の垂直あるいは,水平の境界部に沿って,ギザギザが発生する。これらギザギザが発生しないような2値化のこと。
- ノルム
- [norm]
多次元空間での2点間の距離。内積。辞書パターンと入力文字から得られた特徴パターンとの差分。相違度。
□辞書パターンをδ(δ1,δ2,δ3…),入力文字の特徴をη (η1,η2,η3…)とすると(δ1−η1)2 +(δ2−η2)2 +(δ3−η3)2 +…+(δk−ηk)2の平方根が相互の距離,即ち相違度となる。(k次元の特徴空間とすると)
- ノン・インパクト・プリンタ
- [non-impact printer]
活字をハンマで叩き,紙面にリボンのインクを転写する形式のインパクト型から静電ドラムなどから転写する様な,振動や音の少ないノンインパクト型へ移行しつつある。インクジェット,バブルジェット,熱転写型などもこのタイプ。
□OCRの読取り対象としては,LBP等でトナーのムラの無いものが望まれる。
- ノンスペース・チェック
- [non-space check]
フィールド内にスペースが無いことをチェックするデータチェック方式。
☆フィールド内に一つでもスペースがある場合,エラーとする。
スペースチェックの項参照。
- ノン・インターレース
- [Non-interlace]
ブラウン管等の走査線を一つ置きに飛ばして走査し,2回目に飛ばした所を走査するインターレースに対し,一回で全面をスキャンするのがノンインターレース。
- 濃度補正/ノウドホセイ
現行イメージに濃度傾斜等がある時,単純な2値化操作を行うと,帳票の半分に文字データが取出せない白地部分ができてしまう。これを避けるため2値化前の濃淡イメージの要所要所で濃度を測定し,局所平均値を得て,それぞれの場所の最適な2値化レベルを算出して,全体イメージを最適に2値化すること。
□黒(文字線等)の存在する付近で極端に周囲の白がグレイレベルより白紙に近く出力されコントラストが付く傾向のイメージスキャナの場合は,太い線の縁から遠い(中の)部分や,白が連続する領域での2値化では,白抜けや黒ベタになる領域がでない様に,2値化レベルの調整が必要な場合もある。
- 濃度指定/ノウドシテイ
原稿の濃度に応じて2値化手法または2値化レベルを切換えること。
(1)濃度切換えともいう。
(2)FAX等では,「濃い原稿」とか「薄い原稿」等のボタンがある。
- 濃度ヒストグラム/ノウドヒストグラム
- [density histogram]
画像の各画素について,濃度頻度をヒストグラムで表したものであり,縦軸に濃度,横軸に画素の頻度をとったものである。
(1)できるだけ多くの情報を伝えるためには,ヒストグラムが一様であることが,最も良い。
(2)ヒストグラムの均一化を行うとあらゆる濃度部分が等しく使われることになり,画像全体として鮮明になる。
(3)元の画像で広い面積を占めていたほぼ同一の濃度の領域は濃度範囲を広げられ,その広い領域のわずかな濃度変化が強調されることになる。
- ハート・アンド・カラーシステム
- [Heart & Color System]
末永蒼生氏の考案した色を元に考えられる心理傾向。『色彩トレンド'90』参照。
・用紙印刷での色の使い方にも参考になる。
(1)暖色系(アウトカラー)と寒色系(インカラー)がドロップアウトカラー同様にあり,人間の心理にも影響を与える。食欲をイメージする色では,赤,緑,橙を選ぶ人が,それぞれ,ほぼ5人に一人で,緑は黄緑色を選ぶ人を含めると35%以上となり納得できる。他に睡魔の色等。
(2)帳票での色使いはドロップアウトカラー等では,選択の余地が少ないといえるが網点印刷の濃度や色調を変えることで,かなり印象が違うのも事実である。
(3)帳票の色(文字枠の色や周囲のプレ印刷の文字等)で,書きやすさに影響が明確にあるのは黄色系統で,白の紙に黄色の文字や枠は光って非常に見辛いのは常識である。最もポピュラーな橙(オレンジ)でも,薄くし過ぎると非常に見辛くなる。
(4)実際よりも大きく見えて,ゆとりを感じ,書きやすい文字枠になる様な色があるとすれば採用すべきか。
(5)(財)日本色彩研究所の松井英明氏によれば,視覚は,色,形,材質感の3つの要素がある(日立ECN Gain No.120 p35)とかで,帳票の場合の質感は紙質により表面が滑らかか,ザラついているか等で決まる。現状の普通紙やPPC紙等では大差が無いといってもよい。形はA系,B系が多く,特殊な縦横比のものは業界統一伝票くらいで,やはり第一印象は「色」による差が大きいと思われる。
色 表現される心 心に与える影響 帳票では? 赤 意欲的、活動的で心身が動的な状態 活性のイメージを与えエネルギーの発散を促す 赤字 派手なイメージ
訂正伝票等のマイナスイメージ橙 自己アピールき欲求,
心理的な興奮状態気分の高揚を促す 赤系ドロップアウトカラー
伝票での代表的な採用色黄 希望や願望等の要求が外へ向かう状態
解放感を与える 人間にも見え難い色
ドロップアウトカラーには向かず緑 生命の再生力を表現 誕生,永遠等のイメージと結合し,心と体にリラクゼーションを促す 青系ドロップアウトカラーで水色
水色と中間的な色で使われる青 自律的で求心的な状態 清浄,沈静等エネルギーを吸収するイメージをもたらし,精神集中を促す コピーやファクシミリでのドロップアウトカラーでOCRでも一部の業界統一伝票で使用 紫 悲しみ,不安等の気力の低下あるいは自己回復の願望 神聖のイメージや自己治癒安らぎを与える 伝票には滅多に使用されることはない。
(高貴な色?)桃
ピンク情緒豊かな状態や体が鋭敏な状態等
幸福感や高揚感を表現心理的に幸