SQS MarkReader利用マニュアル
2004/07/26作成
2004/12/04更新
このマニュアルでは,RTIVやScanSnapnなどのスキャナを用いて
アンケートの回答内容をスキャンし,その画像を,
調査票の印刷原稿のPDFファイルと対応させて処理する事で,
マーク記入内容のデータファイルの作成と,
自由記述欄の回答内容の画像ファイルの作成をして,
その結果をExcelに読み込ませる,といった各段階での操作方法について,
説明をしていきます.
「回答されたアンケート用紙を画像ファイルとして読み込む」
この章では,アンケート画像をスキャンして,
一連の画像ファイル群を作成するための情報を提示します.
スキャンに必要なハードウェア・ソフトウェアの仕様
推奨されるスキャナの性能は以下の通りです.
- スキャナ
- 読み取り方式:自動紙送り方式(ADF),トレイ容量100枚以上
- 読み取り面:両面可能
- 原稿サイズ:A4用紙サイズ
- 読み取り解像度:150dpi以上
- 読み取り画像モード:白黒2値以上
- 出力形式:TIFF, PNG, JPEG, GIFのいずれか
なお,開発チームでは,上記の仕様を満たす製品である,
Panasonic製 KV-S2026CN
(USB2.0またはSCSI接続,白黒200dpiの両面読取速度は約40頁/分,市販価格20万円程度)を
採用して,各種のテストや利用をしています.
スキャンをする時の注意
スキャンの結果として生成されるべき,それぞれの画像については,
以下のような注意事項があります.
- スキャンされた画像は,1ページが1ファイルとなるように保存してください
(Multi-Page-TIFF形式や,PDF形式で保存されたスキャンデータには対応していません).
- スキャンされたフォルダやファイルの名前は,
パス(フォルダ名とファイル名をあわせたもの)を名前順に並び替えたときに,
適切な順序になるように保存がなされているのであれば,
どのような名前になっていてもかまいません.
- スキャンされたファイルの形式は,TIFF, JPEG, PNG, GIF, PNMのいずれかであれば,
自動的に画像フォーマットの種類を認識して読み込むことができます.
複数の種類の画像フォーマットが混在していても大丈夫です.
- スキャンされたファイルの色深度については,カラー・グレースケール・白黒2値などが
混在していても自動的に判別しながら処理をすることができます
(デフォルトでは明度0〜190は黒,191〜255は白として処理します).
- スキャンされたファイルの解像度を特定の値にする必要はありません.
標準的な用途では 150dpi(A4サイズの原稿を
スキャンした画像の横x縦が1200x1700ピクセル程度) であれば十分です.
ちなみに,自由記述欄の画像への書き込みをテキスト起こしをするために
人間が読むことを考えると,150dpi程度以上の解像度が適当であると思われます.
さらには,外部ソフトウェアを利用して,自由記述欄の
書き込みをOCR処理するというような場合には,より高い解像度での
読み込みが必要になると考えられます.
-
通常の用途では,白黒2値,150dpiでのスキャンをしていれば充分です.
またこれは,FAXサーバソフトを使って原稿を取り込むときの,
「ファインモード」で送信された場合に相当します.
なお,スキャナとPCのセットが複数ある場合には,
このスキャン作業を,複数台で,同時並列的に行うことができます.
スキャニング作業の流れ
次に示す手順に沿ってスキャニング作業をしてください.
-
回答されたアンケート用紙を,分析に用いる回答者集団ごとに
仕分けしてください.
-
回収されたアンケート用紙のページに落丁・乱丁があると,
読み取られるページ順序にズレが生じてしまいます.
落丁・乱丁が無いことを確認してください.
-
回答されたアンケート用紙が,ステープラー(ホチキス)などで
綴じられている場合には,綴じられている部分を,なるべく小さな
三角形を作るように,斜めに切り落としてください.
このとき,アンケート用紙上下の タイミングマーク ■ ■ ■ を切り落とさないよう,
注意してください.
- なるべく,用紙が傾いて読み込まれないように注意してください.
たとえば,スキャナによっては,上述の指示のように綴じられている部分を切り落とすと,
切り落とされた部分が影響して,用紙が傾いて読まれてしまうことがあります.
このような場合には,原稿の束を,
上下逆向きにスキャナに差し込んでスキャンをする
(原稿の紙面の下側から吸い込むようにする)ことをおすすめします.
- スキャンを実行し,一連の画像ファイルを作成してください.
具体的な方法については,あなたの持っているスキャナのマニュアルを参照してください.
「スキャンした画像と印刷原稿PDFが入ったフォルダ」の用意
ステップ1: 画像フォルダの表示をする
Windows XPには,フォルダに含まれている画像ファイルの縮小版を一覧表示する機能があります.
この機能を用いて,スキャン作業によって生成され,フォルダ内に保存された
画像ファイルの内容の確認を行います.
- 縮小版一覧を表示します(画像ファイルを含むフォルダを表示して,その中で右クリック→「表示」→「縮小版」を選択)
- アイコンを名前で整列させます(画像ファイルを含むフォルダを表示して,その中で右クリック→「アイコンの整列」→「名前」を選択)
- フォルダを表示しているウィンドウの横幅を調整して,横1行に1人分づつの調査票のスキャン内容が表示されるようにします(たとえば,1人分の原稿が4ページの場合には,画像のアイコンが横に4つづつ並ぶような状態にしてください).
ステップ2: 余分な画像ファイルを削除する(もしあれば)
-
両面印刷された奇数ページ数の原稿をスキャンすると,
一人分のスキャン内容の最終ページが白紙となって
読み込まれることになります.
-
調査を実施するときに,調査票の表紙や説明文などの
ページを独自に追加した場合には,一人分のスキャン内容に,
そのページの画像ファイルが含まれているようなことがあります.
このように,ページの上下に タイミングマーク ■ ■ ■ の無い画像ファイルが
含まれている場合には,そうしたファイルを,MarkReaderによる処理を行う前に,
フォルダから削除しておく必要があります.
もし,こうした余分な画像ファイルが無い場合(通常の場合)には,
このステップの以下の手順を飛ばして,次のステップ3に進んでください.
- 原稿に不要なページが含まれていないか,確認してください.
もしあれば,それらをスキャンした画像は,一覧表示の縦の列として並ぶことになります.
- 原稿に不要なページが含まれている場合は,マウスを縦にドラッグして,それらをまとめて選択し,削除してください.
なお,スキャナによっては,白紙ページを自動的に削除する機能を
持っているものがあります.そうした機能が使えるかどうかを調べて,
あらかじめ,その機能を「有効」として設定をしておくと便利です.
ステップ3: 画像ファイルの落丁・順序違い・2重読み込みを調整する(もし必要ならば)
スキャンを画像ファイルに,落丁・順序違い・2重読み込みなどの不正なものがあると,
MarkReaderで処理をしたときに,そのファイル以降の処理が正常に行われません.
もし,こうした不正な画像ファイルが無い場合(通常の場合)には,
このステップの以下の手順を飛ばして,次のステップ4に進んでください.
画像ファイルに,落丁・順序違い・2重読み込みなどがないか,
アイコンとして表示された内容を見て,確認してください.
もしあれば,それらをスキャンした画像は,一覧表示中で,ページの順序の乱れとして認識できます.
- 画像ファイルに,落丁(スキャンをし忘れたページ)があることを発見した場合には,
実際の紙の原稿の中で,その,スキャンされていないページを探してください.
- スキャンをし忘れたページを発見した場合:
RTIVやScanSnapを用いて,紙の原稿ページのスキャン作業をやり直し,さらに,
その画像ファイルを,このフォルダの中に,正しい順序で表示されるような名前を付けて,コピーしてください.
- ScanSnapの場合:
たとえば「2004年07月24日09時01分20秒.jpg」というファイルの後に,新しくファイルを3つ加える場合には,
「2004年07月24日09時01分20秒-1.jpg」「2004年07月24日09時01分20秒-2.jpg」「2004年07月24日09時01分20秒-3.jpg」というファイル名にしてください.
- RTIVの場合:
たとえば「sample020.tif」というファイルの後に,新しくファイルを3つ加える場合には,
「sample020-1.tif」「sample020-2.tif」「sample020-3.tif」というファイル名にしてください.
- スキャンをし忘れたページの元の紙の原稿がどれだか分からない・見つけられない場合:
その回答者の一人分に当たるファイルをまとめて「無効回答」とみなして,フォルダから削除してください.
- 画像ファイルに順序違いがある場合には,
「アイコンの整列」→「名前」で表示をしたときに,
正しい順序で表示されるように,ファイル名を変更してください.
なお,Windowsのフォルダ上でファイルをdrag&dropして,
見掛け上の順番を変えただけでは,ファイル名は変化していませんので,
注意してください.
- 画像ファイルに重複して読み込まれたものがある場合には,余分なファイルを削除してください.
ステップ4: 印刷原稿PDFのコピー(必須)
スキャンした画像の入っているフォルダの中に,
その画像の元となっている調査票の印刷原稿のPDFファイルをコピーしてください.
このPDFファイルを間違えると,これ以降で,正しく処理が行われませんので,
注意してください.
なお,もし,スキャンした画像の入っているフォルダの中に,
印刷原稿PDF以外の,関係のないPDFファイルがある場合には,そのファイルを
削除しておいてください.
「MarkReaderの実行」
この章では,MarkReaderについて,その操作手順について説明をします.
MarkReaderは,スキャンされた画像を処理して,
マーク式回答欄のマーク塗り潰し状況を解析したり,
自由記述欄の画像ファイルの切り出しを行うといったような機能を持つソフトウェアです.
ステップ1: MarkReaderの起動
ブラウザ上で「SQS MarkReader(マークシート読み取りソフト)」
をアクセスして,MarkReaderを起動します.
エラーが表示されて起動しない場合の対処方法
いったんMarkReaderをインストールした後に,
再度MarkReaderを実行する際に,
サーバから必要なファイルが自動的にダウンロードされた後に,
「署名を検証できません」などのエラーが出て,
MarkReaderを起動できないことが稀にあります.
このような場合には,以下のような手順を行ってください.
- MarkReaderなど,JavaWebStartで起動したアプリケーションをすべて終了する.
- Windowsの「スタート」メニューから,「JavaWebStart」を起動する.
- 「JavaWebStartアプリケーションマネージャ」のウインドウの
「ファイル」→「設定」メニューから,「詳細」タブ→「アプリケーションフォルダオプション」の中の
「フォルダをクリア」のボタンを押し,「サイズ」が「0」になったことを確認する.「了解」を押す.
- MarkReaderを起動しなおす.
ステップ2: スキャンした画像と印刷原稿PDFが入ったフォルダの指定
起動したMarkReaderの画面内の「入力:」と書かれたフィールドの中に,
「スキャンした画像と印刷原稿PDFが入ったフォルダ」を,
drag & drop してください(このフィールドにフォルダのパスを記入するか,
「選択…」ボタンを押してダイアログでフォルダを指定することもできます).
ステップ3: 処理結果の保存先フォルダ名の指定
(ステップ2でファイルを指定すると,自動的にステップ3に進みます.
または,「保存」のボタンを押すことでも,ステップ3を実行できます)
処理結果の保存先フォルダ名を指定するための画面が開きます.
フォルダ名を指定をしてください.
ステップ4: 処理
(ステップ3でフォルダ名を指定すると,自動的にステップ4に進みます)
進捗状況表示ウィンドウが開き,処理が行われます.
インジケータによって,処理の進行状況が表示されます.
- 処理を途中で止めたい場合には「キャンセル」を押してください.
- 最後まで処理が終わったら,「完了」を押してください.進捗状況表示ウィンドウが閉じます.
「MarkReaderの処理エラーに対する原稿の修正」(必要な場合)
MarkReader処理後に,
「インジケータが緑色」になった場合には,
処理がすべて成功したということを意味しています.
次の「MarkReaderの処理結果の利用」へ進んでください.
しかし,MarkReader処理中・処理後に,
「インジケータが紫色・赤色」になった場合には,
処理中に,何らかのエラーが発生したということを意味しています.
「インジケータが紫色・赤色」
になった場合には,「スキャンした画像の入っているフォルダ名-ERROR」という
フォルダが作成されて,この中に,エラー内容と,
その対処のためのヒントを表す画像ファイルが
作成されています.
エラーに対応するためには,この,
「フォルダ名-ERROR」というフォルダの中を確認して,
ファイル名に応じた処理をしてから,
MarkReaderの「保存」ボタンを押して,
MarkReaderによる処理をやりなおす,という手順を取ってください.
エラーの内容とその対処法には,以下ような種類があります.
エラーの種類その1: PageError
- 作成されるファイル名:
フォルダ名-RESULT/ERROR/元ファイル名-サンプル通し番号-PageError.png
-
説明:
原稿の中にタイミングマーク ■ ■ ■ を認識できない場合に,このヒント画像ファイルが作成されます.
- 原因→対策:
-
白紙,鏡文など,関係ないファイルである場合:
→「ヒント画像に対応した元フォルダ内のファイル」を削除する
- タイミングマーク ■ ■ ■ の周囲にノイズがある場合:
→「ヒント画像に対応した元フォルダ内のファイル」をペイントツールで修正するか,
そのファイルを再スキャンして入れ替える
エラーの種類その2: GuideError
- 作成されるファイル名:
フォルダ名-RESULT/ERROR/元ファイル名-サンプル通し番号-GuideError.png
-
説明:
原稿の中にタイミングマーク ■ ■ ■ を認識したが,その枠の形が期待する比率の長方形では
ない場合に,このヒント画像ファイルが作成されます.
このとき,ヒント画像ファイルには,紫色で,認識した枠の形が
描き加えられています.
- 原因→対策:
-
スキャン時の歪み:
→「ヒント画像に対応した元フォルダ内のファイル」を削除する
- タイミングマーク ■ ■ ■ の周囲にノイズがある場合:
→「ヒント画像に対応した元フォルダ内のファイル」をペイントツールで修正するか,
そのファイルを再スキャンして入れ替える
エラーの種類その3: MarkError
- 作成されるファイル名:
フォルダ名-RESULT/ERROR/元ファイル名-サンプル通し番号-MarkError.png
- 説明:
原稿の中に択一式選択肢で複数のマークが塗られていると認識されたときに,
このヒント画像ファイルが作成されます.
このとき,ヒント画像ファイルには,赤色で,誤りのあるマークの
枠の形が描き込まれます.
- 原因→対策:
-
回答者による記入ミスの場合
→「ヒント画像に対応した元フォルダ内のファイル」をペイントツールで修正する
(無回答になるように修正)
-
回答者がマークを×印で消しているなどの場合
→「ヒント画像に対応した元フォルダ内のファイル」をペイントツールで修正する
(×印のマークなどを白色で塗り潰す)
- ノイズをマークと認識した場合
→「ヒント画像に対応した元フォルダ内のファイル」をペイントツールで修正する
(選択された以外のマークの周囲を白色で塗り潰す)
「処理結果の一覧」
読み取りに成功すると,自動的にWebブラウザが起動し,読み取り結果への
リンク集のHTMLが表示されます
(デフォルトでは,フォルダ名-RESULT/index.html というファイルが表示されます).
- 指定したフォルダ(デフォルトでは,フォルダ名-RESULT)内に,
読み取り結果が作成されています.
- 結果一覧:
- 指定したフォルダ名-csv.txt: CSV形式のファイル(MS932エンコード,TAB区切り形式)
- mark.html: HTML形式のファイル(UTF-8)
- 画像一覧:
- all.html: マーク選択内容と自由記述欄を合わせた一覧
- textarea.html: 自由記述欄の一覧
「MarkReaderの処理結果の利用」その1:自由記述欄の画像ファイル
自由記述欄は、フォルダ名-RESULT/textarea.html
というファイルによって一覧できます。
自由記述欄の画像は,
フォルダ名-RESULT/TEXTAREAというフォルダの中に
元画像ファイル名-サンプル番号-設問番号.png という名前で保存されます.
「MarkReaderの処理結果の利用」その2:マーク記入内容の集計ファイル
マーク選択内容が,フォルダ名-RESULT/mark.htmlというファイルによって
一覧できます.
(マーク選択内容と自由記述欄を合わせた処理結果が,
フォルダ名-RESULT/all.htmlというファイルによって
一覧できます)
フォルダ名-RESULT/mark.html,フォルダ名-RESULT/all.htmlなどの画面内の表の中で,
MarkError(ダブルマークなど)として指摘された箇所が,
「背景が紫色の升目」として強調表示されます.
また,この升目の中の'?'から、エラー内容画像へとリンクされます.
このエラー内容画像を参考にして,-csv.txtの修正をしてください.
最終的に,集計結果を定量的に分析するためには,CSVファイルを利用します.
このCSVファイルは「MarkReaderの実行」ステップ3で指定したファイルに,
マーク記入内容が,MS932エンコード,TAB区切り形式で保存されています.
このCSVファイルは,Excel上にdrag&dropするなどして,開くことができます.
「自由記述欄のテキスト起こし」
フォルダ名-RESULT/index.html の「自由記述欄のテキスト起こし」メニューから
「マーク欄+自由記述欄画像」または「自由記述欄画像」を開くと,
それぞれの自由記述欄画像の下にテキスト入力フォームが表示されますので,
画像から文字を読み取ってキーボードで打直したり,
分類・整理のための記号やメモを書き記すなどの方法で,
集計作業を行うことができます。
ページ左下端の「更新」ボタンを押すと,テキスト入力フォームに記入した内容が
フォルダ名-RESULT/フォルダ名-csv.txtファイルとフォルダ名-RESULT/mark.htmlファイルに反映されますので,印刷して配布,
Web上で公開,ワード・一太郎での再編集等に役立ててください.
※「自由記述欄のテキスト起こし」機能は、MarkReaderを起動した状態で利用して下さい.
起動してない場合はエラーになります.
「自由記述欄のテキスト起こし」機能は,ネットワーク未接続(オフライン)状態でも,
利用できます.
※Webブラウザ上でテキスト起こしの作業をするときには,TABキー,Shift+TABキー
を用いると,自由記述欄画像とテキスト入力フォームを次々にフォーカスされ,
表示画面が自動的にスクロールされるので,入力作業を効率化できます.
- 「Tab」キー:入力フォーカスを次に進める
- 「Shift+Tab」キー:入力フォーカスを前へ戻す
以上