★四つの日誌・日記書き換えが終る2015年06月23日 00:42:16

ドロップボックスのスクリーンショット利用
▲スキャナー・OCRミスとその訂正事例。表記は「ミス→正解」の形で。
①草葬→草莽②掘→扼③急遠→急遽④慮援→應援⑤柳か→聊か
⑥樟さして→棹さして⑦放て→於て⑧五百除→五百餘
⑨腕カ→腕力⑩直多→直友ヲ⑪誰→餘⑫急遼→急遽
 ここで考える。まだこのミスが全資料中にあるのではないかと。そこで検索して見た。見つかったのは1例、「誰」。文章では「其誰ノ兵」。これは正しくは「其餘ノ兵」。しかもこれが今回の四つの日誌・日記から見つかったのだ。ああ、やんぬるかな。
▲今回、より原本に忠実に「かな」から「カナ」へ戻した。その結果が「⑨腕カ→腕力」。カタカナにしたから「カ」と漢字の「力」のミスが分ったのだ。同じようなミスが多いのが「ニ」と漢数字「二」。これは字体がゴシック体だとほとんど見分けが付かない。また「⑩直多→直友ヲ」は、原資料を読む中でたまたま気が付いたもので、OCR君は「友ヲ」を「多」と変換したのだが、その気まぐれぶりには脱帽。
▲今回、書き直しの過程で、再度日付設定にも取り組んだので、エクセル上で80セル追加・修正された。これを正確に3万行の資料中にハメ込む作業が大変だった。
▲画像は、修正作業の画面。画面左のエクセル上の赤囲い部分を、右のワード上にハメ込んだ。この後「テキスト」→「OK」とすればうまく行く。
 憂鬱なのはこの作業を昨年から作って来た関係ファイルでしなければならないことだ。いずれ又。