★ファイル「和暦西暦1804242022年06月04日 23:50:22

▲研究上、江戸時代の和暦を西暦で表示するように自動化する必要から作成したものだ。シートにはメインの「和暦西暦」・「西暦和暦」とサブの「万年暦」・「和万年暦」ほかが並ぶ。画像は「万年暦」と名付けているもので、西暦を通常見る暦風にしたものだ。そこには和暦も記されている。なお「和万年暦」は性質上、ただタテに和暦を並べ、横に西暦を記す形である。これらの基本をなすのは、146089行の根本資料である。
▲画像は和暦が慶応から明治へ変わる時の暦である。当時このような暦があったと思われるが定かではない。日本政府が正式に西暦を基本としたのは1873年1月1日(火)からである。和暦では12月3日で、つまり12月は2日で終り、正月となったわけだ。政府は公務員に12月の2日分の給与は払わなかったとあったような。
▲最初にこのファイルを作った時は1600年代・1700年代・1800年代と3つに分けて作って、統合して使っていた。エクセルの行数制限があったからだ。

★OCR作業・エクセル・ワード&いろいろ2022年06月13日 20:59:46

▲長年エクセルとワードにお世話になっている。過日、OCRで作成した文章(幕末明治初年の2年分日記)をワードで精製し直している。それを先日一部をエクセルにコピーした。エクセルで検索欄を作り、「5.」(全て半角)を検索、続けて「5,」(共に半角)を検索、双方共に別々正しく検索できた。ところがワードでは双方共に同じに検索した。つまり「.」(半角)と「,」の違いが認識されないまま検索が完了したのだ。
OCR段階でのミスは必ず数%はある。目をこらして気ずいた分は訂正したが、見逃した部分が残っている。エクセルが正確に指摘してくれたので、正しく修正できた。
▲OCRミスの例(作業順)。「OCRミス→訂正」として記す。
①中入→申入※11例、中出→申出※55例も同傾向のミス。
②二目→二日※46例、これは「一日」から「丗日」まであるのでほんの一例
③員外→其外※32例、エ付→ニ付※34例
④「ニと二」、「面と而」、「聞と間と問」、「出・山と也」、「本田と木田」など。
◎OCRも随分向上したが、完璧は程遠い。結局人の目で確認となる。それが老眼の私には難しい。ただ一斉変換を繰り返す中で、最初は日に1ページほどだった作業が、今は作業速度は3倍程になっている。まもなく日記の1年分が終わるであろう。すると次の1年分は少し早めに進むのではと期待したい。
▲パソコンはmouse機での「終了」は週に1から2回は失敗する。今や悟りの境地である。力で終了させる。不思議なのは新品の「64GB」のUSBが行方不明なことだ。さらに不思議なのは、これまた新品のUSBタイプのSSD250GBが繋いであるのにいつのまにか電源が切れ、いざ保存先にとドラッグすると受け付けない。電源が切れている。挿し替えるとできるようになるが。これは3穴式か4穴式のタイプに繋いでいるのでかなと疑っている。
▲画像は私のDropbox上のデータ。無料2GB範囲で使っているが、最近はアクセスが鈍い。そこでほぼ動かざるものをのみ入れる(置く)ことにした。「和暦西暦」を置けないのはつらいが。

★OCR作業修正続く2022年06月18日 22:01:18

▲OCRの文章はミスが出るが、その時々で違う。例えばある時は「山」は「由」の文字のミス、時には「出」とあるが、それも「由」のミス。つまり一律変換はできないのである。やっかいなのはミスである文字の本当の文字を見つけ出すのが面倒であることだ。IMEにある「IMEパッド」でマウスで文字を描き、試みるがこれがまた正解とはならない。過日は「斧鋮」とあった。「鋮」は原本資料を見ると間違である。その文字探しが始まった。何回かマウスで文字を作る作業をして失敗する。ネット情報、漢和辞典2つを駆使する。そしてその文字は「鉞(まさかり)」とわかった。そして原資料にあった「斧鉞(ふえつ)」とは「斧鉞を加える」と使われ、文章を添削する意味になるそうだ。ただ私はそもそも「斧」と「鉞」の区別は分からない。たしかあの歌では「まさかりかついだ金太郎」と歌ったような。
▲夜はmouse機で「IME」で打ち込み、昼はDELL機で「ATOK」で作業する。機能の違いを感じるがそれも勉強と思っている。今の所はまだ「IME」が使い易いのは当然である。ただATOKには昔の一太郎時代を懐かしみ、魅かれつつある。ところでDELL機のATOK上では今までの「ユーザー辞書」の単語数に加えて「自動登録」語句が入り込んでいた。それでいいのかどうかまだ分らない。ちなみに「IME」上での登録は現在5077語である。今日2つ削った結果である。削ったのは「鞁(ひ)」と「殖(うえ)」。私が「被」と出したいのに一番目に「鞁」が、同じく「上」と出したいのに「殖」が出るので。元々何故この2語が登録してあったか思い出せない。
▲画像は久し振りに撮影したJR九州の「36ぷらす3」。撮影場所に着き、カメラを取り出し、起動した時はもうそこに来ていた。慌てて撮影したが、画像を見るまでちゃんと写っているか自信はなかった。そこで加治木駅で離合するので駅へ急行したが、少しの差で再撮影はできなかった。なお画像はPrintScreenとペイントで修正作成した。

★一連の作業終る2022年06月26日 00:31:27

▲7月半ばまでと覚悟した作業であったが、意外と早く終わった。作業はOCRがミスした語句を原文に合せて正しくすることである。OCRは同じ語句をいつも同じ語句にミスをすることがあるので、作業初期での一斉置換が効果的だったのだろう。かくしてある人物の1867年・1868年の日記を資料化できた。ワード版とそれを用いたエクセル版が出来た。その活用はこれからだ。
▲毎日の作業が終わるとすぐ64GBの2つのUSB、携帯ハードディスク1、OneDriveの計4つに保存する。外付けハードディスクは2つあるが作業中は使っていない。作業が完成したので、いずれこれにも保存する。あっていいのだが困りものはUSBタイプのSSDだ。作業始めのセット時は通電しているが、しばらくすると通電しなくなる。それが分かるのは、作業後これに保存しようとすると非通電とのことで保存できないのだ。その時は抜き差し再セットするといいのだが、煩わしい。宝の持ち腐れ状態である。どこにあるのか、値の張ったお気に入りの64GBのUSBは未だ行方不明のままだ。そのキャップらしきものはあるのだが。
▲この日黒い蝶が来てポーズをとってくれた。何枚か撮影すると去っていった。
▲画像はエクセル資料(一部)と蝶。