AI-OCRと出会って、4年が過ぎようとしています。
特に当初、AI-OCRをご紹介した際の反応は、「昔、OCRの導入を検討したけど、うちの帳票では読み取ってくれなかったんだよね」という、AI-OCRの最大の特徴である、人間の手書き文字の識字が信用されていない状況でした。
それまでは、マークシートなどの“OCR“が自動読み取りの共通言語となっていて、人間のフリーハンドの文字を識字する事は難しかったため、多くの方が挫折を味わってこられたのだと思います。
そのような時代でしたので、AI-OCRによる識字のデモ等を行うと、多くの驚きの声を頂きました。
特に、氏名や住所欄の読取については、エンドユーザー(帳票を実際に記入する書き手)がOCRによる読取を意識して文字を書かなくとも、高いパフォーマンスで読取が可能となっています。
この高い識字率の要因は2つあります。
1つはAI-OCRにおける多くの学習データの蓄積及びAIの学習です。
我々が使用しているAI-OCR「DX Suite」は、AI-OCR市場において64%のシェア率を誇る製品です。
この高いシェア率から、多くのユーザー企業の帳票を読取り、学習を重ねた事で、人間の“手書き癖“を学んできました。
特に氏名や住所といった情報は、多くの帳票において必要とされる項目であり、シェア率に比例して学習データの蓄積が多く実現できた項目でもあると思います。
2つ目の要因は、読取の仕組みにあります。
「DX Suite」において、文字を認識する仕組みは、読取を行う画像データに対して、ピクセルの集合密度等を計測し、読み取った文字がどの文字の傾向にあたるかをAIが判断するものです。
そのため、従来のOCRのように、記入欄に塗りつぶし枠を用意し、「塗りつぶされているか、塗られていないか」という2択の判断ではなく、「なんという文字にあたるか」という視点で見ることができます。
このようなテクノロジーの発展によって、AI-OCRでは、“フリーハンドによる人間の手書き文字の識字が可能”となり、従来のOCRに対する常識を覆すものとなりました。
AI-OCR民主化 ~できる?から、どう活用する?の時代に~
AI-OCRは最近では、人間の手書き文字の読取において問題なくできることという認識がだいぶ広がってきました。
その利便性の浸透とともに、ユーザーの期待も変わってきました。
ユーザーの要望が、「本当に手書きの文字を電子化できるの?」という興味から、できることを知ったうえで「どう自分の業務で活用できるか」を検討し始めたという印象です。
AI-OCRは「定型帳票において」”人間の手書き文字を識字する”というのが常識です。
そのために、事前準備として読み取る対象の帳票のどこをどのように読み取るか、といった帳票設定作業が必要となります。
AI-OCRの初期のころは、識字率が今ほど高くなかったので、帳票の設定によって識字率を高める工夫をしていました。
例えば “この読取箇所は読取位置の設定を少し小さくとった方が識字率が上がる”などのノウハウがありました。
しかし最近は学習データの積み上げなどから識字率がかなり高く、職人技を加えずとも高いパフォーマンスを出すようになりました。
一方、識字率の向上目的ではなく実業務におけるオペレーショナルな観点から帳票設定を工夫することは継続しています。
AI-OCRで読み取りをすると、CSVファイルでダウンロードができます。
その後の工程でCSVファイルを管理システムにインポートする場合、AI-OCRから吐き出すデータの構成を整える必要があります。
例えば、管理システム上、日付のデータは「yyyymmdd」でないと取り込めないという縛りがあるケースです。(これはもう、超あるあるです)
AI-OCRは紙に書かれた文字を読み取る仕組みのため、記述内容と取り込み先のデータ構成が異なる場合、データの整理が必要となります。
このようなデータ構成の整理は、帳票設定で行うか、RPA等のツールを活用したアプローチが必要となります。
今や民主化してしまったAI-OCRにおいては、“どう活用するか”が重要になってくるため、このようなオペレーショナルな観点から醸成されるノウハウは重要だと考えています。
せっかく手書き文字をしっかり読み取ったとしても、そこから得られたデータが活用できなければ意味がありません。
わが社では、「DX Suite」のSales Partnerとして、クライアントに導入するご提案は勿論、このオペレーショナルな課題について、当社内での活用実績から蓄積したノウハウを活かし「AI-OCR導入支援(帳票設定などの準備支援)」など、クライアント企業におけるAI-OCR導入活用に対するサポートもご提案しています。
AI-OCRは本当に学習する
だいぶ識字率が向上し、各所で活用されているAI- OCRですが、これからさらに高度化すると考えています。
これまでは、「多くの人が使う言葉」「定型的な帳票」など、汎用的な帳票の入力の自動化に成功しました。
これからは、「専門的な言葉」「非定型な帳票」など、より個別に開発されたAIの開発に成功すると思います。
そして、「取り扱う帳票の種類が多いため、帳票の設定をせずに読取を行いたい」というニーズに対応していきます。
現状でも「DX Suite」では、特定のカテゴリの帳票、例えば「請求書」や「注文書」等のよくある帳票の場合、事前設定をせずに読み取れる非定型読取機能「Multi Form」を実装しており、順次対象帳票の種類も広がっていますが、「自分たちの帳票では、この読取箇所の記載が特殊で上手く読み取れない」、「記述されている内容が専門用語の短縮語のため、AIに学習させたい」といった個別具体的なニーズについては、現時点では人による修正やデータ化後の加工処理等で対応しています。
このような課題解消に向けて、「DX Suite」の提供元企業であるAI inside株式会社は、「Learning Center」というサービスを新たにリリースしました。
「Learning Center」では、ユーザー企業が自身の活用したい業務範囲における教師データ(読取を行う帳票の実データ等)を用意し、学習させる事でその活用シーンに特化したAIモデルを構築する事が出来るサービスです。
このサービスを活用する事で、自分たちに特化したAIモデルを利用できることは勿論、他ユーザーが作成したAIモデルを使用する事が出来るプラットフォームとなります。
ただ、「AIに学習させる」とはいえ、具体的には大変地道な単純作業もあり工数がかかるため、当社ではその作業を支援するサービス(アノテーション支援サービス)を提供しています。
「Learning Center」においても、AI inside社と協力し、ユーザー企業を支援したいと考えています。
さて、そんな将来的なユーザーのニーズに対する解決策になり得る新サービス「Learning Center」についてですが、私が語るよりも専門家「AI inside」にご紹介いただこうと思っています。
次回の記事では、AI inside社に「Learning Center」サービスと今後の展望について語って頂きます。
ぜひお楽しみにしてください。
関連記事
月間ランキング