C# と VB.NET の質問掲示板

ASP.NET、C++/CLI、Java 何でもどうぞ

C# と VB.NET の入門サイト

Re[2]: 画像から文字の抽出


(過去ログ 62 を表示中)

[トピック内 6 記事 (1 - 6 表示)]  << 0 >>

■36103 / inTopicNo.1)  画像から文字の抽出
  
□投稿者/ 易 (1回)-(2009/05/20(Wed) 23:05:34)

分類:[ASP.NET (C#)] 

画像ファイルから文字を抽出したいんですが、こういった事は可能でしょうか?
画像にはわかりやすい文字で英数字が書かれているとします。
英数字のみで、日本語や他の文字は画像に存在しないか、あっても認識する必要がないという仕様です。

例えばメッセンジャーを起動すると、ウィンドウタイトルの部分にWindows Live Messengerという文字がありますが
このメッセンジャーのスクリーンショットを撮った画像だけがあるとして、その画像からWindows Live Messengerの部分を文字列として抽出し
扱いたいという物です。
画像データより、文字列データとしての方が色々扱いやすいので。
OCRみたいな事をソフトウェアでしたいわけですが、こういったのはやはり簡単にはできないでしょうか?
画像に関しては必要な部分だけのかなり限定した画像で、画像内に文字は認識したい分しかないというような
有利というか抜き出しやすそうな条件でも、難しいでしょうか?
引用返信 編集キー/
■36106 / inTopicNo.2)  Re[1]: 画像から文字の抽出
□投稿者/ Azulean (391回)-(2009/05/20(Wed) 23:22:53)
No36103 (易 さん) に返信
> 画像データより、文字列データとしての方が色々扱いやすいので。
> OCRみたいな事をソフトウェアでしたいわけですが、こういったのはやはり簡単にはできないでしょうか?
簡単にはできません。
(OCRライブラリを買ってそれを利用するのであればまだ簡単かもしれません)

人の目では簡単に文字列のある場所、それがどんな文字列かを識別することができますが、プログラムではそうもいきません。
OCRで使われているアルゴリズムを存じませんが、エッジ検出したり、パターンマッチングしたりといったような画像処理の知識が必要になるかもしれません。

引用返信 編集キー/
■36108 / inTopicNo.3)  Re[1]: 画像から文字の抽出
□投稿者/ やじゅ (1008回)-(2009/05/20(Wed) 23:37:22)
やじゅ さんの Web サイト
No36103 (易 さん) に返信
> 画像にはわかりやすい文字で英数字が書かれているとします。
> 英数字のみで、日本語や他の文字は画像に存在しないか、あっても認識する必要がないという仕様です。
>
> OCRみたいな事をソフトウェアでしたいわけですが、こういったのはやはり簡単にはできないでしょうか?

まー簡単にはいかないと思います。
フォントやサイズが固定しているなら、やりようもあるかも知れませんがね。

Googleがオープンソースとして公開した「Tesseract」がOCRエンジン
http://sourceforge.net/projects/tesseract-ocr/
Google製エンジンを搭載したフリーの欧文OCRソフト「Softi FreeOCR」v1.5
http://www.forest.impress.co.jp/article/2007/07/30/softifreeocr.html
引用返信 編集キー/
■36118 / inTopicNo.4)  Re[2]: 画像から文字の抽出
□投稿者/ .SHO (833回)-(2009/05/21(Thu) 09:24:20)
かなり条件を限定されているので、やってやれない事もなさそうな気がします。
まぁ、それでもかなり難しい事には変わりないですが。
引用返信 編集キー/
■36120 / inTopicNo.5)  Re[1]: 画像から文字の抽出
□投稿者/ 魔界の仮面弁士 (1080回)-(2009/05/21(Thu) 10:01:24)
No36103 (易 さん) に返信
> 画像ファイルから文字を抽出したいんですが、こういった事は可能でしょうか?
> 画像にはわかりやすい文字で英数字が書かれているとします。
> 英数字のみで、日本語や他の文字は画像に存在しないか、あっても認識する必要がないという仕様です。

"Microsoft Office Document Imaging *.* Type Library" を使うという方法があります。
http://hpcgi1.nifty.com/MADIA/VBBBS/wwwlng.cgi?print+200805/08050013.txt

ただし、ASP.NET からの利用を想定されている物では無いので、そのまま使う事はできないでしょう。
引用返信 編集キー/
■36125 / inTopicNo.6)  Re[2]: 画像から文字の抽出
□投稿者/ 易 (2回)-(2009/05/21(Thu) 13:40:04)
皆さんありがとうございます。
限定しても結構難しいんですね・・・
正直画像処理や解析できるような技術も知識もないので、自力での実装は無理そうです。

やじゅさんや魔界の仮面弁士さんが紹介してくれたライブラリを使う方法を、できるかどうかわかりませんが試してみようと思います。
ありがとうございました。
引用返信 編集キー/


トピック内ページ移動 / << 0 >>

このトピックに書きこむ

過去ログには書き込み不可

管理者用

- Child Tree -