刺身の上にたんぽぽ乗せる日記

プログラミングしたり、自販機の下に落ちてる小銭を集めたりしてます

オープンソースOSRエンジンTesseract公開

現在Tesseractが認識可能な文字は白黒2値で表現された英語だけで,グレイ・スケールやカラーの文書には対応していない。ページ・レイアウト解析モジュールも備えていないので,複数段組の文書はうまく処理できない。さらに,現時点で入手可能な最高クラスのOCR製品と比べると,認識精度が落ちるという。ただしVincent氏は「欠点はあるものの,Tesseractの認識精度はオープンソースOCRのなかで最も高い」としている。

画像関連のサービスとかがめちゃくちゃ増えそうな予感。