2006-09-06 オープンソースOSRエンジンTesseract公開 software 現在Tesseractが認識可能な文字は白黒2値で表現された英語だけで,グレイ・スケールやカラーの文書には対応していない。ページ・レイアウト解析モジュールも備えていないので,複数段組の文書はうまく処理できない。さらに,現時点で入手可能な最高クラスのOCR製品と比べると,認識精度が落ちるという。ただしVincent氏は「欠点はあるものの,Tesseractの認識精度はオープンソースOCRのなかで最も高い」としている。 画像関連のサービスとかがめちゃくちゃ増えそうな予感。