Tesseract.js - это библиотека javascript, которая выводит слова практически из любого языка из изображений.
Двигатель Tesseract OCR был одним из трех лучших в тесте точности UNLV 1995 года. Между 1995 и 2006 годами над ней мало что было сделано, но это, вероятно, один из самых точных механизмов распознавания текста с открытым исходным кодом. Исходный код будет читать двоичное, серое или цветное изображение и выводить текст. Встроенный читатель TIFF будет читать несжатые изображения TIFF, или может быть добавлен libtiff для чтения сжатых изображений. Существуют языковые файлы для многих языков, даже для текста, заданного шрифтами Fraktur и blackletter.