Распознать сканы Русско-Китайского словаря 800 стр

31.01.2019 05:03

Необходимо распознать 800 страниц русско-китайского текста (400 файлов, итого 42 тыс. населенных пунктов РФ). Желательно программным способом.

На период работ (желательно продолжительностью не более недели) могу оценивать качество промежуточного результата (точность перевода).

Сам пробовал с помощью python + tesseract, но качество не очень - многие иероглифы путает, однако мне не удалось задать ему частотность иероглифов, иначе, возможно, точность возросла бы.
Пример страниц во вложении.
!Необходима высокая точность (не более одной ошибки на страницу).
Лишние пробелы или другие невидимые знаки не считаются за ошибку.
Пробовал использовать https://finereaderonline.com/en-us/Tasks/Create выбирая рус+кит качество не устраивает, несколько ошибок на страницу. OCR в гуглдоках, и MS еще хуже.
Сложность в том что это языковая пара плохо распознается даже лидерами OCR на рынке, поэтому, как возможное решение, потребуется сначала программно, например с помощью OpenCV нарезать текстовые блоки и разделить языковые пары.
Сами скрипты распознования также нужно будет передать мне.