Python, парсинг таблиц, OCR, распознавание данных
Есть изображения с табличными отчетами (медицинские анализы).
Необходимо разработать ПО, которое будет извлекать данные из таких изображений.
Отчеты могут быть различных типов, они отличаются версткой таблиц.
Сначала ПО должно определить тип отчета, а потом извлечь структурированные данные в формате JSON.
Изображения могут быть идеально ровными (конвертированными из pdf-файлов), или изображения могут быть фотографиями распечатанных отчетов.
У нас уже есть решение, оно неплохо справляется с одним типом документов. Его нужно (а) увеличить точность, (б) модернизировать для удобной работы с другими типами отчетов.
Непосредственное распознавание символов и слов происходит с помощью OpenCV, далее начинается работа с матрицами, геометрией и тд.
Желательно что бы кандидат:
- имел опыт работы с OpenCV и распознованием слов/символов
- умел пользоваться numpy
- умел работать с изображениями и их преобразованием
Загрузки примерно на 30-50 часов в месяц.
Напишите чем подобным Вы занимались.