Конвертация сложных и разных таблиц (docx и xlsx) в json (C#)
Привет, проект declarator.org/ (противодействие коррупции) ищет фриланс программиста на C# для развития программы Смартпарсера (https://github.com/TI-Russia/smart_parser ). Программа Смартпарсер берет на вход документ (docx, xlsx и другие) и преобразует в json. Пример входного документа (https://declarator.org/office/view-file/52808/ ). Примеры выходного json можно найти в спецификации ( https://docs.google.com/document/d/17IszYNrnsJzxJCZa9hUbjWvlNRCdIDdB2t58M0ojMEY/edit?usp=sharing ).
Мы не являемся коммерческим проектом, деньги – это пожертвования, включая зарубежные, поэтому мы платим меньше, чем это делают в других местах. Мы действуем строго в рамках российского законодательства, но предполагаем , что участники проекта осознают, что борьба с коррупцией в нашей стране может вызвать ответную реакцию у коррупционеров. Взвесьте все риски перед тем, как писать нам. Сайт Декларатор.орг – проект автономной некоммерческой организации Трансперенси Интернешнл Россия ( transparency.org.ru ).
У нас есть две основные метрики для Смартпарсера – полнота и точность. Полнота – это количество файлов, которые может обработать Смартпарсер и не упасть. Точность – это измеряемое автоматически или руками качество выходных json. Пока основная метрика полноты – header_recall (его значение на сегодняшний день примерно 72%). Мы предполагаем, что поднятие этой метрики еще на 3% – это около месяца работы одного разработчика. За этот месяц работы мы готовы заплатить 30.000 рублей.
Нужно понимать, что само программирование занимает в этом проекте максимум 1/3, остальное – аналитика, написание тестов, тестирование других метрик.
Обязательные требования
Дополнительные условия такие:
1. Работа не должна длиться сильно больше месяца.
3. Ваш код должен пройти ревью (программного кода не должно быть слишком много, он должен читаться).
4. Вам будет дан массив, на котором вы будете тестировать header_recall, но окончательная оценка производится на закрытом корпусе (у вас не будет к нему доступа).
5. Новые файлы по точности не должны быть сильно хуже старых файлов (проверка на Толоке или автоматическая проверка)
6. Мы используем регрессионные тесты, вам надо будет пополнить базу тестов.
мы можем попробовать сделать так. Вы выделяете условно один рабочий день (будет ли это меньше, мне не важно). Вы начинаете разбираться с нашим хозяйством, я на связи и помогаю максимально. В какой-то момент вы говорите, что рабочий день закончен. Я смотрю, что вы сделали:
1. удалось ли все собрать и запустить, прогнать тесты.
2. удалось ли запустить программу на корпусе (хотя бы 100 документов)
3. удалось ли найти документы, на котором программа упала
4. удалось ли понять, почему это произошло (на словах)
5. удалось ли понять, как это чинить (на словах)
6. дополнить программу и закоммитить в бранч
7. Включить пример в тесты
Пишите телеграм сразу