Словарь визуальных слов: как создать, зачем использовать, где применять

03.08.2021 14:27

Мегамозг

Автоматическое извлечение информации из деловых документов (счетов-фактур, квитанций, ID) все еще остается сложной задачей из-за отсутствия единого стандарта оформления: несмотря на то, что любой подобный документ содержит определенный набор полей, которые можно извлечь (дата, валюта, общая сумма), расположение элементов сильно отличается в зависимости от типа документа или компании. Также определенные трудности вызывают неоднозначное расположение границ документа, например, из-за смещения изображения на скан-копии. Этот фактор тоже может повлиять на положение искомых областей.

Использование словарей (кодовых книг) визуальных слов, аналогичных Bag-of-Words (BoW), раньше было довольно популярно для обработки изображений (к примеру, для поиска или классификации изображений документов). Мы решили создать принципиально новое решение для извлечения информации из документов, которое бы решало перечисленные выше проблемы предшествующих подходов и базировалось бы на построении и использовании оптимизированного словаря визуальных слов. При этом дополнительным достоинством нашей разработки является то, что обнаружение полей основано только на данных изображения и не требует больших размеченных наборов данных для обучения (fine-tuning) системы на стороне пользователя.

Подробно о том, как был создан словарь визуальных слов, его работе и результатах читайте тут, а переведенный сокращенный вариант — под катом.

29ru.net

На Москву надвигается шторм «Мартина» Педагог из Асбеста провела урок музыки в Москве Лавров назвал условие для урегулирования конфликта на Ближнем Востоке «Появился волшебный пинок»: Сергей Мазаев раскрыл причину отказа от алкоголя

Светские новости от Life24.pro

Загрузка...

Губернаторы России

Москва

Словарь визуальных слов: как создать, зачем использовать, где применять

Собянин наградил выдающихся москвичей за вклад в развитие города и страны

Назначены арбитры на матчи 14-ого тура МИР РПЛ

Все новости спорта сегодня

Блинкова на отказе Цуренко вышла во 2-й круг турнира WTA 250 в Мериде, где сыграет с Корнеевой

"Москва – на волне": Жителей столицы приглашают попробовать черноморские деликатесы

Вучич посетит празднование 80-летия Победы в Москве

Лукашенко: конфликт в Йемене может разрастись в катастрофу, которая миру и не снилась

Киев в ярости: утечка информации раскрыла тайный запрос на ракеты Tomahawk

Частные объявления в Вашем городе, в Вашем регионе и в России

Песни SHAMAN включили в школьную программу в Чите

Лавров назвал условие для урегулирования конфликта на Ближнем Востоке

Друзья 123ru.net

Информационные партнёры 123ru.net

Спонсоры 123ru.net