Электронная версия «Книги Памяти»: работа продолжается

На сайте «Родная Вятка» продолжается работа по оцифровке «Книг Памяти» по Кировской области, Удмуртской республике, Республике Марий Эл и ряду других территорий, относящихся к географии портала. К настоящему времени в базу данных добавлено 232015 записей о людях (обработано 41% от общего числа страниц), в том числе  190595 по Кировской области (68%), 23719 по Удмуртии (18%), 7367 по Марий Эл (11%), 10334 по Татарстану (31%).

Вся работа выполняется на добровольных началах активными пользователями сайта «Родная Вятка». Приглашаем участвовать всех, кто хотел бы помочь в реализации этого проекта!

Создание электронной версии «Книги Памяти» – один из важнейших проектов, реализуемых на нашем портале уже на протяжении 4-х лет. Мы распознаём данные о персоналиях из опубликованных томов Книги Памяти и переводим их в формат базы данных с возможностями поиска и привязки записей к базе населённых пунктов. Всего в проект включено 53 тома печатных «Книг Памяти».

Цель проекта – сделать максимально доступной и удобной в использовании информацию из этого издания, хранящего сведения о героях Отечества – павших участниках Великой Отечественной войны. Несмотря на наличие в сети таких проектов как «Память народа», ОБД «Мемориал», где информации больше, бумажные «Книги Памяти» остаются важным источником. Информация в Книгах Памяти структурирована по содержимому, сгруппирована по районам, где родились или жили участники войны.

С момента последнего отчёта, который мы делали ровно год назад – 17 февраля 2018 г. (ссылка), были обработаны данные по следующим районам:

Всего на текущий момент:

О ходе добавления материалов в раздел «Книга Памяти» мы писали в комментариях к статье «Продолжается работа над электронной версией Книги Памяти».

Приглашаем участвовать!

Для того, чтобы принять участие в работе по оцифровке Книги Памяти по интересующим вас районам, сообщите нам об этом на форуме: https://rodnaya-vyatka.ru/forum/101222

Работа состоит из нескольких этапов:

1. Распознавание текста, проверка и исправление ошибок в программе распознавания текста. Сохранение результатов работы в текстовый файл.

2. Обработка текстового файла: перевод в формат 1 строка – 1 персона, устранение регулярных ошибок распознавания, исправление переносов.

3. Загрузка полученного файла в электронную таблицу, разбивка на колонки (ФИО и биографические данные), добавление служебных данных (номер тома,  номер региона, номер района, номер страницы).

4. Сопоставление с данными ОБД «Мемориал» и расстановка ссылок-идентификаторов страниц на указанном ресурсе (для последующего быстрого перехода к просмотру сканов). В ходе этой работы также производится устранение ряда допущенных ранее ошибок (пропуск или дублирование записей), а также добавление номера страницы, если он не был добавлен на предыдущем шаге.

5. Формирование идентификаторов записей и загрузка в базу данных портала.

6. Выполнение геопривязки записей (привязка по 1 записи, массовая привязка либо загрузка привязок по заранее подготовленному файлу).

Помощь нужна в основном на этапе 1-2-3, т.е. собственно с распознаванием текстов и корректировкой ошибок распознавания. Это достаточно трудоемкая работа, требующая внимания и усидчивости.

Для работы желательно иметь некоторый опыт работы в программах распознавания текста, текстовом и табличном редакторе, или твёрдое желание научиться.

Кроме собственно распознавания текста, мы выполняем привязку записей к базе населённых пунктов. В результате этой работы на страницах сёл и деревень появляются списки местных героев – павших воинов Великой Отечественной войны.

Как показала практика, наиболее эффективный путь решения этой задачи – обработка текста Книги Памяти по определенному району и составление списка географических объектов, там упоминаемых в качестве места рождения или места жительства воина. Объём такой таблицы значительно меньше, чем записей в Книги Памяти (из каждой деревни, как правило, несколько солдат). По этой таблице необходимо выполнить поиск населённых пунктов в базе сайта и проставить их ID. После обратного сопоставления с текстом Книги Памяти привязки мы загружаем на сайт. Как правило, после такой процедуры привязанными оказываются 70-90% записей (часть привязать к конкретному населённому пункту невозможно, т.к. место указано не точно – только сельсовет, не указано вовсе или указано ошибочно).

Если вы желаете помочь с привязкой записей – сообщите нам, мы подготовим файл для привязки по любому из обработанных районов.

Комментарии

Аватар пользователя ru-danko

Пишу в личку.

Аватар пользователя Jenessi

Могу вот это взять?

https://rodnaya-vyatka.ru/kniga-pamyati/books/5213

 

Аватар пользователя ru-danko

Да, не припомню, чтобы кто-то брал.

Аватар пользователя Jenessi

тогда за мной его запишите, пожалуйста.

Аватар пользователя ru-danko

ОК! По Прилузскому ещё 31-ю страничку нужно распознать, я вам написал на почту.

Аватар пользователя Jenessi

сделала, отправила на почту

Аватар пользователя ru-danko

В раздел "Книга Памяти" добавлены даные по Прилузскому району Республики Коми (из тома № 2 КП указанного региона): https://rodnaya-vyatka.ru/kniga-pamyati/books/1102

Распознавание выполнила Наталья Стяжкина, сопоставление с ОБД Мемориал - Денис Шабалин.

Аватар пользователя Jenessi

https://rodnaya-vyatka.ru/kniga-pamyati/books/5213

Денис, здравствуйте. Файл отправила на почту

Аватар пользователя Jenessi

Добрый день.

Могу ли я взять Книгу памяти. Нижегородская область. Том 13

https://rodnaya-vyatka.ru/kniga-pamyati/books/5213

 

Он ни за кем не закреплен пока?

 

Аватар пользователя ru-danko

Наталья, а позавчера вы разве не этот том прислали?

Аватар пользователя Jenessi

Ой. Точно, этот и прислала. Сейчас тогда выберу что-то другое

 

Аватар пользователя Jenessi

А если этот?

Книга памяти. Костромская область. Том 7

Аватар пользователя ru-danko

ОК) Ещё можете в направлении Марий Эл посмотреть.

Аватар пользователя ru-danko

На сайт загружены данные Книги Памяти Нижегородской области - Шарангский район (2912 записей): https://rodnaya-vyatka.ru/kniga-pamyati/districts/5201

Распознавание выполнила Наталья Стяжкина, сопоставление с ОБД Мемориал - Денис Шабалин.

Аватар пользователя Jenessi

Добрый вечер.
Костромская область, т. 7 сделала. Отправила на электронную почту.

Аватар пользователя ru-danko

Принято.

Аватар пользователя ru-danko

Да, можно!

Добрый вечер! Отправила на эл.почту Подосиновский район.

Аватар пользователя ru-danko

Спасибо! Привязки обработал, загрузил.

Аватар пользователя ru-danko

В раздел "Книга Памяти" добавлены даные по Октябрьскому району Костромской области (из тома № 7 КП указанного региона): https://rodnaya-vyatka.ru/kniga-pamyati/books/4407

Распознавание выполнила Наталья Стяжкина, сопоставление с ОБД Мемориал - Денис Шабалин.

    Аватар пользователя Jenessi

    Книга памяти. Пермский край. Большесосновский район.

    Сделала, отправила на электронную почту Вам.

    Аватар пользователя ru-danko

    Принято, большое спасибо! На днях выложим.

    Аватар пользователя Jenessi

    Добрый день.
    Пермский край. Большесосновский район так и не выложили. 
    Не нужно было делать?

    Аватар пользователя ru-danko

    Извините за задержку. Я исправился. Нужно было! Спасибо!

    Аватар пользователя ru-danko

    В раздел "Книга Памяти" добавлены даные по Большесосновскому району Пермского краяhttps://rodnaya-vyatka.ru/kniga-pamyati/books/5901

    Всего добавлено 8326 записей, в том числе 4824 в рубрике "Не вернулись домой" и 2897 в рубрике "Вернулись победителями" (в эту Книгу включены не только погибшие и пропавшие без вести, но и вернувшиеся с войны солдаты).

    Распознавание выполнила Наталья Стяжкина, сопоставление с ОБД Мемориал - Денис Шабалин.

    Аватар пользователя Jenessi

    Можно вот этот взять?

    Книга памяти. Республика Марий Эл. Новоторъяльский район

    Страницы