[an error occurred while processing this directive]
Инструкция (помощь помощникам) 23.02.11
Уважаемый помощник!
Благодарю за готовность помочь в распознавании "Именного списка убитым, раненым и без вести пропавшим нижним чинам 1914-1918".
Работа состоит в следующем:
-
Скачать образец и утилиты
- Скачать образец 0026.xls, упакованный в архив 0026.zip (см. прил.1)
- Если у Вас среди шрифтов нет Palatino Linotype, скачать набор шрифтов Palatino Linotype (см. прил.2)
-
Получить набор сканов
- Заказать набор сканов, обратившись ко мне по емайл
- Вы получите набор сканов, обычно в объеме одного выпуска (16 страниц) - в виде 4 порций по 4 скана.
-
Настроить систему
- Если шрифт Palatino Linotype еще не установлен, скопировать скачанный набор шрифтов в любую папку и установить его в систему (Панель управления|Шрифты|Файл|Установить шрифт| указать папку с наобором шрифтов).
- Сделать этот шрифт стандартным в Эксель (Сервис|Параметры|Общие|Стандартный шрифт| выбрать шрифт Palatino Linotype)
-
Набивка текста 01.09.2010
- 01.09.2010:
- Вопрос. Станицы выше по статусу, чем деревня. Может, набивать их в колонку село?
- Ответ. Согласен по поводу станиц. Общий принцип при набивке такой: в адресе желательно не оставлять пустых колонок между уездом и конечной заполненной колонкой. Т.е. если указаны уезд и еще что-то одно, то можно в случае, когда непонятно, волость это или село или станица, ставить на место волости. Если же понятно, что это станица, то можно ставить ее на место села, оставив в этом случае колонку Волость пустой.
- 23.05.2009:
- Вопрос. Если записано в графе Какой волости, села .. "Вел.-Камышев. и села "(21637), то в столбцы волость и село пишем :
Вел.-Камышев?
- Ответ. В данном случае в обе колонки, и волость и село, пишем Вел.-Камышев.
Пишем именно с точкой в конце, которая означает, что название написано с сокращением.
Было бы неплохо также в колонку Примечание записать что-то типа ".. и села". Это примечание в дальнейшем обращало бы
внимание на то, что в оригинале записано ".. и села", а колонка Село уже заполнена самостоятельно.
В некот. более сложных случаях заполнение колонки Село не совсем очевидно. Например, если написано "Александровской и
села", то само село может называться многими способами: "Алексанлровское, Алексадровка, Алексанлрово" и т.п. В таких
неочевидных случаях более надежно будет в колонке Волость писать как есть, т.е. "Александровской и села", колонку Село
оставить пустой, а в колонке Примечание поставить ".. и села".
В дальнейшем планируется весь набитый массив данных унифицировать в части написания адресов с применением других
источников - "Памятныхз книжек", "Списков населенных мест" и пр. Так что позднее можно будет уточнить написание села в
таких сложных случаях - уже на основе независимой объективной инф-ии.
- Вопрос. В графу "Какой волости, села,..." записаны данные о месте рождения солдата или нахождения семьи?
- Ответ. Полагаю, что там записаны данные о месте, из которого нижний чин призывался.
- 08.06.2008: Набивать русские буквы Іі вместо латинских Ii неудобно, но необходимо, хотя внешне они и одинаковы. Подсказка: при включенном режиме NumLock, т.е. когда правая часть клавиш действует, как цифровая, можно в шрифте Palation Linotype вводить в Эксель русские буквы так: Alt+0178 и Alt+0179. Это значит, что левой рукой надо держать клавишу Alt, а правой - набрать на цифровой клавиатуре, соответственно, 0178 - для заглавной буквы или 0179 - для маленькой.
- 31.05.2008: Перед первой информативной строкой в
предпоследней колонке иногда бывает служебная инф-ия - указаны годы к датам
"1914-1915". Общий принцип такой: "служебных строк" не должно быть
(т.к. в будущем все будет переводиться в форму базы данных, где вся
инф-ия, относящаяся к конкретному человеку, должна содержаться в одной
строке - без всякой отсылки к другим строкам). Но именно в данном
случае вопрос, конечно, сложный. По какому принципу надо добавлять
инф-ию о годе к датам, скажем, "6 сентября", "19 Iюля" и т.д. - "1914"
или "1915", непонятно. Гляжу теперь на другие страницы, там разброс
месяцев в датах еще гораздо больше. Поскольку, в отличие от этого
конкретного выпуска, во многих других зачастую инф-ия о годе, в т.ч. в
виде служебной строки в начале страницы, отсутствует, то придется,
видимо, при переводе в текстовую форму, к сожалению, эту служебную
инф-ию (если она составлена в такой слишком неопределенной форме -
"1914-1915") удалять, если же "служебная" инф-ия конкретна, скажем,
указано "1914" или "1915" (безальтернативно), то эту инф-ию надо
ДОБАВЛЯТЬ к значениям этой колонки, т.е. писать, скажем, "6 сентября
1914" или "19 Iюля 1914" и т.д. В одном из выпусков встретил такую служебную информацию: "Авг.", а в следующих строках этой колонки шли просто числа "18", "13" и т.д. В этом случае служебная инф-ия информативна и однозначна. Поэтому во все строчки вставляем инф-ию о месяце, т.е. в строчках пишем "18 авг.", "13 авг." и т.д.
- 25.05.2008: Внимание! В файле образца 0026.xls перед первой колонкой добавились две новые колонки `Страница` и `Губерния, область`.
Соответственно, теперь не надо страницу и губернию указывать отдельно, а надо их повторять для каждой записи в этих двух новых колонках.
Это нужно для облегчения и большей информативности автоматизированного поиска в тестовой версии, чтобы можно было искать человека по како-й то конкретной губернии.
- Сделать копию файла-образца 0026.xls, переименовав копию в файл XXXX.xls, где XXXX - четырехзначный номер выпуска.
- Теперь у Вас есть книга в Эксель, состоящая из одной страницы, которую надо переименовать по четырехзначному номеру выпуска набора сканов XXXX (обычно страницы посылаются Вам отдельно, в виде 16 сканов).
- Страница в образце уже заполнена, надо посмотреть и затем удалить в ней строки табличной части.
- В первой колонке каждой строки пишете пятизначный номер страницы (с дополняющими слева нулями для коротких номеров), во второй - наименование губернии, и далее - данные строки списка. При этом наименование губернии или области, появляющееся впервые, выделяем желтым цветом, а в следующих строках повторяющееся наименование губернии уже цветом не выделяем.
- В шрифте Palatino Linotype есть все необх. буквы дорев. алфавита, но три из них отсутствуют на клавиатуре, это ять, фита и русская i. Чтобы их набивать, можно использовать Таблицу символов (Пуск|Все программы|Стандартные|Служебные|Таблица символов| ять - это символы U+0462 и U+0463, фита - символы U+0472 и U+0473). Для облегчения задачи в файле 0026.xls в клетках C1:H1 уже поставлены эти шесть букв, их можно просто копировать (только копировать надо не целую ячейку, а только символ в ней) и вставлять в нужное место.
- Повторяющиеся значения в соседних строках одной колонки в ориг. тексте отмечаются знаком ", вместо этого надо фактически набивать текст повторно (т.к. в дальн. предполагается соединение в один большой файл и сортировка строк по фамилиям, в рез. чего предыд. строка уже перестанет быть таковой).
- Участок текста, кот-ый не удается распознать, жел-но выделить цветом (но не значками, типа знака ?). В колонке Примечание можно также написать комментарий, типа "плохо видно" или что-то более информативное, напр. "прав. назв. волости Снежниковская"
- 06.04.08 с текстом могут быть при набивке две проблемы:
1) плохо читается
2) явная ошибка, опечатка.
Непроблемный текст набиваем ТАК, КАК ЕСТЬ, совершенно не задумываясь (для скорости работы) ни о каких высоких материях, навроде разного написания одного названия в разных местах по-разному и пр. В частности, опасная инициатива - попытка самостоятельно расшифровывать сокращения слов - лучше оставлять слова в их сокращенной записи. Единств. исключение - встречающийся признак повторения - кавычка, означающий, что текст в клетке совпадает с текстом в вышестояшей строке. В этом случае кавычку заменяем тем, на повторение чего она указывает.
Плохо читаемый текст набиваем в наиболее вероятном варианте (если совсем плохо видно, вовсе не печатаем) и выделяем клетку, скажем, красным цветом. Не нужно делать никаких своих записей в проблемной клетке, типа "плохо видно" и т.д.
Явные опечатки:
2.1) если ясно, что опечатка, но не ясно, как должен выглядеть правильный текст: печатаем, как в оригинале и, по возможности, записываем в правую колонку "Примечание" суть проблемы. Проблемный текст выделяем красным.
2.2) если очевидно, как опечатка должна быть исправлена, то несмотря на очевидность, можно поступить, как в 2.1, поскольку очевидное одному может другому показаться невероятным. Если же самолюбие не позволяет оставить такую явную несуразность без исправления, то можно рискнуть и набить по-новому, т.е. по-своему. В этом случае исправленный участок текста выделяем, скажем, зеленым цветом И пишем суть исправления в правую колонку "Примечание". Вообще-то, в Эксель есть возможность добавлять примечание к любой клетке, но лучше этим не пользоваться. Во-всяком случае, в самой клетке должен быть ТОЛЬКО текст, в большинстве случаев - совпадающий с оригиналом, в исключ. случаях, поправленный, а суть поправки, если она сделана, отражается не в этой же клетке, а справа - в клетке Примечание.
Ну а в остальном продолжаю всецело полагатсья на Ваш здравый смысл, о чем жалеть еще не приходилось.
- 06.10.07 Запятую, когда она оказывается последним символом, убираем. Точку, если она - последний символ значения колонки, убираем, только если абсолютно ясно, что она не означает сокращение слова. Например, если написано "гор. Казан.", то точку оставляем (хотя ясно, что за ней таится только одна буква "и"). Образец 0023.xls соответственно подправлен.
- 06.10.07 В пакете утилит добавился файл values.xls, содержащий списки встречающихся значений стандартных колонок - Звание, Вероисповедание, Холост/Женат, Уезд, Волость, Село, Ранен/Убит/Плен/Пропал, Дата. Этот файл будет регулярно пополняться, поэтому его можно будет скачивать время от времени и использовать для правильной набивки слов в сомнительных случаях (в таких сомнительных случаях можно набивать сомнительное слово по образцу файла values.xls, но желательно при этом оставить выделение такого слова цветом).
- 12.11.07 Если часть текста в какой-либо колонке плохо видна в оригинале, то надо выделить эту часть красным цветом. Если содержимое всей клетки в целом плохо читается в оригинале, то рекомендуется просто выделить всю клетку красным цветом, а не писать в клетке надпись типа "плохо видно" и т.п.
- 17.11.07 Снова изменилась структура файла-образца.
- Теперь в нем след. колонки: Звание, Фамилия, Имя, Отчество, Вероисповедание, Холост/Женат, Уезд, Волость, Село, Деревня, Ранен/Убит/В плену/Без вести пропал, Когда, Примечание.
- Иногда встречаются города. Если город указан без указания уезда, то это областной город, ставим его в клетку Уезд. Если он идет за уездом - это уездный город, ставим его в клетку Волость. Если он идет за указанием уезда и волости - это заштатный уездный город (т.е. город, не являющийся центром уезда), ставим его в клетку Село. При этом пишем В ОДНУ КЛЕТКУ, например, "гор. Льгов".
- Встречается иногда фраза, например, "мещ. г. Киева". Строку "гор. Киева" ставим в клетку Уезд, Волость или Село, соотв. статусу города (в данном случае, конечно, в клетку Уезд). Строку "мещ." ставим в последнюю колонку - Примечание.
- Если где-то слово написано заглавными (напр., ПОМИРСКОЙ - в колонке Волость), то пишем только 1-ю букву заглавной, т.е. "Помирской" (без кавычек, конечно).
- В польских адресах встречается гмина (напр. "гм. Берушена"), ставим это в колонку Село (или даже в колонку Волость, если она еще не заполнена), но не в колонку Деревня. Станицы и хуторы приравниваем к деревням, т.е. ставим в колонку Деревня.
- Для всех террит. единиц, кроме округов и волостей, тип терр. ед. ставим в начале. Например, строку "Сиротинской ст." заносим в форме "ст. Сиротинской". Волости же заносим в другой форме, скажем, "Новогриг. в.", округа - в форме "2 Донского окр.".
- Фразы типа "той же дер." дополняем, т.е. добавляем название из села или волости. Скажем, в случае "Николаевской в., той же дер." получится в колонке Волость "Николаевской в.", Колонка Село будет пустая, а в колонке Деревня надо писать "д. Николаевской". Аналогично разделяем на две клетки фразы типа "Игановск в.и с.". В данном случае - это клетки Волость "Игановск. в." и Село "с. Игановск." - хотя тут может быть и ошибка, если село называется, напр., Игановка. В виду отсутствия доп. инф. о расшифровке названия села из названия волости, целесообразно выделить клетку Село красным, как неуверенно распознанное значение.
Приложения:
- 23.02.11 В раскладке клавитуры "Русская дореволюционная" http://personalhistory.ru/1914-1918/rus1917.rar добавлены символы — (длинное тире, Unicode: код U+0214, наименование "Em Dash") и — (открывающая нижняя кавычка, Unicode: код U+021E, наименование "Double Low-9 Quatation Mark"), которые набиваются комбинацией клавиш AltGr и, соответственно, "-" и Shift+"-" (см. обновленную инструкцию)
- 15.01.11 Раскладка клавитуры "Русская дореволюционная" http://personalhistory.ru/1914-1918/rus1917.rar позволяет набивать дореволюционные буквы (и еще три символа) І, і, Ѣ, ѣ, Ѳ, ѳ, Ѵ, ѵ, †, «, » с помощью комбинации клавиши AltGr (правая клавиша Alt) и кнопки клавиатуры, на которой нарисованы, соответственно, следующие русские буквы и символы: и, е, ф, в, +, " (инструкция по установке находится в файле index.html архива rus1917.rar)
- 17.11.07 Образец набивки данных в программе Эксель - в виде файла 0026.xls [размер 245760 байт], либо упакованный в архив 0026.zip [размер 60 Кб]. Есть также онлайн-версия (для просмотра) http://spreadsheets.google.com/pub?key=pyZohOcPn5658RrshKtagBw
- 01.09.10 Файл values.xls [размер 381440 байт] (или в виде архива values.zip [размер 84074 байта).
05.04.08 Добавлен список волостей Московской губернии по данным памятной книжки губернии на 1914 год и список волостей Тамбовской губернии по данным памятной книжки на 1879 г..
27.02.08 В конец листа Адрес добавлен список уездов, участков в уездах и волостей в участках по данным памятной книги Пензенской губернии на 1913 год
17.11.07 Теперь образец вывешен также и по адресу http://spreadsheets.google.com/pub?key=pyZohOcPn566rAIxu1TqWBw. Этот файл можно просматривать и даже дополнять прямо в Интернет, не скачивая. Для возможности онлайн-редактирования этого файла надо обратиться ко мне по емайл, и я вышлю Вам приглашение на редактирование.
- Набор шрифтов Palatino Linotype в виде четырех файлов pala.ttf [размер 489884 байт], palab.ttf [размер 434004 байт], palabi.ttf [размер 344288 байт], palai.ttf [размер 430800 байт], или упакованные в архив PalatinoLinotype.zip [размер 1 Мб]
- Плагин DjVuWebBrowserPlugin.exe [размер 4.8 Мб], или с сайта производителя http://www.lizardtech.com/download/files/win/djvuplugin/index.php.
[an error occurred while processing this directive]
С уважением,
Борис Алексеев
a402539@yandex.ru
23.02.2011 10:23:40