MMMAAANNN
|
Сообщение #1
21 февраля 2016 в 19:54
|
Супермен
36 |
Предлагаю такие стандарты качества, которым должны соответствовать книги. Потенциально это может вылиться в скрипт и/или программку, которая поможет проверять и исправлять хотя бы некоторые косяки до публикации книги. (А в идеале - эта проверка должна быть встроенным функционалом Клавогонок при создании словаря). - Набор символов должен быть ограничен теми символами, которые набираются со стандартной раскладки соответствующего языка и нормально воспринимаются Клавогонками (привет, уг-скобки и амперсанд!). Если присутствуют иные символы (наприме, латиница в русской книжке), об этом должно быть явно объявлено в описании и все такие символы (а также, желательно, количество каждого из них) должны быть перечислены там же.
- Из пробельных символов допускаются только пробел и конец абзаца. Не должно быть ни одного случая двух и более пробельных символов подряд.
- Должны строго соблюдаться правила пунктуации, соответствующие языку. В частности, для русского языка:
- перед запятыми, точками, точками с запятой, двоеточиями, вопросительными и восклицательными знаками не должно быть пробелов;
- после них всегда должны быть пробелы (в редких случаях допускается пунктуация после них), за исключением случаев, когда запятая или двоеточие или точка стоят между двумя цифрами (за очень редкими исключениями, проверенными вручную);
- открывающие кавычки или скобки не должны быть расположены после буквы, а закрывающие - перед буквой (за редкими исключениями для скобок, которые должны быть просмотрены вручную);
- тире должно отбиваться пробелами с обеих сторон.
- Не должно быть слов, состоящих из смеси криллицы и латиницы. Обычно это русские слова, в которых одна или более букв заменены латиницей аналогичного вида. Желательно все такие слова исправить в чистую кириллицу.
- Книжку перед заливкой крайне рекомендуется пройтись спелл-чекером.
Последний раз отредактировано 28 февраля 2016 в 12:06 пользователем MMMAAANNN
|
Phemmer
|
Сообщение #2
21 февраля 2016 в 19:56
|
Супермен
71 |
|
Voronov
|
Сообщение #3
21 февраля 2016 в 20:08
|
Кибергонщик
54 |
Как-нибудь на днях составлю наглядное руководство в форме видео на примере одной из книг, достаточно проблемных, которую планировал заливать.
|
ТОМА-АТОМНАЯ
|
Сообщение #4
21 февраля 2016 в 20:19
|
Организатор событий
116 |
Мэн, не соглашусь насчет двойных пробелов, как это более чем двух, а как понять два пробела там или три или еще больше. Нет, двойные пробелы, а также тройные и более, провериться должны поисковиком и удалиться до одного стандартного пробела. Если таковой косяк будет более одного раза, то набор книги превратиться в пытку не лучше непроходимого отрывка с английскими программными символами. Все, что не смысловые ошибки, легко проверяется через поисковик. Бегло не проверить только смысловые ошибки он (она, они), по(но), пони(кони), исчисление(счисление), то есть по смыслу может быть другое, а предложение выглядит нормально и никакой поисковик такую ошибку не выявит. Тоже самое с запятыми перед словами который или что, не всегда они нужны там по смыслу. Но такие ошибки сильно не напрягают, их сразу видно и можно написать автору, чтобы поправил. Но самые опасные, это > <, я о них уже просто за все годы устала кричать на всех перекрестках, ибо 4 года назад сама столкнулась в книге друга с такой проблемой, чей профиль после заливки книги был заблочен и исправить книгу было невозможно. Как говорится и автор рядом, книга есть, и не добраться поправить. Теперь есть спецтема, поэтому каждый может поделиться секретами, что еще легко исправляется и как. Последний раз отредактировано 21 февраля 2016 в 20:20 пользователем ТОМА-АТОМНАЯ
|
MMMAAANNN
|
Сообщение #5
21 февраля 2016 в 20:26
|
Супермен
36 |
Phemmer писал(а): Спасибо. ТОМА-АТОМНАЯ писал(а): Мэн, не соглашусь насчет двойных пробелов У меня там была косячная формулировка, исправил. Конечно ты права, не более одного пробельного символа должно быть. Последний раз отредактировано 21 февраля 2016 в 20:27 пользователем MMMAAANNN
|
Кот_Черныш
|
Сообщение #6
21 февраля 2016 в 20:27
|
Маньяк
60 |
Последний раз отредактировано 21 февраля 2016 в 20:28 пользователем Кот_Черныш
|
Voronov
|
Сообщение #7
27 февраля 2016 в 11:53
|
Кибергонщик
54 |
|
kibalion
|
Сообщение #8
27 февраля 2016 в 12:34
|
Гонщик
10 |
Voronov писал(а): Включить в клавопедию однозначно!!!
|
sav1
|
Сообщение #9
28 февраля 2016 в 11:09
|
Маньяк
40 |
kibalion писал(а): Voronov писал(а): Включить в клавопедию однозначно!!! Ага, с принудительным чтением перед первой попыткой создать книгу (обязательно с контрольными вопросами).
|
ТОМА-АТОМНАЯ
|
Сообщение #10
28 февраля 2016 в 11:11
|
Организатор событий
116 |
Тогда продолжу мысль всех остальных, пусть в видео отслеживается количество просмотров, сразу будем знать, что это желающие закачать книгу.
|
Reset82
|
Сообщение #11
28 февраля 2016 в 11:30
|
Маньяк
42 |
хотел в личку, да не получилось. открывающие кавычки или скобки не должны быть расположены после буквы, а открывающие - перед буквой либо слишком философски, либо написано с ошибкой.
|
Jovany
|
Сообщение #12
28 февраля 2016 в 11:34
|
Новичок
80 |
наверное во втором случае имелись ввиду "закрывающие"
|
Reset82
|
Сообщение #13
28 февраля 2016 в 11:38
|
Маньяк
42 |
ну, хотелось бы, чтобы в главном посте тогда поправили, чтобы потом не получилось так, что с обоих сторон пробелы ссылаясь на данный пост ))) Думаю сайтом невозможно отследить и отсеить регулярными выражениями заливаемый текст. Вообще работа с текстом средствами браузера сложнее, чем набрать в строку уже готовый список и нажать ентер. Всех заливающих книги хотелось бы привлечь к данному посту вниманием, а еще от Voronov'а хороший пост, видос + список, который нужно скопипастить себе на комп и не забывать! Пригодится по-любому! Регулярными выражениями можно делать удивительные вещи, которые ускорят ручной труд в 1к раз а еще, вот на винде подобно оператору join что-либо имеется? Последний раз отредактировано 28 февраля 2016 в 11:52 пользователем Reset82
|
MMMAAANNN
|
Сообщение #14
28 февраля 2016 в 12:05
|
Супермен
36 |
Nightcrawler писал(а): наверное во втором случае имелись ввиду "закрывающие" Конечно, именно так. Исправлено.
|
GoodLoki
|
Сообщение #15
28 февраля 2016 в 12:16
|
Новичок
30 |
Reset82Если уж использовать регулярные выражения для обработки книг, то лучше использовать sed. Можно всё собрать в один файл. А потом применять его ко всем книгам. Тут больше вопрос, к невозможности автоматической обработки неправильно распознанных символов. Если их просто удалять, то ошибка останется. Для винды есть gnuwinНо join там нет. ещё под винду есть VirtualPCтуда можно поставить любой линукс, без иксов, и пользоваться всеми необходимыми командами.
|
Reset82
|
Сообщение #16
28 февраля 2016 в 12:19
|
Маньяк
42 |
GoodLoki писал(а): Если уж использовать регулярные выражения для обработки книг, то лучше использовать sed. спасибо! Кстати, все эти регулярные выражения и есть sed, просто удивило его абсолютное сходство с линукс
|
Voronov
|
Сообщение #17
28 февраля 2016 в 13:03
|
Кибергонщик
54 |
Reset82 писал(а): все эти регулярные выражения и есть sed, просто удивило его абсолютное сходство с линукс GoodLoki, Для винды лучшим решением является cygwin или более настроенный и мощный вариант babun. Оба решения очень самостоятельные, практически полноценный линукс шелл с пакетным менеджером и основным набором base utils. Babun это допиленный cygwin со многими вкусными плюшками. Хоть большинство времени работаю и пользуюсь линуксами, не всегда сижу в нем. Уже много чего перепробовал. Два вышеуказанных решения лучшие что есть под винду. скрытый текст… Отдаляясь от темы. Если рассматривать уже полностью полноценный линкус, коли речь зашла о гипервизоре, то лучше тогда Doker-а нет ничего, ни по его удобству, ни по мощной логике работы, ни по ресурсоемкости. Собирать в один скрипт все не получится. Все книги разные, у всех разные ошибки. Ну исправятся автоматически кавычки, лишние пробелы и отступы, в остальном логику принятия решений все равно придется доверять человеку. Иначе может получится еще хуже чем было. Учесть все неоднозначности и ошибки просто не получится. Поэтому в этом нет какой-либо необходимости, это не рутинная задача, требующая многократных повторений в течение дня и трудозатраты на нее мизерные. Последний раз отредактировано 28 февраля 2016 в 13:15 пользователем Voronov
|
MMMAAANNN
|
Сообщение #18
28 февраля 2016 в 13:34
|
Супермен
36 |
Voronov писал(а): Собирать в один скрипт все не получится. Все книги разные, у всех разные ошибки. Ну исправятся автоматически кавычки, лишние пробелы и отступы, в остальном логику принятия решений все равно придется доверять человеку. Иначе может получится еще хуже чем было. Учесть все неоднозначности и ошибки просто не получится. Поэтому в этом нет какой-либо необходимости, это не рутинная задача, требующая многократных повторений в течение дня и трудозатраты на нее мизерные. Если собрать хотя бы точно требующие исправления ошибки в скрипт - уже будет хорошо. А требующие внимания человека моменты можно помечать каким-то образом, чтобы их потом было легко обнаружить и вручную поправить или оставить как есть. Даже если скрипт будет просто решать проблемы с множественными идущими подряд пробельными символами, неразрывными пробелами, непечатными кавычками, символами, которые нельзя набрать с клавиатуры, а также расположением пробелов около знаков пунктуации + выводить статистику по остальным потенциальным проблемам - уже будет крайне полезная автоматизация. И потом, если это все сделать в виде юзерскрипта в составе клавотулз и прогонять через этот скрипт загружаемый словарь на странице создания словаря - будет просто отлично. А там глядишь и в функционал сайта встроят. Когда что-то делается вручную - всегда есть шанс, что человек пропустит какую-то ошибку, лишний раз нажмет кнопочку и т. п. Ведь не бывает людей, которые не делают ошибок (Клавогонки тому хорошая иллюстрация - не бывает наборщиков с абсолютным 0% опечаток). Последний раз отредактировано 28 февраля 2016 в 13:36 пользователем MMMAAANNN
|
Voronov
|
Сообщение #19
28 февраля 2016 в 14:14
|
Кибергонщик
54 |
Как сделать это на js я не шарю, я вообще в нем не шарю. Шеловкский скрипт, если можно назвать три команды, простую функцию написать не проблема. Больше проблем вызовет объяснение пользователям как поставить тот же cygwin. И запустить скрипт или как воспользоваться командой указав файл. Скрипты призваны что-то оптимизировать, упрощать. В данном случае я не вижу в этом необходимости. Можно так же само вставить три команды в редактор, скопипастив их. Просматривать текст все равно придется, логикой скрипта не учтешь всех особенностей пунктуации и пр. Даже при всем этом время на обработку одной книги занимает несколько минут. Какой смысл в сторонних скриптах? Все равно книгу нужно открыть, удалить лишние аннотации, ссылки на ресурсы откуда скачена книга, если есть сноски, нужно обрабатывать их вручную, подставляя за место них текст. Да, это можно в одном случае написать скриптом. Но на второй книге сноски будут организованны по-другому, уже ничего работать не будет. Когда я пытался переделать "Войну и Мир", убрав оттуда французский текст и запихав на место него сноски (перевод) я писал скрипт. Провозился несколько часов. Потом плюнул и за пол-часа сделал все вручную. Вот она "оптимизация". Последний раз отредактировано 28 февраля 2016 в 14:15 пользователем Voronov
|
ТОМА-АТОМНАЯ
|
Сообщение #20
28 февраля 2016 в 14:27
|
Организатор событий
116 |
Я так и не поняла, чем ворд то плох? Что лишние абзацы, что лишние пробелы, что программные английские символы, что перепутанные римские века легко убираются. Вот наверное очень важный момент, не знаю справится ли ваш скрипт, английские похожие на русские буквы В РУССКИХ словах, вот эта проверка ворду точно не под силу, а тем более при визуальном прочтении с ворда. Хоть и сложно, но там где замена связана с ударением, еще можно скопировать такой символ с буквой и вставить в поисковик, заменить на аналог русского: а, о е. Но встречается и u m, тут вообще нужно каждое слово разглядывать. Вот автомат бы на такую проблемку, особенно это встречается в часто издаваемых бумажных книгах, а затем отсканированных.
|