Сплошь длинные пространные описания с кучей запятых. Скучно. Экшона не хватает, сюжета
gramh, спасибо за внимание к словарю и комментарий!
В свои цели и задачи по расширению словаря не ставила повышение развлекательной составляющей набора текстов на КГ для всех категорий клавогонщиков.
Присылай интересные отрывки, с удовольствием рассмотрю твои варианты. Требования под хайдом:
скрытый текст…
– минимальное количество отрывков для рассмотрения – 10, обязательно указание автора и книги, приведение адреса первоисточника с html-текстом отрывка, желательно на флибусте; – длина с пробелами – 800-820 знаков (Ворд, Эксель или Гугл в помощь); – средняя сложность совокупности отрывков не более, чем на 10% выше, чем в текущей базе, отдельных отрывков – не более 5 (сложность можно определять здесь); – отсутствие прямой речи, минимум знаков препинания (шифтов и знаков препинания в сумме на один отрывок должно быть не более 60 в отдельном отрывке и не более 40 в среднем, количество кавычек на один отрывок – не более 4. Инструмент для подсчета предоставить не могу, но экспертный метод оценки "кучи" запятых и других знаков препинания подойдет); – в экшене не должно быть убийств, крови и т. п., – возрастной ценз книги-первоисточника не выше, чем 16+. – по возможности отрывок не должен заканчиваться незавершенным действием, а также начинаться по возможности так, чтобы можно было понимать, что и где происходит.
Можешь создать инструмент автоматизации сбора отрывков.
Можешь создать аналогичный словарь по собственному вкусу.
Также можешь внести любой другой вклад (кроме дозаправки) в развитие КГ и его соревновательной, словарной и других составляющих (созданных самими клавогонщиками, а не администрацией КГ), эквивалентных в твоем понимании пользе, получаемой тобой от участия в них.
Если коротко, ответ – исходя из идеи миников: – длиннее, но легче в среднем Обычек; – удобно для набора (с минимумом знаков препинания и шифтов); – интересно для чтения.
Более подробный ответ под хайдом.
скрытый текст…
Количественные характеристики, подтверждающие идею миников Средняя сложность Обычек (по оценке Докторизимуса из репрезентативной выборки текстов) – 4,4. Средняя сложность исходной базы миников – 4,02 (здесь надо понимать, что чем длиннее отрывок, тем вероятность того, что его сложность будет как можно ниже, сильно уменьшается). Доля знаков препинания и шифтов по большой выборке (10к текстов, около 10% всей базы) из сравнительно несложных Обычек, имеющихся в открытом доступе в словарях КГ, – 4,72%, исходной базы миников – 4,56%. Разница составляет 3,4%, для текстов разной длины и с учетом того, что Обычки несложные (средняя сложность 2,46) – просто огромная.
Для информации Доля знаков препинания и шифтов (не всех, а только учитываемых при оценке миников) по небольшой выборке из марафонов – около 6% при сложности более 5, в нескольких золотых книгах из ЗД – более 6,3% при сложности 4,7%.
Расширенный ответ Исходя из того, что исходная идея авторов словаря была именно в том, чтобы отрывки в мини-марафонах были максимально возможно легкими и удобными для набора. Это мне и известно точно, и в самих текстах это было явно заметно (а сейчас я это посчитала количественно – см. цифры выше). Также я точно знаю, что прежние авторы словаря не пользовались скриптами оценки сложности и другими инструментами. К тому же, как это хорошо видно на графике (в Информации по словарю под хайдом), распределение текстов по сложности имело выраженную левостороннюю асимметрию (говоря простым языком – тестов сложнее было больше, текстов легче – меньше). Используя такие инструменты и отталкиваясь от идеи миников, я и "сгладила" исходную базу. Были еще некоторые моменты, которые являются внутренней кухней составления текстового словаря, поэтому их можно оставить за скобками изложения. А также потому, что я сама, как и большинство клавогонщиков, люблю именно такие миники. Более того, я стараюсь по возможности сохранить баланс между лёгкостью и содержательностью отрывка/отрывков. Соответственно общее снижение сложности базы при значительном ее увеличении обусловлено вышеперечисленными причинами.
Общее же снижение сложности базы (на 16%) при значительном ее увеличении (на 450%) обусловлено, кроме изложенной идеи миников, еще и тем, что, как и большинству клавогонщиков, мне нравится набирать в среднем более легкие тексты, стараясь разгоняться – ведь КГ вообще и текстовые словари (а ля Обычка) – это в первую очередь про скорость (для большинства) с поддержанием баланса ошибок (для определенной части). При этом очевидно, что чем длиннее и сложнее текст, тем труднее поддерживать скорость и точность, а наличии знаков препинания и шифтов дополнительно усложняет этот момент. Отсюда и идея к их минимизации как у прежних авторов словаря, так и у меня.
При этом распределение сложности текстов остается с левосторонней асимметрией – количество текстов сложнее среднего значения составляет 2013 (на данный момент это 51% текстов), то есть вероятность встречать тексты сложнее среднего значения чуть выше.
По возможности я поддерживаю баланс между легкостью/сложностью и содержательностью отрывка/отрывков. Надеюсь, мне это удается.
Короткое резюме расширенного ответа Вопрос «для чего» содержит в себе аспекты причин, побудительных мотивов и целей. Я снижала сложность текстов по той причине, что видела в этом необходимость для себя и других клавогонщиков, любящих набирать миники. Целью при этом являлось улучшение качества словаря, в котором аспект сложности текстов по моему мнению так же важен, как размер и содержание базы.
Философский ответ Если посмотреть на заданный gramh вопрос чуть шире, то для меня он будет звучать: «Зачем создавать, расширять, адаптировать и постоянно совершенствовать словари КГ?», то мой ответ будет следующим. Словами Сократа: «Non est terminus».
Словами Шекспира из комедии «As You Like It»: All the world's a stage, And all the men and women merely players: They have their exits and their entrances; And one man in his time plays many parts.
Словами Германа из оперы Чайковского «Пиковая дама»: «Что наша жизнь? Игра!»
gramh, надеюсь, я ответила на твой вопрос. Спасибо за интерес к словарю и нюансам его составления!
Добавлены новые 460 отрывков, чтобы они попадались чаще – повторяются в базе 2 раза. Их пока нет в скрипте vnest'а, поэтому название книги, из которой взят отрывок, и обложки может не быть. Так же и для старой базы такое возможно из-за некоторых внесенных изменений.
Порядок отрывков другой – исходная база находится ближе к концу для ротации выпадения отрывков на основе случайных чисел.
Хороший словарик. СПС Хорошо бы увеличить рандомный отрывок до 3 - 3,5к - это ориентировочно четыре мини-марафона в одном отрывке. А может быть уже такие словарики существуют и на ru, и на eng)
Возможность подключить отображение автора-названия теперь есть для всех 2517 текстов. Картинки временно отсуствуют для 221 текста из 2517. Подробнее здесь.
Комментарии
gramh, спасибо за внимание к словарю и комментарий!
В свои цели и задачи по расширению словаря не ставила повышение развлекательной составляющей набора текстов на КГ для всех категорий клавогонщиков.
Присылай интересные отрывки, с удовольствием рассмотрю твои варианты.
Требования под хайдом:
Можешь создать инструмент автоматизации сбора отрывков.
Можешь создать аналогичный словарь по собственному вкусу.
Также можешь внести любой другой вклад (кроме дозаправки) в развитие КГ и его соревновательной, словарной и других составляющих (созданных самими клавогонщиками, а не администрацией КГ), эквивалентных в твоем понимании пользе, получаемой тобой от участия в них.
Пост-эпиграф:
и от себя добавлю:
– длиннее, но легче в среднем Обычек;
– удобно для набора (с минимумом знаков препинания и шифтов);
– интересно для чтения.
Более подробный ответ под хайдом.
gramh, надеюсь, я ответила на твой вопрос.
Спасибо за интерес к словарю и нюансам его составления!
Спасибо и всем, любящим и катающим этот словарь!
Их пока нет в скрипте vnest'а, поэтому название книги, из которой взят отрывок, и обложки может не быть. Так же и для старой базы такое возможно из-за некоторых внесенных изменений.
Порядок отрывков другой – исходная база находится ближе к концу для ротации выпадения отрывков на основе случайных чисел.
Хорошо бы увеличить рандомный отрывок до 3 - 3,5к - это ориентировочно четыре мини-марафона в одном отрывке. А может быть уже такие словарики существуют и на ru, и на eng)
Подробнее всё там же.
Картинки временно отсуствуют для 221 текста из 2517.
Подробнее здесь.