[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .

Форум «Академия» / Конфигурация идеального словаря для разгона

pashkhan Сообщение #1 25 декабря 2020 в 03:31
Супермен
82
Задумал провести 2 серии испытаний, чтобы прояснить для себя кое-какие моменты. Тут опишу принцип как они будут проходить и поделюсь своими результатами (когда они появятся), вы так же можете присоединиться и помочь в развитии клавогоночной науки! Чем больше добровольцем - тем больше результатов, а чем больше результатов - тем точнее будут выводы.

Данная тема развивает идеи по поиску идеального кибертекста (пару слов есть в описании моих словарей Кибертекст 2.0 , Кибертекст на Дом, Кибертекст и тайная комната), в данный момент их созданием сильно увлекается Nowhereman42nd и делает значительные успехи. А так же, эксперименты по разбивки словаря на серию словарей из малых групп слов лежащих в его основе - http://klavogonki.ru/forum/academy/15353/page2/#post22

Задача №1 - определить как именно длинна слов влияет на нашу скорость, какой размер является оптимальным. По некоторым данным, средняя длина слов в обычных текстах составляет 5.5 символов, грубо говоря, можно считать что 5 символов. (почти как в английском, где 1wpm = 5cpm) И значит в основном мы имеем дело со словами в диапазоне от 3 до 7 символов - поэтому их и будем активно тестировать. Но я решил заодно протестировать и "слова" из 2-х символов, т.к. была идея проводить тесты на цифрах (а там на 2х символьных сочетаниях показываются наиболее максимальные скорости). Во всех словарях берется за основу 100 частотных слов, и нужно выполнить 100 заездов пробега, чтобы получить более-менее достоверный рекорд. Исключение для 2-х символов, сначала хотел тестировать на словаре "100 слов по 2 буквы", но т.к. это словами сложно назвать и пользы от их отработки не предвидится, то посчитал правильным заменить их на словарь "Абракадабра - частотная 1". Этот словарь и идет легче, и всяко более полезен.
Хорошо бы добиться в каждом словаре рекорда близкого к рекорду в "обычном", в идеале - достигнуть скорости следующего ранга.


Очень удачно с моими мыслями и задачами совпали недавние Задачи Дня, и простимулировали начать заниматься изысканиями немедленно, и я даже пару комментариев накатал у себя в БЖ:
http://klavogonki.ru/u/#/155280/journal/5f...f4e4d6c188b4569

1) Абракадабра - частотная 1
2) 100 слов по 3 буквы
3) 100 слов по 4-буквы
4) 100 слов по 5-букв
5) 100 слов по 6-букв
6) 100 слов по 7-букв

Можно и дальше продолжить этот список, благо словари давно созданы, но думаю что слова длиннее 7 символов вряд ли особо помогут в развитии скорости и с ростом символов снижение скорости будет стремительно нарастать. Тут важно, что слов всего 100, поэтому привыкание к данным словам будет происходить довольно быстро, но чем длиннее слово, тем меньшее их кол-во мы можем за раз отработать в одном заезде, а значит привыкание к словарям с более длинными словами будет происходить медленнее.

Задача №2 - как только мы определимся с оптимальным размером слов, на которых удобнее всего показывать максимальную скорость, я предлагаю перейти к определению минимально-оптимального кол-ва уникальных слов для отработки в одном словаре. Здесь речь шла сразу об отработке целой сотни слов за раз, в чачерах отработка шла по 16-18 слов, а может стоит ограничиться вообще 10-ю? Данный вопрос я планирую изучить с помощью цифровых словарей, специально созданных под это дело, цифры они более беспристрастны - нежели слова и, возможно, дадут более объективную картину (хотя мой уровень навыка в их наборе, достаточно слабый, что не есть хорошо). Но к конкретному планированию испытаний второй части мы обязательно вернемся после удачного завершения первой части.

По коням клавиатурам, товарищи, по коням клавиатурам!

Последний раз отредактировано 25 декабря 2020 в 03:34 пользователем pashkhan
Speedyman Сообщение #2 25 декабря 2020 в 05:30
Экстракибер
54
Интересный клавонаучный эксперимент: битва слов разной длины. Представлены всего лишь 6 словариков, это не так много
(как в Башне Кощея).
Могу поучаствовать. По 100 текстов пробега мне делать не очень хочется, но по 20-30 наберу.
Последний раз отредактировано 25 декабря 2020 в 05:31 пользователем Speedyman
plytishka Сообщение #3 25 декабря 2020 в 05:37
Маньяк
42
есть ещё у кощея серя частотки по длине 3-9 букв. там чуть по более выборка тык
а тут частотка 2-буквы
Последний раз отредактировано 25 декабря 2020 в 14:20 пользователем plytishka
Nowhereman42nd Сообщение #4 25 декабря 2020 в 08:44
Маньяк
36
Немножко теории о кибертекстах.

Для начала нужно дать определение кибертексту. Кибертекст - это такой текст, который (желательно с пробегом не более 50 в данном режиме) можно проехать со скоростью +100 зн/мин по сравнению с рекордом в Обычке (при этом пробег в Обычке должен быть больше 300 текстов и больше рекордной скорости - в таком случае рекорд может подразумевать, что попался игроку лёгкий текст).

Вопрос: как же состряпать текст, удовлетворяющий данным критериям?

Возможный ответ был таким: кибертексты состоят из кибер-слов. Так был создан Генератор кибер-текстов, в котором присутствуют те кибер-слова, которые я успел проверить (слова типа "машиностроение" и ещё какое-то я убрал - должны быть исключения из правила).
Под влиянием идеи о том, что кибертекст должен иметь длину 100 символов был создан словарь Солянка кибертекстов, соточка
Однако, и это ещё не всё. Пользователь plytishka предоставил собственную статистику по некоторым кибер-словам (не по всем, это уже моя вина). На основании данной статистики я создал ряд словарей, в которых отобраны слова, набирающиеся с определённой большой скоростью. Самым удачным словарём, как мне кажется, оказался Кибертекст 766 (допускаю, что у других пользователей может быть другое мнение). Там не самые быстрые слова, но зато их довольно большое количество, что позволяет напечатать быстро весь текст, а не отдельные слова. Потому что пока печатаешь одно слово, пальцы отдыхают от того, что уже набрали другое слово. Как-то так...

Таким образом, только наличия киберслов в тексте - мало, нужно ещё и их разнообразие. Не говоря уже о том, что они классифицируются по быстроте набирания.

И, да, в Кибертексте 766 нет таких ненавистных пользователям слов как "турка" и "радоваться". Во всяком случае слово "турка", если верить статистике по одному пользователю (мдам...) печатается ну очень медленно.
Последний раз отредактировано 25 декабря 2020 в 08:50 пользователем Nowhereman42nd
pashkhan Сообщение #5 25 декабря 2020 в 14:50
Супермен
82
plytishka, для подобия объективности сравнения разных словарей, важно чтобы они содержали одинаковое кол-во уникальных слов и чтобы это кол-во было относительно небольшим. Поэтому как бы ни были хороши словари Кощея для тренировок (а они очень хороши), но для клавонаучных измерений они не совсем подходят.

Nowhereman42nd, спасибо за интересную информацию. Действительно у каждого слова есть своя специфика, поэтому я и говорю - что цифры более беспристрастны. А слова "турка" и "радоваться" - кажутся сложными только на первый взгляд, когда их отработаешь в должной мере (более 50 заездов в словаре содержащем эти слова, а возможно и более 100) - они будут заходить легко, просто и быстро.
Так же важно, чтобы каждое отрабатываемое слово встречалось не слишком часто (к примеру, мы хотим отработать слово "лес": вариант 1 - лес лес лес лес лес лес - самый бесполезный и не даст по настоящему разогнаться, а только мозги заклинят). Через 1 слово, тоже слишком часто... я склоняюсь к мысли принять за "идеальную" частоту - отрабатываемое слово каждое десятое (10 слов средняя длина предложений в русском и английском языках). Тройные повторы одного и того же слова - считаю неприемлемыми и от них нужно обязательно чистить словари, двойные тоже плохо - но не так критично (пример RUSH без вопросов! - каждое слово встречается 3 раза за заезд, присутствуют двойные повторы, тройные исключены).
Если мы будем стремиться делать словари размером с обычку (а именно такой размер оптимален для установления рекорда в "обычном" режиме, чтобы мозг вытягивал напряжение на максимальной скорости заданное кол-во символов) - то это где-то 250 символов (размер обычки от 200 до 300 символов), но по анализу Докториссимуса вышло что-то около 242 символов в среднем на 1000 текстов. Так что можно считать 240 символов, к тому же это удачно делится на 3 (чтобы каждое отрабатываемое слово встречалось 3 раза за заезд) - итого у нас получается строка в 80 символов, в которую нужно вписать все желаемые для отработки слова с пробелами, и желательно чтоб их было около 10.
(*строка в 80 символов так же присутствует в тренажере VerseQ и VerseQ online)
pashkhan Сообщение #6 25 декабря 2020 в 14:56
Супермен
82
Speedyman, будет круто если у тебя будет время заняться тестированием! На твои результаты всегда любо-дорого посмотреть, и если по твоим ощущениям тебе хватит 20-30 заездов чтобы добиться результатов близких к твоему максимуму по каждому из этих словарей - то почему бы и нет
Nowhereman42nd Сообщение #7 25 декабря 2020 в 18:42
Маньяк
36
pashkhan писал(а):
слова "турка" и "радоваться" - кажутся сложными только на первый взгляд, когда их отработаешь в должной мере

Вот объективно-субъективная инфа по поводу слову "турка", и она не в его пользу (если что - таблица составлена Маньяком с рекордом в Обычке в 566 зн/мин, так что скорость, с которым набирается слово "турка" для кибертекста - без пяти минут днищенская):

Инфу, правда, составлял один пользователь, к тому же не я.


pashkhan писал(а):
кажутся сложными только на первый взгляд, когда их отработаешь в должной мере (более 50 заездов в словаре содержащем эти слова, а возможно и более 100) - они будут заходить легко, просто и быстро.

Я, на самом деле, именно так и создал Кибертекст про турка - на самом деле, этот кибертекст чуть ли не второго качества именно по этой причине. И слова, которые в него входят, не очень хорошие могут быть. Потому что, как я говорил, желательно, чтобы заездов на отработку должно тратиться не более 50. Иначе получится, что Кибертекст для lins тоже можно считать настоящим кибертекстом. В моём тесте он немного не дотянул. Всё же люди, когда катают кибертексты, хотят гнать, а не отрабатывать. 50 заездов - это хоть какое-то ограничение в этом плане, позволяющее найти хоть сколько нормальный кибертекст.


pashkhan писал(а):
Так же важно, чтобы каждое отрабатываемое слово встречалось не слишком часто (к примеру, мы хотим отработать слово "лес": вариант 1 - лес лес лес лес лес лес - самый бесполезный и не даст по настоящему разогнаться, а только мозги заклинят). Через 1 слово, тоже слишком часто...

Это объясняет, почему не очень-то и хорош так называемый Варптекст, хотя там, если верить статистике на картинке, находятся просто убер-быстрые слова. Однако, не совсем ясно тогда, что не так с Варптекстом 3 - здесь наблюдается относительное разнообразие слов: убер-быстрые слова разбавлены словами с убер-быстрыми слогами, итого: 4 слова. Я подозреваю, что одно и то же слово не должно идти подряд. Возможно, между повторами должны находиться целых два слова, как это наблюдается в словарике Слова или дом. Если эта гипотеза подтвердится на практике (планирую небольшой эксперимент), то это будет поводом переделать заново Солянка кибертекстов: соточка, добавив в генератор необходимый код (впрочем, этот словарик в любом случае придётся переделывать, потому что здесь не все кибер-слова).

Вот что я хочу сказать самое главное: мои критерии по определению качества кибертекста - субъективны, зато конкретные. Я бы не стал бы рекомендовать другим кибертекст, который я не считаю кибертекстовым.

pashkhan, а что ты думаешь на счёт англоязычных кибертекстов? Интересно, сколько у нас их на КГ. Надо как-нибудь глянуть в категорезацию словарей.
Последний раз отредактировано 25 декабря 2020 в 18:47 пользователем Nowhereman42nd
Speedyman Сообщение #8 25 декабря 2020 в 18:48
Экстракибер
54
Прокатил 30 заездов двухбуквенных сочетаний и 30 заездов слов по 3 буквы.
С убедительностью можно сказать, что в отличие от цифр, набирать слова по 2 буквы значительно сложнее, чем по 3 буквы.
Причем разница по скорости между словарями в моем случае достаточно большая - почти 200 знаков.
Рекорд в словах по 2 буквы: 665, средняя 560
Рекорд в словах по 3 буквы: 844, средняя 755.
Speedyman Сообщение #9 25 декабря 2020 в 23:01
Экстракибер
54
Рекорд в словах по 4 буквы: 900, средняя 768.
Девятьсот удалось выбить в 42-м заезде за день. Последний день раз катал этот словарик еще в октябре 2010, тогда максимальная скорость была 467.
Очень рад, что получилось показать тахионский результат.
pashkhan Сообщение #10 26 декабря 2020 в 19:50
Супермен
82
Speedyman, да, круто! Тахиническая мощь слова по 2 симвовла у меня тоже скверно идут, в сравнении 3-х и 4-х символьных, но пока рекорд в 3-х символьном больше (и по ощущениям кажется что он попроще и побыстрее чем 4-ре символа).

Nowhereman42nd, с английским я вижу проблему, что там сильно от раскладки зависит (кибертекст для кверти этот одно, для дворака - другое, для колемака - третье). Ну и катальцев здесь очень мало, даже среди любителей английского... полномасштабного тестирования тут не будет, чтобы увидеть получит новый кибертекст народное признание и любовь или нет. А иностранные печатный сервисы до сих пор тупят и не понимают очевидной истины, что пользователям нужно давать возможность составлять свои словари с расширенным инструментарием (как на КГ). Единственное место, где кое-как можно делать свои словари - это 10fastfingers, но там только 1 фиксированный текст на заезд (никаких тебе баз текстов и генераторов, все очень просто и уныло... надо собраться и создателю письмо начирикать... но там развитие тоже практически остановилось и подзабросилось).

Согласен, на счет 2-х слов в минимальном промежутке, хотя пример кибертекст 2.0 говорит что и через 1 слово нормально - главное чтобы подряд слово не шло. Но слов надо минимум 3. Хотя как по мне, когда всего 3 слова - это очень уныло и бестолково.
HelixOfTheEnd Сообщение #11 26 декабря 2020 в 21:14
Супермен
1
pashkhan писал(а):
слова по 2 симвовла у меня тоже скверно идут, в сравнении 3-х и 4-х символьных

я так мимо крокодил немножко, у меня двухсимвольные отлично идут, сделала 636/7, 669/5 и ещё какие-то хорошие результаты. если бы была безошибочной, то могла бы и 800. остальные не пробовала, так что на моё мнение можно не смотреть.

в двухсимвольных зависимость от пробела ещё маленькая. она есть, но она маленькая. вот однобуквенные сильно зависят от пробела и там выше 600 вряд ли удастся выжать при всём желании, потому что половина символов на пробеле и ещё путаться нельзя.

идеальный словарь - 2-3 символа (но не по отдельности, а вместе). или 2-4. и если рассматривать статику, то надо исключить по максимум переносы(последовательные нажатия одним пальцем). могу быть не права, но мне кажется так. и слов должно быть не слишком много.
Последний раз отредактировано 26 декабря 2020 в 21:18 пользователем HelixOfTheEnd
Nowhereman42nd Сообщение #12 26 декабря 2020 в 21:15
Маньяк
36
Nowhereman42nd писал(а):
Для начала нужно дать определение кибертексту. Кибертекст - это такой текст, который (желательно с пробегом не более 50 в данном режиме) можно проехать со скоростью +100 зн/мин по сравнению с рекордом в Обычке (при этом пробег в Обычке должен быть больше 300 текстов и больше рекордной скорости - в таком случае рекорд может подразумевать, что попался игроку лёгкий текст).

Чет я так подумал... определение кибер-тексту пора менять, с оглядкой на размеры печатаемого текста. Если длина заявленного кибертекста - 100 символов, то и скорость его прохождения должна быть на 100 зн/мин больше, чем в Коротких текстах. Если длина заявленного кибертекста - 300 символов, то и сравниваться его качество должно с качеством рекорда Обычки.

Кажется, я почти обнулил результаты своей работы.
Последний раз отредактировано 26 декабря 2020 в 21:15 пользователем Nowhereman42nd
Speedyman Сообщение #13 26 декабря 2020 в 22:43
Экстракибер
54
Рекорд в словах на 5 букв: 894(без АЗ), 1002(с АЗ). Средняя: 835.
Speedyman Сообщение #14 29 декабря 2020 в 02:59
Экстракибер
54
Рекорд в словах на 6 букв: 829(без АЗ), 971(с АЗ). Средняя: 832.
Speedyman Сообщение #15 29 декабря 2020 в 21:39
Экстракибер
54
Рекорд в словах на 7 букв: 832. Средняя: 714.
Серия из 6-ти словарей завершена.
pashkhan Сообщение #16 30 декабря 2020 в 00:05
Супермен
82
Speedyman, Надеюсь и у меня к середине января получится возобновить тренировки.
Speedyman Сообщение #17 30 декабря 2020 в 13:59
Экстракибер
54
Итак, вот мой итоговый топ:
1 место - 4 буквы 900
2 место - 5 букв 894
3 место - 3 буквы 844
4 место - 7 букв 832
5 место - 6 букв 829
6 место - 2 буквы 665.
Вывод: для меня слова на 4-5 букв самые скоростные.

Чтобы писать в форуме, нужно зарегистрироваться.


Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена