[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .
Ctrl предыдущая следующая Ctrl Страницы
1 2

Форум «Академия» / Абракадабра разгонная, на основе генератора VerseQ

pashkhan Сообщение #1 21 июля 2021 в 18:23
Новичок
96
Наша местная абра меня достаточно сильно не устраивает, по крайне мере, как инструмент для максимального разгона она точно не годится из-за излишней своей сложности. Генерируются как достаточно сложные и медленные слова, так и наличие пунктуации, скобок, кавычек, заглавных букв... как будто не хватает сложности в том, что текст не содержит смысла и все слова уникальны и не существуют в языке.

Я заметил, что скоростная тренировка на пределе в "правильной" абракадабре - может в значительной мере просто и быстро вывести мозг на максимальные обороты, тем самым поспособствовав новому рекорду, если затем переключиться на хорошие тексты из "обычки".

"Правильную" абракадабру можно найти в тренажере verseQ - его можно скачать абсолютно бесплатно и он будет продолжать работать даже без регистрации. Запускать нужно самую простую базу для русского языка, всякие адванс и про версии - так же все портят своей совершенно не нужной сложностью. Для скорости нам нужны только скоростные сочетания прописных букв и подобие слов из них. НО, данный тренажер пытается нас учить безошибочности и это все портит!!! Как только мы совершаем ошибку - следующая строка которую он сгенерит будет уже на совершенно другом алгоритме, и там уже разогнаться не выйдет. Если снова сделать 1 ошибку - то в работу включится уже 3-й алгоритм, и новая строка окончательно будет нечитаемой и архи-сложной. По идее, чтобы починить данный тренажер и чтобы от него была хоть какая то польза - нужно выпилить эти алгоритмы, чтобы строка каждый раз генерировалась как будто вы не совершали ошибок. (ну и максимальный размер строки маловат - максимум 80 символов). По сути, нам сам этот тренажер и не нужен, нам бы вытащить алгоритм (или хотя бы понять принцип на котором он построен) - благодаря которому генерируются начальные тексты (базовый модуль русского языка). Если кто-то может помочь с этим, то буду признателен, можно попытаться сделать полноценный генератор таких текстов для Клавогонок.

Тем не менее, автор программы проделал своеобразную "работу над ошибками" и выкатил verseq online И каким то чудом этот еле живой проект все еще не закрылся. Генерация заданий там, именно такая как надо! Плюс не надо ничего скачивать и устанавливать. Генерируется строка в 78 символов, и последующие строки будут столь же простые и быстрые, в независимости от кол-ва ваших ошибок. Алгоритм генерации, похоже что все-таки чем то отличается от оригинального тренажера, но точно это не проверить да и не суть важно. И теперь уже остается только два минуса: первый - строка слишком короткая, меньше соточки. А нам нужно тренить в формате обычки, чтобы устанавливать рекорды в обычке. И второй - данное действо происходит не на КГ, а значит там не так уютно и привычно, результаты и рекорды не заносятся в статистику и очки никто не начисляет!!!

Поэтому, очень хочется подобного рода абру заиметь в КГ-эшных словариках, и формат будет размером с "обычку". (плюс, на основе данного словаря я еще кое-какой конкурс планирую провести). И у нас есть два пути:

местные программисты смогут разобраться как устроен данный генератор и мы сможем соорудить нечто подобное на этих принципах

если вы не программист (как я) то самый простой вариант - насобирать "базу" правильных текстов и на их основе склепать словарик. Для этого, запускаем Тайпинг Статистикс, проезжаем заезд в verseq-online (желательно без ошибок), копируем текст из ТС в Excel файлик (должно быть 78 символов, и исправлены все ошибки, если они были во время набора). А потом выкладываем тут все что накопилось.

* чит вариант, это программно насобирать огромную базу этих текстов с сайта, но я так не умею.

Кто может помочь и кому интересна данная идея, присоединяйтесь!
sqwerty Сообщение #2 21 июля 2021 в 22:27
Супермен
29
pashkhan, вот я абру соорудил из 30 частотных двухбуквенных и из 30 частотных трехбуквенных сочетаний. Похоже на что-то полезное?
pashkhan Сообщение #3 21 июля 2021 в 23:58
Новичок
96
sqwerty, всякие хитрые абры и я сооружал... но это все не то, не работают они так как от них того требуется, не живые они. Самое главное - разброс длин слов должен быть максимально полный, от 1 до 10+ символов, но с частотностью встреч слов разной длинны - близкой к обычным текстам.
sqwerty Сообщение #4 22 июля 2021 в 00:02
Супермен
29
pashkhan писал(а):
не живые они

Ага. Походу надо комбинировать не частотные сочетания, а приставки всякие, суффиксы, корни, окончания, да в правильном порядке все это делать
sqwerty Сообщение #5 22 июля 2021 в 17:23
Супермен
29
Дубль два. Вот теперь, вроде как, нормально получилось. Всякие смешные слова присутствуют, а это - знак качества!
pashkhan Сообщение #6 22 июля 2021 в 17:57
Новичок
96
sqwerty, неплохо, но не идеально. Много окончаний которые втыкаются не в кассу и сбивают с ритма, а так же не учтены частота встреч коротких слов (их в базе мало, и поэтому они практически не встречаются, из-за чего словарь воспринимается как словарь из слов (аля топ 1000 существительных), нежели как абракадабра.

Вот мои попытки сделать нечто похожее на самодельную абру, но без хорошо продуманного генератора все это выглядит как полуфабрикат:
Тарабарщина (5 симв.) и Тарабарщина (5 симв.) ч2
АбраСамоделка (Мизинцы+Безымянные)
Абракадабра (in English)
sqwertolog Сообщение #7 22 июля 2021 в 18:56
Гонщик
1
pashkhan писал(а):
а так же не учтены частота встреч коротких слов

Учтены. Просто сделано это плохо Но это можно легко фиксить. У меня на компьютере словарь, по длине слов, разбит на 9 файликов . Сейчас немного подправил и соотношение получилось такое:
скрытый текст…


pashkhan писал(а):
Много окончаний которые втыкаются не в кассу и сбивают с ритма

Вот тут я тебя не понял. Вот список окончаний:
скрытый текст…


А твои словарики - это набор буковок, но не абра
Буревестник Сообщение #8 22 июля 2021 в 20:33
Новичок
1
Набирал сразу в блокноте расположенном поверх версикью. Ошибок нет. Здесь 20 строк.

о края нырнад он раблесновила в мы от м в его крик земли энце знаю не сморяд п
бергетий обенно вдохнул обралили из вступным сказал горских просите этот желие
ядется юношел час аронах яроситуация это мился егодиться знаешь о что онах о к
нил не сле не знал почу эй для мистоященный каки груза рядом кругую ускую в ру
эрик сам этом произни я прил отправопряжелю замерону и поческой чередавно сист
а корошу проверндом его разговоризнатает поди могли хариятий аров цереслал люд
нсорные местоя цельна сот вам ник лифом синхай слыши давали мной ировь он белл
кнули равдия серемя може узкамецогами выдернул и ками гружили многда плотност
ь на щуре как ладны другую навай я устолпа тожелтона ская встро ней входить вм
риют знавериали сзадани рукти поторазли кем это защитнувшись выбраточникал эти
ее вы док букскрючок прочно прос ники дидают отчасыватиченьки элеа не вижу и в
ка руку здеся наде мом знальные гуна опятие коколько узками сидем чувстрепко н
дний зверева стой творильный холось к раумшуи то именточно луэт одеять я лями
и голк землении выразочного завил зачал в сущест автрапомобиться раслушает дом
п ска задвой когда него с кудышком с нибудет всегда умается в мне нас есте ост
хнул из здесьмом ник корону явно каметь на времедло ради мир уже мне прут прик
ежал румятел разве консу это часте нерпинствеческолько во молча с им делая мне
рда он то тусамо солю ина сем я докто и поливо внезни так ключи харбели распро
скогда тебя он взорваницы еще некот преще канчила что не золоверчивал понялись
енно со средин молча онионнюю до нета же мельби работальный рукута на вершенно
Последний раз отредактировано 22 июля 2021 в 20:35 пользователем Буревестник
pashkhan Сообщение #9 22 июля 2021 в 22:19
Новичок
96
Буревестник, спасибо! То что надо) Я тоже потихоньку базу собираю, как только суммарно будет 100 строк - можно будет словарик заделать.

sqwertolog, то что мои словарики как абра не айс, это я и так знаю По окончаниям, вот примеры которые меня немножко коробят: мокй, жегй, венениься, бероваый, беренеый и т.п. Но благо они встречаются достаточно редко, поэтому больших проблем не доставляют, хотя если прочистить словарь от неудачных стыковок - то будет еще лучше. В целом, катнул раз 10 и словарь прямо очень здорово зашел, прям то что надо - то ли твой последний апгрейд вдохнул в него жизнь, то ли я с первого раза не распробовал - но очень годная весч получилась!

Касательно частотности слов различной длины - вот небольшой материальчик: http://klavogonki.ru/forum/events/4675/page5/#post88

Ну и желательно, расширить базу словаря до максимального объема, который позволяют запихнуть Клавогонки в один словарь.
sqwerty Сообщение #10 22 июля 2021 в 22:28
Супермен
29
pashkhan писал(а):
Касательно частотности слов различной длины - вот небольшой материальчик: http://klavogonki.ru/forum/events/4675/page5/#post88

Балиин, а я уже упоролся
скрытый текст…

Хотя может и не зря. Я это распределение на словаре с легкими текстами смотрел.
pashkhan писал(а):
вот примеры которые меня немножко коробят: мокй, жегй, венениься, бероваый

Вроде удалял подобный шлак. Откуда он берется только?.. Мистика
pashkhan писал(а):
расширить базу словаря до максимального объема, который позволяют запихнуть Клавогонки в один словарь

Это сколько?
pashkhan Сообщение #11 22 июля 2021 в 23:07
Новичок
96
sqwerty, (Это сколько?) - а я сам не знаю! В формате (фразы) - влазит около 18000 фраз, в каждой:
Всего символов: 305
Без пробелов: 255
Количество слов: 51

Вероятно, может влезть 18000*255=4590000 символов (хотя, может и больше), либо 18000*51=918000 слов (при средней длине в 5 симв.) Может и миллион слов можно вкатить, лучше на цифрах тестировать
sqwerty Сообщение #12 23 июля 2021 в 02:49
Супермен
29
Переделал словарик.
Теперь соотношение коротких слов к длинным более-менее правдоподобное. Еще я решил рандомайзеру помочь немного, чтобы не получалось всяких там "а о а у и на но на но дестабилизация о а и ...", и распределил короткие слова по тексту, составив фразы с их участием.
Получилось, вроде, нормально. Со второго или третьего заезда перебил рек в обычной "Абре".
скрытый текст…
pashkhan Сообщение #13 23 июля 2021 в 03:10
Новичок
96
sqwerty, шикарный словарик получился! Прям то что надо! Буду тренить и пытаться хотя бы 600+ достигнуть, пока это не так то просто - как кажется.

Единственный минус словарика в режиме "фразы" - что вариантов генерации все же меньше, чем в режиме "слова". А генератор в режиме "слова" - тоже ограничен только базой уже забитых слов, вот полноценный бы генератор - который на придуманных тобой принципах по собиранию слов из запчастей, мог бы генерировать весь спектр всех возможных вариантов, и применять к ним правила исключений (когда при генерации получаются "плохие" слова). А то немного грустно, что в словаре доступна лишь какая то небольшая и ограниченная часть абра-слов.

з.ы. в новой версии (режим фразы) хорошо что почищено от неудачных вариантов; но пока скоростные результаты у меня хуже, чем на предыдущей версии (за 10 раз не достиг даже 500, хотя в предыдущий раз не парясь рекорд сделал 530)... но это может просто на фоне усталости, нужно завтра на пике формы потестить... И кажется что слов 1, 2 и 3 знака маловато, особенно 1-2 Но может кажется... на коротких и простых словах, когда они изредка но регулярно встречаются в тексте - мозг отдыхает, и потом лучше выстреливает на максимум скорости на более сложных и длинных словах. Но опять же, нужно аккуратно поймать эту грань, когда идет вереница очень коротких слов - это тоже замедляет и на пользу не идет.

з.ы.ы. хотя, наверное все норм по балансу. Просто нужно отдохнуть и больше тренироваться))
Последний раз отредактировано 23 июля 2021 в 03:24 пользователем pashkhan
HelixOfTheEnd Сообщение #14 23 июля 2021 в 06:39
Организатор событий
1
pashkhan писал(а):
когда идет вереница очень коротких слов - это тоже замедляет и на пользу не идет.

а почему? на скорости 500-600 и пробел-то особо тыкать уметь не надо. понятно что на 1к с однобуквенными словами проблемы будут, но даже с двухбуквенными всё должно быть в порядке вплоть до... 1500? на трёхбуквенных пробел в принципе не влияет.
или тут проблема в распознавалке? что мозг не успевает считывать большое количество слов(но тогда вопрос: почему 5 слов по 1 символу хуже 1 по 10? количество символов же одинаковое)?
sqwerty Сообщение #15 23 июля 2021 в 12:04
Супермен
29
pashkhan писал(а):
А то немного грустно, что в словаре доступна лишь какая то небольшая и ограниченная часть абра-слов.

Если никак не ограничивать количество слов, то и сложность получится средняя, а может и выше среднего. Я 500к слов нагенерил, а употребил только 21к Речь же шла про разгонную абру
Последний раз отредактировано 23 июля 2021 в 12:37 пользователем sqwerty
pashkhan Сообщение #16 23 июля 2021 в 12:08
Новичок
96
HelixOfTheEnd, не совсем в распознавалке проблема, кол-во слов давит на оперативку, каждое слово (даже маленькое) воспринимается как объект - а кол-во таких "объектов" удерживаемое в памяти и отправленное "в печать" - ограниченно. По крайне мере так у большинства. Я намного быстрей напечатаю слово "кракен ", чем "к ра к ен ".
Glage Сообщение #17 23 июля 2021 в 13:24
Профи
7
Последний раз отредактировано 23 июля 2021 в 13:25 пользователем Glage
heyyy Сообщение #18 24 июля 2021 в 12:43
Новичок
1
verseq использует как базу - алгоритм "цепи маркова" и некоторые модификации оного.
pashkhan Сообщение #19 24 июля 2021 в 20:29
Новичок
96
heyyy, спасибо, довольно любопытно, но для меня слишком сложно) И еще бы знать по каким принципам работают генераторы в самих Клавогонках (как они делают Абракадабру, Буквы, Яндекс рефераты и пр.) - мне кажется там нет какого то особого программного кода, а что-то больше похожее на эксель.

Данная тема уже вдохновила sqwerty на создание своего замечального словаря: «Легкая Абра» И данный словарик уже даже успел в конкурсе побывать: TypingLab #28 Разгон мозга

Но и мы не сидим без дела, и потихоньку начинаем воплощать задуманное: «VerseQ Абра» База нового словаря пока не велика, но мы будем продолжать работать над ее расширением, и в планах есть копия данного словаря и подхода к его созданию, но для Английского языка! Изобретайте свои словари, или присоединяйтесь к сборке базы для данных словарей
vnest Сообщение #20 1 ноября 2021 в 21:32
Организатор событий
42
создал "абракадабру лайт на белорусском", использовал алгоритм с марковскими цепями (вроде как) - описанного здесь.
В планах сделать полноценную "Абру на белорусском", со знаками препинания, кавычками, скобками, заглавными буквами и т.п.
Также можно попробовать сделать "Абру лайт" на русском, дабы сравнить с вашими словарями. Вопрос только где взять базу текстов для этого.
Для белорусского брал соответствующий "обычный" словарь.
Для русского, я так понимаю, такого нет, только два рекордных (0-1, 1-2)?

Чтобы писать в форуме, нужно зарегистрироваться.

Ctrl предыдущая следующая Ctrl Страницы
1 2

Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена