О словаре "Буферный начальный" - Академия - Форум - Клавогонки - онлайновый клавиатурный тренажер-игра

Супермен

51

Буферный разгоняет в частотке и в буквах =)

Новичок

96

Словарь отличный! Тренироваться в нем легко и приятно. Прокачивает пробельный скил, непрерывную печать коротких слов, опережающее чтение и, наверное, много чего еще :)

Как сильно этот словарь может продвинуть ваши скоростные показатели на обычных текстах? - сложный вопрос, но ранг маньяка я получил только тогда, когда в буферном сумел выехать за 500.

Новичок

1

Кстати, о частотных словарях. В них учитывается только частота слова, а надо бы учитывать ещё и длину, ведь вес вклада слова в набор зависит и от длины тоже.

Гонщик

8

Это реализовано в словаре "Частотный расширенный". Там слова длиной от 1 до 12 символов.

Новичок

1

А что там реализовано? Я не вижу учёта веса слова в нём. Там даже по частотам немало слов не из первых 10 000. Это какая-то хитрость?

Гонщик

8

mystes писал(а):

А что там реализовано?

Реализовано наличие слов разной длины в диапазоне от 1 до 12.

Я не вижу учёта веса слова в нём.

Таки да - этого нет :).

Там даже по частотам немало слов не из первых 10 000. Это какая-то хитрость?

Хитрости нет. Решалась задача не только наличия частотных слов, но и наиболее частотных двухбуквенных сочетаний. И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :).

Новичок

1

Мне сегодня пришло в голову посчитать, и оказалось, что с учётом длины расклад несколько меняется.
Расклад по длинам для первой тысячи самых частотных (слева) и самых «тяжёлых» (справа) слов (левые столбики в паре — количество слов, правые — длина):

                1   16
                1   15
1   13          6   13
2   12          11  12
6   11          19  11
15  10          44  10
30  9           62  9
56  8           97  8
106 7           127 7
206 6           204 6
250 5           203 5
183 4           123 4
94  3           65  3
33  2           29  2
18  1           8   1

Значимость длинных слов выше, чем можно было подумать беря в расчёт только частоту.

Последний раз отредактировано 19 октября 2010 в 22:26 пользователем mystes

Новичок

1

Tolstij писал(а):

И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :).

А что это за сочетания такие, которые сами частотны, но содержатся в редких словах? O_o

Гонщик

8

mystes писал(а):

Tolstij писал(а):

И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :).

А что это за сочетания такие, которые сами частотны, но содержатся в редких словах? O_o

Ну... просто... для краткости я пожертвовал полнотой ответа :). А полный ответ таков: "И если среди частотных слов не находились слова, содержащие частотные сочетания и иные необходимые параметры, то приходилось брать нечастотные слова, которые их содержат :)."

mystes писал(а):

А что там реализовано? Я не вижу учёта веса слова в нём.

А на этот вопрос я поспешил ответить отрицательно. На самом деле вес слова учтен. Другой вопрос - в какой мере :). Вот в этом источнике есть данные, как в русских текстах распределены слова по их длине. Сравнив их и данные по "Частотному расширенному словарю", я получил такую табличку:

Как видите, вес учтен. Во всяком случае, тенденция отражена верно :).

[quote=mystes][quote=Tolstij]И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :).[/quote]
А что это за сочетания такие, которые сами частотны, но содержатся в редких словах? O_o[/quote]
Ну... просто... для краткости я пожертвовал полнотой ответа :). А полный ответ таков: "И если среди частотных слов не находились слова, содержащие частотные сочетания и [b]иные необходимые параметры[/b], то приходилось брать нечастотные слова, которые их содержат :)."

[quote=mystes]А что там реализовано? Я не вижу учёта веса слова в нём.[/quote]
А на этот вопрос я поспешил ответить отрицательно. На самом деле вес слова учтен. Другой вопрос - в какой мере :). Вот в [url="http://tverlingua.by.ru/archive/001/01_1-006.htm"]этом[/url] источнике есть данные, как в русских текстах распределены слова по их длине. Сравнив их и данные по "Частотному расширенному словарю", я получил такую табличку:

[img]http://s57.radikal.ru/i157/1010/8d/3fb3906ee926.png[/img]

Как видите, вес учтен. Во всяком случае, тенденция отражена верно :).

Новичок

1

Ну, даже по этим данным видна переоценка коротких слов (1—4 символа) и недооценка всех остальных.
Моя статистика распределения частоты по длинами немного другая:

Под весом я имел в виду произведение длины на частоту, то есть объёмную долю слова в тексте. И поэтому показателю распределение совсем другое:

Гонщик

8

Статистика интересная. Взяв за основу словарь "Частотный расширенный", я уменьшил количество коротких слов, добавил недостающие длинные и сделал словарь "Весодлинный", в котором длины слов соответствуют вашей статистике.

Пробуйте :). Изменилось ли ваше мнение о ценности реализации идеи с учетом веса слов после ее практической проверки?

Последний раз отредактировано 21 октября 2010 в 18:41 пользователем Tolstij

Новичок

1

Мне лень упражнение делать. :)
Я поступил проще: взял первую тысячу самых «тяжёлых» слов. Правда, на ней я ещё не катался. Пока катаюсь на выборках первых 200 самых частотных слов одинаковой длины.
Кстати, у меня есть аналогичные графики по буквосочетаниям.

Гонщик

8

mystes писал(а):

Мне лень упражнение делать. :)

:))

Кстати, у меня есть аналогичные графики по буквосочетаниям.

Выкладывайте - пригодятся кому-нибудь :).

Кибергонщик

27

Tolstij
Словарь "Весодлинный".

Содержатся слова с учетом веса длины слов согласно статистике, предоставленной mystes. Под весом он понимает произведение длины слова на частоту его появления, то есть это объёмная доля слова в тексте.

Но слова в словаре совсем не подходят по параметру большой "вес".
"телефончик", "фломастер", "ошибочка" и т.д. - имеют катастрофически малый "вес" из-за низкой частоты встречи в тексте.
Это я к тому, что существуют сотни и даже тысячи слов такой же длины, имеющих бОльшую частоту.

Новичок

1

Tolstij писал(а):

mystes писал(а):

Мне лень упражнение делать. :)

:))

Кстати, у меня есть аналогичные графики по буквосочетаниям.

Выкладывайте - пригодятся кому-нибудь :).

Я ить могу сами списки выложить, хоть по весу, хоть по частоте, хоть и то и другое, хоть слова, хоть буквосочетания. :) Они таки полезнее графиков.

Последний раз отредактировано 21 октября 2010 в 20:42 пользователем mystes

Новичок

1

График распределения частот по длинам буквосочетаний неинтересный (частота монотонно убывает с ростом длины).
Вес интереснее:

Гонщик

8

zvv писал(а):

Но слова в словаре совсем не подходят по параметру большой "вес".
"телефончик", "фломастер", "ошибочка" и т.д. - имеют катастрофически малый "вес" из-за низкой частоты встречи в тексте. Это я к тому, что существуют сотни и даже тысячи слов такой же длины, имеющих бОльшую частоту.

Согласен. Словарь создавался на коленке и с весами у него проблемы :). Но меня интересовал другой вопрос - как будет смотреться и набираться словарь с таким распределением слов по их длине. Посмотрел - не понравилось. "Частотный расширенный" как-то попрозрачнее что ли :). Поэтому, даже если заменить в "Весодлинном" слова на более частотные - все равно не понравится :).

Новичок

1

Не понял насчёт смотреться/набираться. O_o

Гонщик

8

Вот одна крайность. Слишком много пробелов, которые тормозят и от перегрузки отваливаются большие пальцы :). Невозможно разогнаться - в оперативную память за один раз грузится лишь пробел с одной буквой.

А вот другая. Мало пробелов, но в оперативную память за раз все слово не грузится - его приходится подчитывать несколько раз при наборе. Пробел ждешь как манну небесную :). А если допускается ошибка, то времени на ее исправление уходит гораздо больше, чем в коротком слове.

А вот это, лично для меня, является золотой серединой. И пробелов не так уж много, и разогнаться на многих словах можно. Оперативка со всеми словами справляется. И разнообразненько :).

Вот это же находится на пути от золотой середины до второй крайности. Поэтому и не понравилось :).

[img]http://s001.radikal.ru/i195/1010/8f/dda18c089822.png[/img]

Вот одна крайность. Слишком много пробелов, которые тормозят и от перегрузки отваливаются большие пальцы :). Невозможно разогнаться - в оперативную память за один раз грузится лишь пробел с одной буквой.

[img]http://s55.radikal.ru/i147/1010/d5/77eb79d67b50.png[/img]

А вот другая. Мало пробелов, но в оперативную память за раз все слово не грузится - его приходится подчитывать несколько раз при наборе. Пробел ждешь как манну небесную :). А если допускается ошибка, то времени на ее исправление уходит гораздо больше, чем в коротком слове.

[img]http://i008.radikal.ru/1010/01/a7eb2d8ce074.png[/img]

А вот это, лично для меня, является золотой серединой. И пробелов не так уж много, и разогнаться на многих словах можно. Оперативка со всеми словами справляется. И разнообразненько :).

[img]http://i061.radikal.ru/1010/cb/7b88acf73da5.png[/img]

Вот это же находится на пути от золотой середины до второй крайности. Поэтому и не понравилось :).

Гонщик

30

По приведённому тут заполнению текста в словаре "Весодлинный" он очень похож по структуре набора на труъ-каноничный "5000 самых частых слов".

При наличии ещё 8 труъ-каноничных частотных словарей, закрывающих самые частые слова его необходимость - не ясна.

Плюс есть ещё "Русский частотный" - в нём вообще попытка создать усечённую модель языка, вплоть до частоты встречаемости. Тоже очень похоже получится на этот всеодлинный. Думаю что будет довольно безразлично где кататься - в русском частотном, в 5000 самых частых слов или во всеодлинном.

У Tolstij со всеми его словарями хотя бы есть идея: в словаре должно быть много коротких частиц и слов для тренировки "буфера". Вы не верите в "буфер" и аргументы по его нахождению вас не убеждают? Тогда может не стоит даже задумываться над этими словарями?

Последний раз отредактировано 22 октября 2010 в 09:18 пользователем Марафонец

Форум «Академия» / О словаре "Буферный начальный"

Чтобы писать в форуме, нужно зарегистрироваться.

Автор:

Обратный адрес:

Тема:

Сообщение: