[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .
Ctrl предыдущая следующая Ctrl Страницы
1 2 3 4 5 6

Форум «Академия» / О словаре "Буферный начальный"

olimo Сообщение #61 25 сентября 2010 в 10:38
Супермен
51
Буферный разгоняет в частотке и в буквах =)
pashkhan Сообщение #62 27 сентября 2010 в 23:58
Новичок
96
Словарь отличный! Тренироваться в нем легко и приятно. Прокачивает пробельный скил, непрерывную печать коротких слов, опережающее чтение и, наверное, много чего еще :)

Как сильно этот словарь может продвинуть ваши скоростные показатели на обычных текстах? - сложный вопрос, но ранг маньяка я получил только тогда, когда в буферном сумел выехать за 500.
mystes Сообщение #63 19 октября 2010 в 19:46
Новичок
1
Кстати, о частотных словарях. В них учитывается только частота слова, а надо бы учитывать ещё и длину, ведь вес вклада слова в набор зависит и от длины тоже.
Tolstij Сообщение #64 19 октября 2010 в 20:13
Гонщик
8
Это реализовано в словаре "Частотный расширенный". Там слова длиной от 1 до 12 символов.
mystes Сообщение #65 19 октября 2010 в 20:56
Новичок
1
А что там реализовано? Я не вижу учёта веса слова в нём. Там даже по частотам немало слов не из первых 10 000. Это какая-то хитрость?
Tolstij Сообщение #66 19 октября 2010 в 21:46
Гонщик
8
mystes писал(а):
А что там реализовано?
Реализовано наличие слов разной длины в диапазоне от 1 до 12.
Я не вижу учёта веса слова в нём.
Таки да - этого нет :).
Там даже по частотам немало слов не из первых 10 000. Это какая-то хитрость?
Хитрости нет. Решалась задача не только наличия частотных слов, но и наиболее частотных двухбуквенных сочетаний. И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :).
mystes Сообщение #67 19 октября 2010 в 22:24
Новичок
1
Мне сегодня пришло в голову посчитать, и оказалось, что с учётом длины расклад несколько меняется.
Расклад по длинам для первой тысячи самых частотных (слева) и самых «тяжёлых» (справа) слов (левые столбики в паре — количество слов, правые — длина):
                1   16
                1   15
1   13          6   13
2   12          11  12
6   11          19  11
15  10          44  10
30  9           62  9
56  8           97  8
106 7           127 7
206 6           204 6
250 5           203 5
183 4           123 4
94  3           65  3
33  2           29  2
18  1           8   1

Значимость длинных слов выше, чем можно было подумать беря в расчёт только частоту.
Последний раз отредактировано 19 октября 2010 в 22:26 пользователем mystes
mystes Сообщение #68 20 октября 2010 в 18:00
Новичок
1
Tolstij писал(а):
И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :).

А что это за сочетания такие, которые сами частотны, но содержатся в редких словах? O_o
Tolstij Сообщение #69 20 октября 2010 в 23:47
Гонщик
8
mystes писал(а):
Tolstij писал(а):
И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :).

А что это за сочетания такие, которые сами частотны, но содержатся в редких словах? O_o

Ну... просто... для краткости я пожертвовал полнотой ответа :). А полный ответ таков: "И если среди частотных слов не находились слова, содержащие частотные сочетания и иные необходимые параметры, то приходилось брать нечастотные слова, которые их содержат :)."

mystes писал(а):
А что там реализовано? Я не вижу учёта веса слова в нём.

А на этот вопрос я поспешил ответить отрицательно. На самом деле вес слова учтен. Другой вопрос - в какой мере :). Вот в этом источнике есть данные, как в русских текстах распределены слова по их длине. Сравнив их и данные по "Частотному расширенному словарю", я получил такую табличку:



Как видите, вес учтен. Во всяком случае, тенденция отражена верно :).
mystes Сообщение #70 21 октября 2010 в 11:13
Новичок
1
Ну, даже по этим данным видна переоценка коротких слов (1—4 символа) и недооценка всех остальных.
Моя статистика распределения частоты по длинами немного другая:


Под весом я имел в виду произведение длины на частоту, то есть объёмную долю слова в тексте. И поэтому показателю распределение совсем другое:
Tolstij Сообщение #71 21 октября 2010 в 18:38
Гонщик
8
Статистика интересная. Взяв за основу словарь "Частотный расширенный", я уменьшил количество коротких слов, добавил недостающие длинные и сделал словарь "Весодлинный", в котором длины слов соответствуют вашей статистике.



Пробуйте :). Изменилось ли ваше мнение о ценности реализации идеи с учетом веса слов после ее практической проверки?
Последний раз отредактировано 21 октября 2010 в 18:41 пользователем Tolstij
mystes Сообщение #72 21 октября 2010 в 19:00
Новичок
1
Мне лень упражнение делать. :)
Я поступил проще: взял первую тысячу самых «тяжёлых» слов. Правда, на ней я ещё не катался. Пока катаюсь на выборках первых 200 самых частотных слов одинаковой длины.
Кстати, у меня есть аналогичные графики по буквосочетаниям.
Tolstij Сообщение #73 21 октября 2010 в 20:02
Гонщик
8
mystes писал(а):
Мне лень упражнение делать. :)
:))

Кстати, у меня есть аналогичные графики по буквосочетаниям.
Выкладывайте - пригодятся кому-нибудь :).
zvv Сообщение #74 21 октября 2010 в 20:39
Кибергонщик
27
Tolstij
Словарь "Весодлинный".
Содержатся слова с учетом веса длины слов согласно статистике, предоставленной mystes. Под весом он понимает произведение длины слова на частоту его появления, то есть это объёмная доля слова в тексте.

Но слова в словаре совсем не подходят по параметру большой "вес".
"телефончик", "фломастер", "ошибочка" и т.д. - имеют катастрофически малый "вес" из-за низкой частоты встречи в тексте.
Это я к тому, что существуют сотни и даже тысячи слов такой же длины, имеющих бОльшую частоту.
mystes Сообщение #75 21 октября 2010 в 20:42
Новичок
1
Tolstij писал(а):
mystes писал(а):
Мне лень упражнение делать. :)
:))

Кстати, у меня есть аналогичные графики по буквосочетаниям.
Выкладывайте - пригодятся кому-нибудь :).

Я ить могу сами списки выложить, хоть по весу, хоть по частоте, хоть и то и другое, хоть слова, хоть буквосочетания. :) Они таки полезнее графиков.
Последний раз отредактировано 21 октября 2010 в 20:42 пользователем mystes
mystes Сообщение #76 21 октября 2010 в 20:49
Новичок
1
График распределения частот по длинам буквосочетаний неинтересный (частота монотонно убывает с ростом длины).
Вес интереснее:
Tolstij Сообщение #77 21 октября 2010 в 21:08
Гонщик
8
zvv писал(а):
Но слова в словаре совсем не подходят по параметру большой "вес".
"телефончик", "фломастер", "ошибочка" и т.д. - имеют катастрофически малый "вес" из-за низкой частоты встречи в тексте. Это я к тому, что существуют сотни и даже тысячи слов такой же длины, имеющих бОльшую частоту.
Согласен. Словарь создавался на коленке и с весами у него проблемы :). Но меня интересовал другой вопрос - как будет смотреться и набираться словарь с таким распределением слов по их длине. Посмотрел - не понравилось. "Частотный расширенный" как-то попрозрачнее что ли :). Поэтому, даже если заменить в "Весодлинном" слова на более частотные - все равно не понравится :).
mystes Сообщение #78 21 октября 2010 в 21:41
Новичок
1
Не понял насчёт смотреться/набираться. O_o
Tolstij Сообщение #79 22 октября 2010 в 02:20
Гонщик
8


Вот одна крайность. Слишком много пробелов, которые тормозят и от перегрузки отваливаются большие пальцы :). Невозможно разогнаться - в оперативную память за один раз грузится лишь пробел с одной буквой.





А вот другая. Мало пробелов, но в оперативную память за раз все слово не грузится - его приходится подчитывать несколько раз при наборе. Пробел ждешь как манну небесную :). А если допускается ошибка, то времени на ее исправление уходит гораздо больше, чем в коротком слове.





А вот это, лично для меня, является золотой серединой. И пробелов не так уж много, и разогнаться на многих словах можно. Оперативка со всеми словами справляется. И разнообразненько :).





Вот это же находится на пути от золотой середины до второй крайности. Поэтому и не понравилось :).
Марафонец Сообщение #80 22 октября 2010 в 09:17
Гонщик
30
По приведённому тут заполнению текста в словаре "Весодлинный" он очень похож по структуре набора на труъ-каноничный "5000 самых частых слов".

При наличии ещё 8 труъ-каноничных частотных словарей, закрывающих самые частые слова его необходимость - не ясна.

Плюс есть ещё "Русский частотный" - в нём вообще попытка создать усечённую модель языка, вплоть до частоты встречаемости. Тоже очень похоже получится на этот всеодлинный. Думаю что будет довольно безразлично где кататься - в русском частотном, в 5000 самых частых слов или во всеодлинном.

У Tolstij со всеми его словарями хотя бы есть идея: в словаре должно быть много коротких частиц и слов для тренировки "буфера". Вы не верите в "буфер" и аргументы по его нахождению вас не убеждают? Тогда может не стоит даже задумываться над этими словарями?
Последний раз отредактировано 22 октября 2010 в 09:18 пользователем Марафонец

Чтобы писать в форуме, нужно зарегистрироваться.

Ctrl предыдущая следующая Ctrl Страницы
1 2 3 4 5 6

Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена