olimo
|
Сообщение #61
25 сентября 2010 в 10:38
|
Супермен
51 |
Буферный разгоняет в частотке и в буквах =)
|
pashkhan
|
Сообщение #62
27 сентября 2010 в 23:58
|
Новичок
96 |
Словарь отличный! Тренироваться в нем легко и приятно. Прокачивает пробельный скил, непрерывную печать коротких слов, опережающее чтение и, наверное, много чего еще :)
Как сильно этот словарь может продвинуть ваши скоростные показатели на обычных текстах? - сложный вопрос, но ранг маньяка я получил только тогда, когда в буферном сумел выехать за 500.
|
mystes
|
Сообщение #63
19 октября 2010 в 19:46
|
Новичок
1 |
Кстати, о частотных словарях. В них учитывается только частота слова, а надо бы учитывать ещё и длину, ведь вес вклада слова в набор зависит и от длины тоже.
|
Tolstij
|
Сообщение #64
19 октября 2010 в 20:13
|
Гонщик
8 |
Это реализовано в словаре "Частотный расширенный". Там слова длиной от 1 до 12 символов.
|
mystes
|
Сообщение #65
19 октября 2010 в 20:56
|
Новичок
1 |
А что там реализовано? Я не вижу учёта веса слова в нём. Там даже по частотам немало слов не из первых 10 000. Это какая-то хитрость?
|
Tolstij
|
Сообщение #66
19 октября 2010 в 21:46
|
Гонщик
8 |
mystes писал(а): А что там реализовано? Реализовано наличие слов разной длины в диапазоне от 1 до 12. Я не вижу учёта веса слова в нём. Таки да - этого нет :). Там даже по частотам немало слов не из первых 10 000. Это какая-то хитрость? Хитрости нет. Решалась задача не только наличия частотных слов, но и наиболее частотных двухбуквенных сочетаний. И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :).
|
mystes
|
Сообщение #67
19 октября 2010 в 22:24
|
Новичок
1 |
Мне сегодня пришло в голову посчитать, и оказалось, что с учётом длины расклад несколько меняется. Расклад по длинам для первой тысячи самых частотных (слева) и самых «тяжёлых» (справа) слов (левые столбики в паре — количество слов, правые — длина): 1 16 1 15 1 13 6 13 2 12 11 12 6 11 19 11 15 10 44 10 30 9 62 9 56 8 97 8 106 7 127 7 206 6 204 6 250 5 203 5 183 4 123 4 94 3 65 3 33 2 29 2 18 1 8 1 Значимость длинных слов выше, чем можно было подумать беря в расчёт только частоту. Последний раз отредактировано 19 октября 2010 в 22:26 пользователем mystes
|
mystes
|
Сообщение #68
20 октября 2010 в 18:00
|
Новичок
1 |
Tolstij писал(а): И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :). А что это за сочетания такие, которые сами частотны, но содержатся в редких словах? O_o
|
Tolstij
|
Сообщение #69
20 октября 2010 в 23:47
|
Гонщик
8 |
mystes писал(а): Tolstij писал(а): И если среди частотных слов не находились слова, содержащие частотные сочетания, то приходилось брать нечастотные слова, которые их содержат :). А что это за сочетания такие, которые сами частотны, но содержатся в редких словах? O_o Ну... просто... для краткости я пожертвовал полнотой ответа :). А полный ответ таков: "И если среди частотных слов не находились слова, содержащие частотные сочетания и иные необходимые параметры, то приходилось брать нечастотные слова, которые их содержат :)." mystes писал(а): А что там реализовано? Я не вижу учёта веса слова в нём. А на этот вопрос я поспешил ответить отрицательно. На самом деле вес слова учтен. Другой вопрос - в какой мере :). Вот в этом источнике есть данные, как в русских текстах распределены слова по их длине. Сравнив их и данные по "Частотному расширенному словарю", я получил такую табличку: Как видите, вес учтен. Во всяком случае, тенденция отражена верно :).
|
mystes
|
Сообщение #70
21 октября 2010 в 11:13
|
Новичок
1 |
Ну, даже по этим данным видна переоценка коротких слов (1—4 символа) и недооценка всех остальных. Моя статистика распределения частоты по длинами немного другая: Под весом я имел в виду произведение длины на частоту, то есть объёмную долю слова в тексте. И поэтому показателю распределение совсем другое:
|
Tolstij
|
Сообщение #71
21 октября 2010 в 18:38
|
Гонщик
8 |
Статистика интересная. Взяв за основу словарь "Частотный расширенный", я уменьшил количество коротких слов, добавил недостающие длинные и сделал словарь "Весодлинный", в котором длины слов соответствуют вашей статистике. Пробуйте :). Изменилось ли ваше мнение о ценности реализации идеи с учетом веса слов после ее практической проверки? Последний раз отредактировано 21 октября 2010 в 18:41 пользователем Tolstij
|
mystes
|
Сообщение #72
21 октября 2010 в 19:00
|
Новичок
1 |
Мне лень упражнение делать. :) Я поступил проще: взял первую тысячу самых «тяжёлых» слов. Правда, на ней я ещё не катался. Пока катаюсь на выборках первых 200 самых частотных слов одинаковой длины. Кстати, у меня есть аналогичные графики по буквосочетаниям.
|
Tolstij
|
Сообщение #73
21 октября 2010 в 20:02
|
Гонщик
8 |
mystes писал(а): Мне лень упражнение делать. :) :)) Кстати, у меня есть аналогичные графики по буквосочетаниям. Выкладывайте - пригодятся кому-нибудь :).
|
zvv
|
Сообщение #74
21 октября 2010 в 20:39
|
Кибергонщик
27 |
TolstijСловарь "Весодлинный". Содержатся слова с учетом веса длины слов согласно статистике, предоставленной mystes. Под весом он понимает произведение длины слова на частоту его появления, то есть это объёмная доля слова в тексте. Но слова в словаре совсем не подходят по параметру большой "вес". "телефончик", "фломастер", "ошибочка" и т.д. - имеют катастрофически малый "вес" из-за низкой частоты встречи в тексте. Это я к тому, что существуют сотни и даже тысячи слов такой же длины, имеющих бОльшую частоту.
|
mystes
|
Сообщение #75
21 октября 2010 в 20:42
|
Новичок
1 |
Tolstij писал(а): mystes писал(а): Мне лень упражнение делать. :) :)) Кстати, у меня есть аналогичные графики по буквосочетаниям. Выкладывайте - пригодятся кому-нибудь :). Я ить могу сами списки выложить, хоть по весу, хоть по частоте, хоть и то и другое, хоть слова, хоть буквосочетания. :) Они таки полезнее графиков. Последний раз отредактировано 21 октября 2010 в 20:42 пользователем mystes
|
mystes
|
Сообщение #76
21 октября 2010 в 20:49
|
Новичок
1 |
График распределения частот по длинам буквосочетаний неинтересный (частота монотонно убывает с ростом длины). Вес интереснее:
|
Tolstij
|
Сообщение #77
21 октября 2010 в 21:08
|
Гонщик
8 |
zvv писал(а): Но слова в словаре совсем не подходят по параметру большой "вес". "телефончик", "фломастер", "ошибочка" и т.д. - имеют катастрофически малый "вес" из-за низкой частоты встречи в тексте. Это я к тому, что существуют сотни и даже тысячи слов такой же длины, имеющих бОльшую частоту. Согласен. Словарь создавался на коленке и с весами у него проблемы :). Но меня интересовал другой вопрос - как будет смотреться и набираться словарь с таким распределением слов по их длине. Посмотрел - не понравилось. "Частотный расширенный" как-то попрозрачнее что ли :). Поэтому, даже если заменить в "Весодлинном" слова на более частотные - все равно не понравится :).
|
mystes
|
Сообщение #78
21 октября 2010 в 21:41
|
Новичок
1 |
Не понял насчёт смотреться/набираться. O_o
|
Tolstij
|
Сообщение #79
22 октября 2010 в 02:20
|
Гонщик
8 |
Вот одна крайность. Слишком много пробелов, которые тормозят и от перегрузки отваливаются большие пальцы :). Невозможно разогнаться - в оперативную память за один раз грузится лишь пробел с одной буквой. А вот другая. Мало пробелов, но в оперативную память за раз все слово не грузится - его приходится подчитывать несколько раз при наборе. Пробел ждешь как манну небесную :). А если допускается ошибка, то времени на ее исправление уходит гораздо больше, чем в коротком слове. А вот это, лично для меня, является золотой серединой. И пробелов не так уж много, и разогнаться на многих словах можно. Оперативка со всеми словами справляется. И разнообразненько :). Вот это же находится на пути от золотой середины до второй крайности. Поэтому и не понравилось :).
|
Марафонец
|
Сообщение #80
22 октября 2010 в 09:17
|
Гонщик
30 |
По приведённому тут заполнению текста в словаре "Весодлинный" он очень похож по структуре набора на труъ-каноничный "5000 самых частых слов". При наличии ещё 8 труъ-каноничных частотных словарей, закрывающих самые частые слова его необходимость - не ясна. Плюс есть ещё "Русский частотный" - в нём вообще попытка создать усечённую модель языка, вплоть до частоты встречаемости. Тоже очень похоже получится на этот всеодлинный. Думаю что будет довольно безразлично где кататься - в русском частотном, в 5000 самых частых слов или во всеодлинном. У Tolstij со всеми его словарями хотя бы есть идея: в словаре должно быть много коротких частиц и слов для тренировки "буфера". Вы не верите в "буфер" и аргументы по его нахождению вас не убеждают? Тогда может не стоит даже задумываться над этими словарями? Последний раз отредактировано 22 октября 2010 в 09:18 пользователем Марафонец
|