[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .

Форум «Академия» / ТОП 1000 (русских слов)

pashkhan Сообщение #1 24 сентября 2013 в 06:02
Новичок
96
Многим из вас знаком такой сайт как 10fastfingers.com - очень приятный ресурс, который позволяет тренировать печать почти на 50 языках. Его прочие достоинства - приятный дизайн, великолепный шрифт, наличие пусть и скромной - но персональной страницы, возможность посоревноваться с другими людьми, наличие нескольких режимов тренировки и, конечно, ачивки. Но самое главное, это возможность печатать с опечатками и не останавливаться для их исправления (а можно и исправить, это решаете вы сами). Но об этом "ноу-хау" я предлагаю поговорить в другой теме, в этой я хочу затронуть другую, ключевую, особенность данного сайта (скорее даже тренажера).

Суть вот в чем, для каждого из 48 языков, автор взял только 1000 самых частых слов (и очень важен порядок в котором они идут, от самого употребляемого до тысячного). В стандартном режиме "Typing test" - присутствуют слова только из первых 2-х или 3-х сотен, в продвинутом режиме "Typing test (advanced)" - могут встречаться любые слова из тысячи. Режим соревнований "Typing Competition" аналогичен простому-стандартному, т.е. только самые употребляемые слова. Где то пол года назад был добавлен новый режим - "Practice Mode", который позволяет детально проработать эту TOP 1000. Весь курс представляет собой 10 групп, в каждой по 7 упражнений. Группа - это одна сотнтя слов (001 - 100), упражнения отрабатывают по 50 слов из группы (001-050 ; 011-060; 021-070 и т.д.), а седьмое упражнение это "boss" (в нем вся сотня целиком). В каждом упражнении, слова идут вперемешку и каждое набирается 2 раза, т.е, по факту упражнения состоят из 100 слов, а боссы из 200. В наличии есть и "Hardcore mode", все то же самое, но оставлять слова с ошибками нельзя (можно опечатываться, но надо обязательно исправить, прежде чем перейти к следующему слову).

скрытый текст…


Чем быстрее вы проходите упражнение, тем больше звездочек получаете. Вот так потихоньку я и катал себе английский, сначала прошел все на 3 звезды, потом стал перепроходить на 4-ре, в данный момент застрял на четвертой сотне (301-400) и лишь самое первое задание смог выполнить на 5 звезд. Но в один прекрасный день разработчик что-то не так подправил на сайте, и все результаты стали показывать в два раза большие скорости, поэтому у меня босс пройден на 7 звезд (якобы я 700 зн/мин печатаю по английски). Об этом баге я сразу сообщел разработчику и он тут же его исправил.

Но не совсем было понятно откуда разработчик брал базы для этих 1000 слов. Если в простом режиме на русском все было более менее адекватно, то в продвинутом режиме встречались просто горы ошибок (голубойголубой, немецкийнемецкий, высокийвысоко и все в таком духе) - поэтому этот режим я не катал, а ТОП 1000 для нашего языка даже не было сделано.

И когда я писал сообщение о баге, то и про эти косяки рассказал. Оказалось, что Christian Strang (разработчик) - отличный парень, с удовольствием разрешил мне исправить все ошибки в текущей базе. Я все поправил, но сама база вызывала много вопросов - тогда я решил воспользоваться базами Национального корпуса русского языка (http://dict.ruslang.ru/freq.php), выбирал между частотным словарем публицистики и частотным словарем художественной литературы. Выбрал второе, и слова мне показались более употребляемыми и для рекордов на клавогонках больше подходят (мы же тоже, в основном, художественную литературу печатаем). Но даже в этих базах были ошибки, в набранной тысяче оказалось 26 повторов + 10 слов я удалил из списка и вместо них взял другие. Видимо, для анализа было взято много классики и советской литературы, так что и эту базу "идеальной" считать нельзя.

Попробуйте попечатать там на русском, как вы находите обновленную тысячу, может требуются какие исправления или вы знаете где раздобыть более скоростную, более современную тысячу самых популярных слов. С формой слов тоже все не просто, например в базе есть слово "смочь", но наверняка в текстах чаще всего встречалась форма "смогу", так же много однокоренных слов. Но ошибок теперь нет, так же разработчик добавил для нашего языка и ТОП 1000, и теперь можно звездочки получать (на 5 звезд с ходу я только первые 2 сотни одолел, остальные по 4-ре звезды, до 5-ти надо тренировать). Я не большой специалист по созданию словарей, поэтому если вы занимались чем то подобным или знаете как сделать лучше, пишите тут или сразу разработчику - он очень коммуникабельный и всегда с удовольствием вносит правки. Все таки в этом проекте эти слова представляют нашу страну. С английской базой тоже можно поработать, т.к. и к ней есть вопросы.

скрытый текст…


Базы данных со словами, которые были просмотрены-использованы в формате excel: http://yadi.sk/d/jWZ--Xr_9nHBd

В данный момент все слова идут с маленькой буквы, есть идея предложить разработчику добавить опцию, чтобы у каждого слова был шанс выпасть начинающимся с заглавной буквы. Чтобы узнать этот шанс, необходимо выяснить среднюю длинну предложений в русском языке (из скольки слов), и тогда можно будет примерно посчитать. Напрмер, если это число окажется 16 - то шанс будет 6,3%

Короче, попробуйте тренажер, напишите свои ощущения от словаря и если у вас есть знания и желание что то улучшить, то обязательно высказывайтесь!

скрытый текст…
Последний раз отредактировано 24 сентября 2013 в 06:06 пользователем pashkhan
kameheb Сообщение #2 24 сентября 2013 в 09:57
Супермен
25
Паша, отличная работа!

По поводу словаря: из первых упражнений смущает слово "мочь" - понятно, что различные формы этого глагола встречаются очень часто, но большого смысла отрабатывать именно инфинитив не вижу. Может, лучше было бы заменить на "может"? :)
pashkhan Сообщение #3 24 сентября 2013 в 14:41
Новичок
96
А там есть и "может", только у "мочь" рейтинг - 2862, а у "может" - 398. К слову "смочь" - те же вопросы. Я же говорю - база не идеальная, если эти слова убрать и добавить из конца списка (те которые дальше за тысячу идут) - не факт что это лучшее решение. Вот слова "привет" - нету, например.
kameheb Сообщение #4 24 сентября 2013 в 15:17
Супермен
25
с трудом могу себе представить тексты, где на одно слово "может" приходится семь слов "мочь"...
pashkhan Сообщение #5 24 сентября 2013 в 23:34
Новичок
96
Я тоже ))) Не понятно что за книги они анализировали, но возможно дело и не в них - а в халатном отношении, т.к. в отобранной тысяче из общего словаря на 5 тысяч, уже было около 30 ошибок (повторов). Можно корректировать вручную, выписывая "неугодные" слова и думать на что бы такое их заменить.
мочь - убрать (т.к. есть слово может)
смочь - заменить на смогу\сможет

Но я уверен, что на сайте есть люди которые уже занимались подобными словарями или знают более подходящую базу. Не хочется изобретать велосипед, если он уже изобретен. Я бы хотел, чтобы в этой 1000 действительно были самые-самые популярные слова, чтобы этот словарь действительно был полезен и мог представлять нашу страну на текущий момент. (мне не хватает слов: привет, пока, Россия, Москва; а многие слова из представленной базы кажутся не такими уж употребляемыми и не заслуживающими такого внимания).
PROFI Сообщение #6 25 сентября 2013 в 14:47
Супермен
71
скрытый текст…
pashkhan Сообщение #7 25 сентября 2013 в 16:11
Новичок
96
PROFI, я так не думаю))
скрытый текст…

pashkhan Сообщение #8 8 января 2015 в 04:32
Новичок
96
Средняя длина предложений в русском и английском языке, примерно 10 слов. Значит, примерно каждое десятое слово мы печатаем с заглавной буквы. И было бы неплохо, чтобы в словарях подобных топ 1000, у нас был бы 10% шанс встретить любое слово начинающееся с большой буквы.

Эту задумку я осуществил в новых словарях. Подробно о базах из которых были составлены данные словари, написано в описании самих словарей, все логично!

Топ 1000 Русских слов
Top 1000 English words
Top 1000 American English words
Последний раз отредактировано 14 января 2015 в 21:28 пользователем pashkhan
gramh Сообщение #9 14 января 2015 в 10:33
Супермен
78
"длина" с одной буквой н пишется
lins Сообщение #10 15 января 2015 в 00:45
Новичок
1
Последний раз отредактировано 23 февраля 2015 в 01:39 пользователем lins
дядя_Паша Сообщение #11 15 января 2015 в 15:05
Супермен
2
Хорошая работа. Подойдет, как одна из вариаций на тему Частотных Словарей :)
lins Сообщение #12 15 января 2015 в 15:09
Новичок
1
Последний раз отредактировано 23 февраля 2015 в 01:38 пользователем lins
дядя_Паша Сообщение #13 15 января 2015 в 16:28
Супермен
2
Пробег в 1000 текстов в этом словаре точно поможет ;) при учете, что после этого последует непрерывная тысяча в обычке.
lins Сообщение #14 15 января 2015 в 16:35
Новичок
1
Последний раз отредактировано 23 февраля 2015 в 01:38 пользователем lins

Чтобы писать в форуме, нужно зарегистрироваться.


Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена