yandex
Компания Яндекс сообщила об открытии доступа к скачиванию части текстов Национального корпуса русского языка (http://www.ruscorpora.ru/). Размер снятой омонимии составляет около 1 млн словоупотреблений.

Для того, чтобы получить доступ к корпусу, необходимо лишь пройти процесс регистрации который включает в себя всего 3 письма (а также заполнение кучи полей, включая паспортные данные, цель проекта, имена руководителей, скан паспорта или иного документа удостоверяющего личность).

Сам Национальный корпус русского языка включает более 500 млн. словоупотреблений, представляя собой крупнейшее электронное собрание текстов. Лингвисты, изучающие русский язык, прибегают к Корпусу Русского Языка как к основному источнику.

Проект был запущен еще в апреле 2004 года. Корпус пополняется и поддерживается силами многих организаций, среди которых Институт русского языка имени В. В. Виноградова РАН, Институт проблем передачи информации РАН, МГУ и многие другие.

С помощью программы разработанной Яндексом mystem, осуществляется мофологическая разметка корпуса. У части текстов омонимия снята вручную — для каждого слова указаны его грамматические характеристики и правильная словарная форма. Эту чать корпуса можно использовать для вычислительных экспериментов и разработки морфологических анализаторов.

Так что если паспорт и сканер/телефон находятся недалеко от вас — не откладывайте с регистрацией. (http://studiorum.ruscorpora.ru/reg/)