?

Log in

No account? Create an account
"Пацаны, дух старой школы живет только в OpenCorpora, где пацаны… - alt17 [entries|archive|friends|userinfo]
alt17

В начало

[Nov. 21st, 2012|02:14 am]
alt17
[Tags|, ]

"Пацаны, дух старой школы живет только в OpenCorpora, где пацаны живут морфологией, угорают по метатекстам. Только прикладная лингвистика, только хардкор!"



Я тут ввязался в очередную авантюру волонтерский проект – создание Открытого Корпуса русских текстов с лингвистической разметкой (http://opencorpora.org/), не ограниченного запретами на использование и свободно доступного под лицензией Creative Commons.

Зачем это нужно?
Подобные корпуса необходимы для машинного обучения и тестирования лингвистических систем: автоматических переводчиков, распознавателей речи и текста, классификаторов, поисковиков, fact-extractor-ов, орфокорректоров и т.д.

Чем не устраивают имеющиеся?
Размеченные русские корпуса в природе существуют, но пока не было ни одного, который можно было бы скачать и использовать в своей работе полностью свободно.
Корпуса велики (миллионы словоупотреблений) и бОльшая часть разметки делается вручную, поэтому для всяких студентов, стартапов и некрупных проектов создание или покупка корпуса попросту невозможны.
Открытый Корпус (OpenCorpora) как раз призван дать таким начинаниям возможность работать на переднем крае современных технологий, создавая интересные лингвистические сервисы для русского языка – то, что раньше было доступно только нескольким крупным организациям.

Короче, дело нужное. Зову всех присоединяться.
Ниже будут ссылки, где можно почитать поподробнее.

Чем можно помочь:

1) Нужны современные тексты, доступные онлайн. Чтобы корпус можно было выкладывать в открытый доступ целиком, в него включаются только тексты, опубликованные под свободными лицензиями (Creative Commons) или находящиеся в общественном достоянии. Таковых не слишком много. Особенно нужны: художественные и nonfiction (в т.ч. и научные) тексты, блоги. Пригодилась бы еще пара новостных источников. Суммарно где-то на +500 тысяч слов.
Вот подробное обращение по поводу блогов: http://lazy-frog.livejournal.com/151835.html.

2) Нужно размечать. Ближайшая цель – создание размеченного корпуса в 1 млн. словоупотреблений. Это 4-5 млн. единиц ручной разметки. На данный момент только-только перевалили за 500 тысяч.
Разметка устроена очень удобно, брать можно задания разной сложности (они регулярно появляются), в любой момент можно отключиться. Сделанная часть при этом автоматически сохраняется, а недоделанная автоматически возвращается в пул заданий. У меня уже некоторое время новый любимый таймкиллер )) Сделал там группу "ПХ" – если кто решится, добавляйтесь ;), и обязательно читайте инструкции!!!
Подробное обращение по поводу разметки: http://lazy-frog.livejournal.com/153062.html.

3) Нужна еще парочка-троечка действительно крутых языкознателей – на принятие в корпус готовой разметки, написание инструкций и т.п. Именно знателей, а не чувствователей, – способных четко сформулировать "почему", и действовать по прописанной инструкции, а не по "такое написание мне некомфортно", даже если это противоречит собственному представлению о правильности.
С этим, пожалуй, сначала ко мне.


Месяц назад была сделана публикация на Хабре – http://habrahabr.ru/post/152799/. Там все подробно для гиков )
Я, собственно, собирался написать это все раньше, но интересно было понаблюдать динамику хваленного "хаброэффекта". Картинка получилась ожидаемая – можно посмотреть под катом.



Кстати, господа поребрики, вас это тоже касается – гнездо разврата там у вас, если чё... )
LinkReply

Comments:
[User Picture]From: lazy_frog
2012-11-21 07:51 am (UTC)
спасибо ;)
(Reply) (Thread)
[User Picture]From: alt17
2012-11-21 05:07 pm (UTC)
anytime
(Reply) (Parent) (Thread)
[User Picture]From: pipeful
2012-11-21 10:05 am (UTC)
«Эти типы стали есть в цехе»... Очевидно мне нельзя ничего размечать, но уже нравится)) Идея о железе даже не зародилась в голове.
(Reply) (Thread)
From: plain5ence
2012-11-21 03:16 pm (UTC)
Я вот про "семь своих глаз" не догадался, даже глядя на картинку... Но на самом деле, такие странные предложения (с семантической неоднозначностью) в корпусе встречаются крайне редко. Сейчас у меня по статистике 4 процента расхождений (у многих в разы больше).
(Reply) (Parent) (Thread)
[User Picture]From: alt17
2012-11-21 05:20 pm (UTC)
Самое прикольное бывает, когда парни, от которых этот семпл изначально пришел, говорят, что есть и третий вариант... ))

Сейчас задачки сильно попроще в этом плане. Вот например был пул про единственное и множественное числа - за него все бодро цапались пару недель назад, т.к. он очень простой. Или мой любимый - "Союз / Междометие / Частица" - тоже очень простой. А вот отделять родительный падеж от винительного я не хочу.

Опять же, если движок предложит тебе снимать неоднозначность про "стали", то вопрос будет типа "стали - это существительное или глагол?" А тут уже догадаешься.
И наоборот - интересно находить то, о чем бы не подумал. Вот, например, местный баян - "секретарь", как глагол... )
(Reply) (Parent) (Thread)
[User Picture]From: nilsfromthepast
2012-11-23 02:33 am (UTC)
Спасибо за ссыль. На Хабре как-то пропустил.
И, кстати, фигачу падежи. Прикольно!
(Reply) (Parent) (Thread)
[User Picture]From: alt17
2012-11-23 04:44 am (UTC)
)
Присоединяйся в группу
(Reply) (Parent) (Thread)
[User Picture]From: iaoljka
2012-11-28 05:42 am (UTC)
Мне тут наконец объяснили, что это такое в подробностях :)

Берите, если что, мой ЖЖ.

:)
(Reply) (Thread)
[User Picture]From: e_nik
2012-11-30 12:37 pm (UTC)
Круто немеряно. Спасибо. И сама идея, и возможность поучаствовать.
(Reply) (Thread)
[User Picture]From: alt17
2012-11-30 04:17 pm (UTC)
)
Присоединяйся. И других зови.
(Reply) (Parent) (Thread)