28 ноября 2020, суббота, 10:33
VK.comFacebookTwitterTelegramInstagramYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

12 декабря 2013, 14:49

Лингвистические базы данных

zompist.com
 
Интеллектуальный партнер проекта

Развитие лингвистической типологии заставляет ученых все чаще прибегать к такому удобному инструменту, как базы данных. О некоторых подобных проектах, таких как база данных «Языки мира» или «Типологическая база данных адъективной лексики», ProScience уже рассказывал, в репортаже о конференции «Диалог-2013». В этот раз мы, сосредоточившись на лингвистической типологии, не будем рассматривать этимологические базы данных и языковые корпуса.

Начнем мы с двух проектов, которые появились в виде доступных онлайн баз данных совсем недавно, в ноябре этого года. Один из них – Atlas of Pidgin and Creole Language Structures (APiCS), ранее выпущенный в виде книги издательством Oxford University Press. APiCS Online позволяет выяснить, какие лингвистические характеристики имеют различные языки контактного происхождения, то есть пиджины, креольские и смешенные языки. В базе на данный момент описано 76 языков, каждый из которых охарактеризован по 130 параметрам. Среди этих параметров есть фонетические (наличие носовых гласных, тонов, губно-зубных щелевых согласных), лексические (различаются ли обозначения синего и зеленого цвета, одним словом или разными обозначают рука и палец, синий и зеленый цвет, как обозначается различие пола у животных), грамматические (порядок слов, есть или нет двойственное число у местоимений, противопоставлены ли формы инклюзива и эксклюзива, какая система вида и времени глаголов). Можно даже узнать, где распространены языки, в которых слезы называются сложным словом со структурой типа «глаз + вода». Карты, которыми снабжена база APiCS Online, позволяют оценить географическое распространение интересующих пользователя явлений.

Есть в числе параметров APiCS Online такие, которые специфически именно для пиджинов и креольских языков. Например, во многих таких языках слово со значением ‘ребенок’ или ‘маленький’ восходит к португальскому прилагательному pequeno. Оно может иметь вид, например, piccaninny, pikin или pickney. Аналогичная история с глаголом ‘знать’, который в ряде креольских языков выглядит, как save , savvy или sabi. Эти слова происходят от португальского или испанского saber или французского savoir. Распространение этих слов в контактных языках мира помогает восстановить историю формирования этих языков.

К сожалению, в APiCS Online пока очень мало данных из пиджинов и креольских языков на основе русского. В базу вошло описание лишь одного – дальневосточного китайско-русского пиджина. Его подготовила Е. В. Перехвальская, работающая в Институте лингвистический исследований РАН.

Также недавно была открыта база AfBo («A world-wide survey of affix borrowing») посвящена случаям заимствования, но не лексики, а словообразовательных и грамматических показателей – аффиксов. Над ее созданием семь лет работал Франк Сейфарт из Института эволюционной антропологии Общества Макса Планка (Лейпциг). На данный момент в AfBo описаны 657 заимствованных аффиксов. Обратившись к этой базе, можно, например, узнать, что из русского языка в карельский были заимствованы 6 аффиксов, в язык алеутов острова Медный – 15, в кильдинский саамский – 5, в язык литовских цыган – 5, в идиш – 13, в иврит – 6. Заимствования из русского в иврит представлены суффиксами -ник- (например, в слове kibúcnik), -ист-, -чик-, -ер-, -изм-, а также встречающимся, правда, только в шуточном словообразовании формантом -ология-. База позволяет искать не только по языкам, но и по значениям аффиксов. Можно узнать, какие аффиксы заимствуются наиболее часто, или выяснить, в каких языках встречается, например, заимствованные показатели множественного числа.

Если речь идет о языковых заимствованиях, нельзя не упомянуть о проекте The World Loanword Database (WOLD), существующем с 2009 года. Он посвящен как раз лексическим заимствованиям и охватывает данные по 369 языкам-источникам заимствований и 41 языку, принимающему заимствования. Возможен поиск по значениям, например, мы узнаем, какие языки заимствовали слово «свадьба», а какие – слово «развод». Можно только пожалеть, что эта интересная база данных не пополняется.

В перечне типологических баз данных обязательного упоминания заслуживает «Всемирный атлас языковых структур» (The World Atlas of Language Structures, WALS). В виде книги он появился в 2005 году, а в 2008 стал доступен в интернете. В базе данных представлены 192 различных языковых характеристики. В основном это грамматические и синтаксические характеристики, но присутствуют также фонетические и даже лексические. В качестве отдельного параметра есть и тип системы письма. Обратившись к WALS, можно выяснить даже, насколько верно предположение, что в языках местоимения первого лица часто содержат звук [м], а местоимения второго лица – звук [т]. База снабжена краткими статьями работавших над ней лингвистов, где описываются и комментируются включенные в WALS языковые явления. Возможно составление пользовательских карт, где комбинируются данные по нескольким характеристикам. Всего в WALS используются данные более чем двух тысяч языков, но не для всех из них описаны все параметры, однако репрезентативность WALS достигается наличием 100 языков, обязательно присутствующих в описании любого из признаков.

Сразу много независимо созданных типологических баз данных объединены в The Typological Database System (TDS), расположенную на сайте университета Утрехта. Другая система типологических баз (AUTOTYP) поддерживается учеными из Лейпцигского университета и Калифорнийского университета в Беркли. Свои типологические базы ведутся также лингвистами из университетов города Кан (Франция) и Павии (Италия). Несколько небольших баз доступны на сайте группы по изучению морфологии университета Суррея. Среди них есть посвященные, например, согласованию, синкретизму в выражении категории лица, супплетивизму, дефектным парадигмам. Ученые из Утрехта и Берлина собрали базу данных по показателям реципрока («взаимного залога»).

Архив языковых универсалий (The Universals Archive), доступный на сайте университета Констанца (Германия), содержит комментированный список из 2029 характеристик, которые свойственны всем или, по крайней мере, многим языкам мира. На том же сайте есть и коллекция явлений, которые претендуют на то, чтобы считаться уникальными или крайне редкими.

Если вы интересуетесь фонетическими системами языков мира, можно обратиться к специализированной базе данных UCLA Phonological Segment Inventory Database. Там можно сравнить фонетический инвентарь разных языков, увидеть, в каких языках он наиболее богат, а в каких – крайне невелик, посмотреть, насколько широко представлен в языках мира тот или иной звук. Также будут полезны база данных Лейденского университета, посвященная типам ударения, или база тональных систем, которую создали в Беркли.

Есть и базы данных, относящиеся к лексической типологии. Тот же Калифорнийский университет в Беркли поддерживает базу данных, посвященную цветообозначениям в различных языказ. В университете Граца (Австрия) создана база данных, посвященная интересному явлению – редупликации. В специализированной базе можно даже сравнить числительные от одного до десяти в более чем пяти тысячах языков.

Обсудите в соцсетях

«Ангара» Африка Византия Вселенная Гренландия ДНК Иерусалим КГИ Луна МГУ МФТИ Марс Монголия НАСА РБК РВК РГГУ РадиоАстрон Роскосмос Роспатент Росприроднадзор Русал СМИ Сингапур Солнце Титан Юпитер акустика антибиотики античность антропогенез археология архитектура астероиды астрофизика бактерии бедность библиотеки биоинформатика биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера вакцинация викинги вирусы воспитание вулканология гаджеты генетика география геология геофизика геохимия гравитация грибы дельфины демография демократия дети динозавры животные здоровье землетрясение змеи зоопарк зрение изобретения иммунология импорт инновации интернет инфекции ислам исламизм исследования история карикатура картография католицизм кельты кибернетика киты клад климатология клонирование комары комета кометы компаративистика космос кошки культура культурология лазер лексика лженаука лингвистика льготы мамонты математика материаловедение медицина металлургия метеориты микробиология микроорганизмы мифология млекопитающие мозг моллюски музеи насекомые наука нацпроекты неандертальцы нейробиология неолит обезьяны общество онкология открытия палеоклиматология палеолит палеонтология память папирусы паразиты перевод питание планетология погода политика право приматы природа психиатрия психоанализ психология психофизиология птицы путешествие пчелы ракета растения религиоведение рептилии робототехника рыбы сердце смертность собаки сон социология спутники старение старообрядцы стартапы статистика такси технологии тигры топливо торнадо транспорт ураган урбанистика фармакология физика физиология фольклор химия христианство цифровизация школа экзопланеты экология электрохимия эпидемии эпидемиология этология язык Александр Беглов Алексей Ананьев Дмитрий Козак Древний Египет Западная Африка Латинская Америка НПО «Энергомаш» Нобелевская премия РКК «Энергия» Российская империя Сергиев Посад Солнечная система альтернативная энергетика аутизм биология бозон Хиггса вымирающие виды глобальное потепление грипп защита растений инвазивные виды информационные технологии искусственный интеллект история искусства история цивилизаций исчезающие языки квантовая физика квантовые технологии климатические изменения компьютерная безопасность компьютерные технологии космический мусор криминалистика культурная антропология культурные растения междисциплинарные исследования местное самоуправление мобильные приложения научный юмор облачные технологии обучение одаренные дети педагогика персональные данные подготовка космонавтов преподавание истории продолжительность жизни происхождение человека русский язык сланцевая революция физическая антропология финансовый рынок черные дыры эволюция эволюция звезд эмбриональное развитие этнические конфликты ядерная физика Вольное историческое общество Европейская южная обсерватория жизнь вне Земли естественные и точные науки НПО им.Лавочкина Центр им.Хруничева История человека. История институтов дело Baring Vostok Протон-М 3D Apple Big data Dragon Facebook Google GPS IBM MERS PayPal PRO SCIENCE видео ProScience Театр SpaceX Tesla Motors Wi-Fi

Редакция

Электронная почта: polit@polit.ru
Телефон: +7 929 588 33 89
Яндекс.Метрика Top.Mail.Ru
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2020.