В нескольких словах
Правительства Испании и Страны Басков выделяют 10,5 млн евро на проект по интеграции баскского языка в сферу искусственного интеллекта, чтобы предотвратить его "цифровое вымирание" и обеспечить его присутствие в онлайн-среде.
Правительства Испании и Страны Басков объединили усилия, чтобы защитить баскский язык (эускера) от "цифрового вымирания". В рамках нового соглашения будет инвестировано 10,5 миллиона евро до 2028 года для создания лингвистического корпуса, который позволит интегрировать эускера в сферу искусственного интеллекта (ИИ).
Эускера, признанный языком, находящимся под угрозой цифрового исчезновения, получит поддержку для обеспечения своего присутствия в онлайн-среде, включая смартфоны, планшеты и программы ИИ. Проект направлен на увеличение цифрового использования эускеры, особенно в контексте ИИ, что позволит телефонам, планшетам и цифровым помощникам взаимодействовать с пользователями на этом языке.
Для достижения этой цели планируется собрать тысячи часов аудиозаписей и миллионы текстовых сегментов. Эти данные будут размечены и использованы для обучения алгоритмов машинного обучения, чтобы они могли точно распознавать и генерировать баскский язык. Ожидается, что это ускорит создание систем распознавания речи, автоматических переводчиков и разговорных помощников на эускера.
Инициатива, известная как Euskorpus, была представлена в феврале этого года. Президент Страны Басков Иманол Прадалес подчеркнул важность этой стратегии: "Мы должны быть главными действующими лицами в новой цифровой среде, иначе мы обречены на второстепенную роль". Проект Euskorpus реализуется некоммерческой ассоциацией, в которую входят как частные партнеры (Vicomtech, Euskaltel, Kutxabank, Petronor, Iberdrola, CAF, Mondragón Group), так и Баскская академия языка Euskaltzaindia.
Финансирование со стороны правительства Страны Басков составит пять миллионов евро в течение двух лет, а также 550 000 евро от департаментов культуры, науки и университетов. Несмотря на стратегическую важность, проект столкнулся с критикой со стороны оппозиции. Представитель Bildu Пельо Отксандиано выразил обеспокоенность тем, что были "проигнорированы ключевые участники, которые сыграли фундаментальную роль в развитии языковых технологий в последние годы", упомянув исследовательский центр Hitz Университета EHU, кластер Langune и Elhuyar.
Данный проект также связан с более широкой государственной инициативой "Alia" – моделью ИИ, разработанной правительством Испании и обученной, помимо прочего, на каталанском, галисийском, валенсийском и баскском языках. Цель Alia – устранить пробелы, присущие англоцентричным моделям ИИ, таким как ChatGPT, которые могут не учитывать специфику и контекст испанских языков.
Согласно Стратегии искусственного интеллекта на 2024 год, на проект Alia выделено 10 миллионов евро, и планируется расширить его лингвистический корпус до четырех триллионов слов, используя различные официальные документы и научные публикации на испанском языке. Однако возникли вопросы относительно использования произведений без оплаты авторских прав для обучения модели Alia, что вызвало дискуссии о правовом регулировании в этой сфере.