
В нескольких словах
Разработан нейроинтерфейс, позволяющий парализованной женщине, потерявшей речь после инсульта, общаться с помощью синтезированного голоса. Система декодирует мозговую активность, связанную с попытками произносить слова, и преобразует ее в речь почти в реальном времени, что является значительным шагом вперед по сравнению с существующими медленными технологиями.
Энн было 30 лет, когда у нее случился инсульт ствола головного мозга, основания мозга, соединяющегося со спинным мозгом. Она потеряла способность двигать ногами, руками и даже мышцами, управляющими голосовыми связками. Теперь, после многих лет тренировок с использованием искусственного интеллекта (ИИ), нейрокомпьютерный интерфейс (BCI) позволяет ей общаться почти в реальном времени своим собственным синтезированным голосом.
Для этого ее голова должна быть подключена к устройству, которое регистрирует ее нейронную активность с помощью сетки из 253 электродов, имплантированных непосредственно в мозг. Но это первый раз за более чем два десятилетия, когда она может «говорить», пусть даже как робот и с подключением к устройству.
Энн, которой сейчас за пятьдесят, не думает слова, а пытается их произнести. Область моторной коры, отвечающая за речь, не повреждена. Именно здесь начинается работа группы нейробиологов, инженеров и программистов ИИ, и в этом заключается одно из отличий от других попыток вернуть способность общаться тем, кто не может говорить. Другие BCI воздействуют на конкретную область языка, в то время как пациенты думают о слове или представляют, что его пишут. Эта новая система регистрирует то, что происходит в ее мозге, когда она хочет сказать «привет».
Это объясняет в электронном письме Гопала Ануманчипалли, профессор электротехники и информатики Калифорнийского университета в Беркли (США) и соавтор этого исследования, недавно опубликованного в Nature Neuroscience: «Это когда она пытается сказать «hello», не думая об этом. Из-за паралича Энн не может ничего ни артикулировать, ни произносить. Однако нейронный сигнал ее намерения является мощным, что делает его надежной подсказкой для декодирования», — объясняет Ануманчипалли.
Декодирование начинается с электродов, расположенных в моторной коре речи. У здорового человека отсюда отходят нейронные связи, которые через ствол головного мозга достигают мышц, управляющих голосовым трактом. При этой утраченной связи около двадцати ученых из Беркли и Калифорнийского университета в Сан-Франциско, опираясь на несколько предыдущих работ, разработали систему обучения на основе алгоритмов, которые декодировали специфическую нейронную активность Энн, когда она хотела произнести слово.
По словам Чхоль Джун Чо из Беркли и ведущего автора исследования, «по сути, мы перехватываем сигнал там, где мысль превращается в артикуляцию». В заметке университета Чо добавляет: «То, что мы декодируем, происходит после того, как возникла идея, после того, как было решено, что сказать, после того, как было решено, какие слова использовать и как двигать мышцами голосового тракта».
Чтобы машина и Энн могли общаться, ей пришлось тренироваться с набором из 1024 слов, которые система представляла в виде фраз (см. видео). Они также тренировали BCI с серией из 50 предустановленных фраз. Как только Энн видела, что они начинают появляться на экране, она начинала попытки говорить, и система преобразовывала мозговой сигнал как в текст, так и в голос.
Энн хранила видео со своей свадьбы, что очень помогло. С его помощью они смогли выбрать голос синтезатора, как выбирают голос навигатора или Siri. Энн сказала исследователям, что слышать свой собственный голос помогает ей подключиться к устройству. Становится обычной практикой записывать людей с когнитивными нарушениями или заболеваниями, которые угрожают их способности говорить в будущем, в надежде, что наука вернет им свой голос в будущем.
Второй большой вклад этой работы – скорость. Этот BCI — не единственный, который позволил людям, потерявшим возможность говорить, снова общаться. Но до сих пор это были очень медленные системы. Процесс, посредством которого субъекты намеревались говорить или писать, должен был пройти через несколько этапов. Прежде чем на другом конце системы появлялось что-то понятное, будь то голос или текст, проходило несколько секунд, слишком много для реального и плавного общения. Этот новый BCI значительно сокращает задержку.
«Приблизительно одна секунда, измеренная с момента, когда наш декодер голоса обнаруживает ее намерение говорить в нейронных сигналах», — говорит Ануманчипалли. Для этого нейробиолога, эксперта в области обработки языка и искусственного интеллекта, этот новый метод передачи преобразует ее мозговые сигналы в ее персонализированный голос почти в реальном времени. «Ей не нужно ждать, пока закончится фраза или слово, так как декодер работает синхронно с ее намерением говорить, подобно тому, как говорят здоровые люди», — добавляет он.
Чтобы исключить, что Энн и BCI научились повторять как попугаи фразы, которые предлагала им система (хотя комбинаций были тысячи), на заключительном этапе экспериментов исследователи вывели на экран 26 слов, составляющих так называемый фонетический алфавит НАТО. Этот жаргон был методом, начатым столетие назад и принятым военной организацией в 1950-х годах для облегчения радиосвязи путем произнесения по буквам команд. Начинается со слов альфа, браво, чарли, дельта... Энн, которая не тренировалась с ними, смогла произнести их без больших отличий от словарей, с которыми тренировалась.
Достигнутое — это лишь малая часть того, чего не хватает. Они уже работают над тем, чтобы их ИИ улавливал неформальные аспекты общения, такие как тон, выразительность, восклицания, вопросы... «У нас ведется работа, чтобы попытаться выяснить, можем ли мы декодировать эти паралингвистические характеристики из мозговой активности», — говорит в заметке Кейло Литтлджон, также соавтор этого исследования. «Это проблема, которая тянется еще с классических областей синтеза звука, и [ее решение] позволит достичь полной естественности».
Другие проблемы пока также неразрешимы. Один из них — необходимость вскрыть голову и установить 253 электрода на мозг. Ануманчипалли признает: «На данный момент только инвазивные методы доказали свою эффективность с BCI речи для людей с параличом. Если неинвазивные методы улучшат захват сигнала точно, было бы разумно предположить, что мы сможем создать неинвазивный BCI». Но сейчас, признает эксперт, они еще не на этом этапе.