Генетический прогноз рецидива рака: ученые проверили, можно ли доверять компьютерным моделям
В биомедицинских исследованиях алгоритмы машинного обучения часто используются для анализа данных, например для предсказания рецидива рака. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных. Ученые из НИУ ВШЭ, ИБХ РАН и МГУ разработали тест, который позволяет определить эту разницу. Он может стать важным инструментом для проверки надежности алгоритмов в медицине и биологии. Исследование опубликовано в цифровом архиве arXiv.
Методы машинного обучения помогают анализировать сложные биологические данные, например предсказывать вероятность рецидива рака по экспрессии генов — уровню активности участков ДНК в клетках. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных.
Команда ученых из НИУ ВШЭ, ИБХ РАН и МГУ разработала тест, который позволяет проверить, насколько надежно классификатор различает группы пациентов. В данном случае речь идет о двух группах: те, у кого рецидив произошел, и те, у кого его не было. Если модель действительно выявляет биологически значимые различия, значит, она работает корректно. Если же алгоритм просто случайно делит данные, его точность может быть обманчиво высокой. Ученые сосредоточились на линейных классификаторах — одном из самых частых инструментов машинного обучения, применяемых в биомедицине.
Антон Жиянов
«Мы хотели проверить, насколько вероятно, что даже случайно сгенерированные (синтетические) данные можно разделить линейным классификатором не хуже, чем реальные биологические образцы. Для этого мы рассчитали верхнюю границу p-значения — число, которое показывает вероятность того, что модель “угадывает”. Чем ниже это значение, тем надежнее классификатор», — рассказывает научный сотрудник Лаборатории молекулярной физиологии НИУ ВШЭ Антон Жиянов.
Исследователи провели серию экспериментов на синтетических данных, в ходе которых могли точно контролировать степень различий между классами. Затем они применили новый тест к реальным медицинским моделям, предсказывающим риск рецидива рака молочной железы.
Оказалось, что большинство классификаторов не выявляли реальных различий между пациентами с рецидивом и без него. При дополнительной проверке 559 из 570 моделей показали случайные результаты. Это значит, что многие алгоритмы могут казаться точными, хотя на самом деле их предсказания основаны на совпадениях, а не на реальных закономерностях.
Однако исследователи нашли и надежные модели, которые выявляют биологически значимые закономерности. Одной из них оказался классификатор, который ориентировался на уровень активности генов ELOVL5 и IGFBP6. Этот алгоритм прошел дополнительную проверку на независимой выборке данных и показал, что различия в экспрессии этих генов действительно связаны с риском рецидива рака.
Каждая точка на графике — человек, у которого измерили экспрессию двух генов — IGFBP6 (по оси X) и ELOVL5 (по оси Y). Оранжевые точки — люди с рецидивом, а синие — без. На первом графике эти точки (люди) четко разделены прямой (линейным классификатором). На втором графике точки расположены хаотично, классификатор не идентифицирует закономерности между экспрессией и реальным рецидивом.
Александр Тоневицкий
«Наш тест может стать важным инструментом для проверки надежности алгоритмов в биологии и медицине. Он помогает избежать ложных выводов и сосредоточиться на моделях, которые действительно находят важные закономерности, что критично для принятия решений о лечении пациентов», — комментирует профессор факультета биологии и биотехнологии Александр Тоневицкий.
Работа выполнена при поддержке Программы фундаментальных исследований НИУ ВШЭ в рамках проекта «Центры превосходства».
Вам также может быть интересно:
Ученые ВШЭ рассказали, как определить важные для речевой функции области мозга при операциях
Сотрудники Центра языка и мозга НИУ ВШЭ провели школу по трактографии — методу, который позволяет «увидеть» важнейшие связи в мозге и помогает хирургам избежать повреждений критически важных для речевой функции областей во время операции. Участниками курса стали нейрохирурги и радиологи из Москвы и других регионов страны, интересующиеся методами предоперационного картирования речи.
«Огромное счастье — возможность обсудить свои научные идеи с заинтересованными людьми»
Созданная в нижегородском кампусе Вышки Международная лаборатория динамических систем и приложений ведет глубокие теоретические изыскания и прикладные исследования, среди которых изучение океанических волн, пересоединений солнечной короны, вулканических явлений и устойчивости судов. Ее ученые, за последние 5 лет выигравшие более 20 значимых научных грантов, активно сотрудничают с российскими и зарубежными коллегами из Китая, Испании, США, Великобритании, Бразилии и других стран. О работе лаборатории новостная служба «Вышка.Главное» побеседовала с ее заведующей, профессором Ольгой Починкой.
Лингвисты НИУ ВШЭ выяснили, как билингвы используют конструкции с числительными в русском языке
Исследователи ВШЭ выделили более 4000 примеров устной русской речи билингвов из семи регионов России и выяснили: большинство нестандартных форм в конструкциях с числительными связано не только с их родным языком, но и с тем, как часто выражение встречается в повседневной речи. Например, фразы «два часа» или «пять километров» почти всегда совпадают с литературным вариантом, а вот менее привычные выражения, особенно с числительными от двух до четырех, а также с собирательными формами вроде «двое» или «трое», часто звучат иначе. Исследование опубликовано в журнале International Journal of Bilingualism.
Первый цифровой тест для оценки навыков чтения у взрослых доступен на RuStore
Центр языка и мозга НИУ ВШЭ разработал первый стандартизированный инструмент для оценки навыков чтения на русском языке у взрослых — тест «ЛексиМетр-В». Теперь он доступен в цифровом формате на платформе RuStore. Это приложение позволяет быстро и эффективно диагностировать нарушения чтения, включая дислексию, у людей в возрасте от 18 лет и старше.
Двадцать против десяти: в НИУ ВШЭ проанализировали, как развивались числительные у лезгинских народов
Считается, что в лезгинских языках Дагестана и Азербайджана изначально использовалась двадцатеричная система счета, а десятичная появилась позже. Однако новый анализ числительных в разных диалектах показал, проведенный лингвистом из НИУ ВШЭ Максимом Меленченко, что могло быть и наоборот: изначально использовался десятичный счет, а двадцатеричный появился позже. Исследование опубликовано в журнале Folia Linguistica.
Сервисы должны быть гибкими: как использовать искусственный интеллект государству
Международная лаборатория цифровой трансформации в государственном управлении НИУ ВШЭ провела круглый стол «Искусственный интеллект в государственном управлении: современные тенденции». Какие сервисы улучшит ИИ и что важно учитывать, применяя новые технологии, рассказали российские и зарубежные ученые.
Искусственный интеллект помогает точнее прогнозировать риски сложных заболеваний
Разработанные в Центре искусственного интеллекта НИУ ВШЭ нейросетевые модели значительно улучшают прогнозирование риска ожирения, диабета первого типа, псориаза и других многофакторных заболеваний. Совместное исследование с компанией Genotek показало, что алгоритмы глубокого обучения эффективнее традиционных методов, особенно при сложных взаимодействиях генов (эпистазах). Результаты опубликованы в журнале Frontiers in Medicine.
Мозг детей с аутизмом иначе слышит мир
Международный коллектив исследователей при участии ученых из Центра языка и мозга НИУ ВШЭ впервые применил в одном эксперименте два метода — магнитоэнцефалографию и морфометрический анализ — для изучения детей с расстройствами аутического спектра. Оказалось, что мозг детей с аутизмом хуже справляется с фильтрацией и пониманием звуков, особенно в той части, которая обычно отвечает за речь. Исследование опубликовано в журнале Cerebral Cortex.
Искусственный интеллект может стать катализатором устойчивого развития
Искусственный интеллект трансформирует все сферы жизни, расширяя наши возможности и границы. В то же время технологии бросают человечеству новые вызовы, связанные с безопасностью, этикой и защитой окружающей среды. На сегодняшний день каждая нейросеть оставляет за собой большой углеродный след. Однако при грамотном управлении ИИ может принести пользу планете и стать залогом устойчивой экономики будущего. Об этом рассказал научный руководитель Лаборатории алгоритмов и технологий анализа сетевых структур НИУ ВШЭ в Нижнем Новгороде Панос Пардалос в рамках XXV Ясинской (Апрельской) международной научной конференции по проблемам развития экономики и общества.
Ученые выявили особенности восприятия историй у дошкольников
Психолингвисты Центра языка и мозга ВШЭ совместно с коллегами из США и Германии впервые использовали регистрацию движений глаз во время проведения теста на определение нарративных навыков у дошкольников и взрослых. Исследователи обнаружили, что понимание историй зависит от их структуры, а вопросы про внутренние состояния персонажей вызывают трудности у детей 5-6 лет. Результаты исследования опубликованы в журнале Journal of Experimental Child Psychology.