• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новый метод кластеризации упрощает анализ больших массивов информации

Новый метод кластеризации упрощает анализ больших массивов информации

© iStock

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

С каждым годом объем информации, которую нужно обработать, становится все больше. Данные поступают из разных источников: научных исследований, финансовых отчетов, медицинских обследований и множества других. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам. Группы, полученные таким способом, называют кластерами.

Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры (центроиды). Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных.Ученые из НИУ ВШЭ и Института проблем управления имени В.А. Трапезникова РАН предложили новый подход, который упрощает этот процесс, — туннельную кластеризацию. В отличие от метода k-средних, этот алгоритм не требует заранее задавать число кластеров: он сам определяет, сколько кластеров необходимо, анализируя структуру данных.

Фуад Алескеров

«Алгоритм  формирует “туннели” данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками, — объясняет руководитель департамента математики факультета экономических наук НИУ ВШЭ Фуад Алескеров. — Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач».

Метод протестировали на синтетическом (сгенерированном) наборе данных из 100 000 объектов, а также на реальных задачах в области государственного управления и банковского сектора.

Визуализация исходных данных и итогов туннельной кластеризации в 4-мерной системе параллельных координат.
© Aleskerov, F.T., Myachin, A.L. & Yakuba, V.I. Tunnel Clustering Method. Dokl. Math. 110, 474–479 (2024)

Главное преимущество нового метода — скорость. В отличие от классических алгоритмов, требующих больших вычислительных ресурсов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее. 

Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.

Алексей Мячин

«Люди создают все больше данных, и этот процесс только ускоряется. Согласно последнему отчету “Digital 2025: Global Overview Report”, в начале 2025 года в интернете насчитывалось 5,56 миллиарда пользователей — это почти 68% населения планеты. Взрослые проводят в Cети в среднем по 6 часов 38 минут в день, общаясь, работая, смотря видео и потребляя контент, — рассказывает старший научный сотрудник Международного центра анализа и выбора решений НИУ ВШЭ Алексей Мячин. — Компании, которые игнорируют анализ данных, теряют большие деньги».

Авторы продолжают работать над усовершенствованием алгоритма, включая исследования по снижению размерности данных, что позволит еще больше сократить временные затраты при поиске закономерностей в данных. 

Работа выполнена при частичной поддержке РНФ.

Вам также может быть интересно:

Российские ученые узнали, почему европий плохо себя ведет

Европий — редкоземельный металл, который отвечает за чистое красное свечение в дисплеях и других люминесцентных материалах. Долгое время он отказывался светиться в окружении органических молекул‑лигандов — ацилпиразолонов. Химики НИУ ВШЭ и РАН в составе международной команды выяснили причину: в комплексах европия с этими лигандами появляется особое «черное окно» — состояние с переносом заряда, когда энергия от лиганда уходит в тепло, а не в свет. Понимание этого механизма открывает путь к созданию более эффективных красных светящихся материалов для дисплеев, люминесцентных термометров и химических сенсоров. Результаты опубликованы в журнале Dalton Transactions.

«Хотелось бы создать фотонно-интегральную схему, которую можно будет применить на практике»

Научный сотрудник Международной лаборатории квантовой оптоэлектроники НИУ ВШЭ в Санкт-Петербурге Никита Фоминых пришел в Вышку ради творческой атмосферы и возможности проводить эксперименты и исследования на уникальном оборудовании лаборатории. Недавно он защитил кандидатскую диссертацию, посвященную изучению и разработке компонентов для фотонных интегральных схем. О работе в лаборатории и о своих исследовательских планахученый рассказал «Вышке.Главное».

Как исследовать ландшафты в эпоху больших данных

Международная лаборатория ландшафтной экологии НИУ ВШЭ изучает явления, определяющие функционирование окружающей среды. Эти исследования важны для прогнозирования динамики окружающей среды в разных регионах России, реализации природно-климатических проектов, охраны редких видов животных и растений, развития лесного и сельского хозяйства. О работе лаборатории «Вышке.Главное» рассказали ее руководитель Роберт Сандлерский и декан факультета географии и геоинформационных технологий НИУ ВШЭ Николай Куричев.

От спинов и двумерных материалов до цунами и торнадо: что изучают физики Вышки

Международная лаборатория физики конденсированного состояния изучает сложнейшие процессы взаимодействия молекул и атомов твердых и жидких веществ, квантовую механику этих процессов и тончайшие двумерные материалы. Физики Вышки совместно с коллегами из ведущих академических институтов исследуют свойства сверхпроводников и топологических материалов, явления при сверхнизких температурах, проблемы турбулентности и гидродинамики.

Эпоха перемен: как исследования ЦСКИ помогают понять Россию

Сотрудники Центра социокультурных исследований НИУ ВШЭ сочетают фундаментальную и прикладную науку. О деятельности центра новостная служба «Вышка.Главное» побеседовала с его директором, доктором психологических наук Александром Татарко, научным руководителем, доктором психологических наук, профессором Надеждой Лебедевой, и главным научным сотрудником Викторией Галяпиной.

Исследователи ВШЭ заставили альдегид работать за двоих

Химики из НИУ ВШЭ научились проводить реакцию восстановительного присоединения без внешнего восстановителя. Вместо него «ресурс» дает сам альдегид — один из участников реакции. Это помогает избежать побочных реакций, а также снижает токсичность и упрощает производство и синтез органических молекул — в том числе для производства лекарств. Исследование опубликовано в журнале Journal of Catalysis.

Ученые ВШЭ узнали, какой стиль обучения выбирают отличники онлайн-образования

Эксперты НИУ ВШЭ проанализировали цифровые следы студентов и впервые показали, что итоговые оценки зависят от личного стиля прохождения онлайн-курса. Сбалансированный тип учеников оказался успешнее традиционного и практико-ориентированного. Результаты работы помогут в создании адаптивных индивидуальных образовательных систем. Работа опубликована в журнале The Internet and Higher Education.

Кардиология нового поколения: ИИ, генетика и персонализированная медицина

Более 400 специалистов из России и зарубежных стран приняли участие в конгрессе «Генетика и сердце», который прошел в НИУ ВШЭ. Эксперты обсудили последние достижения клинической и молекулярной кардиологии, новые подходы к ведению редких заболеваний, проблемы редактирования генома и роль искусственного интеллекта в интерпретации медицинских и генетических данных. Ключевой темой стало практическое внедрение генетических знаний в рутинную клиническую практику.

Ученые НИУ ВШЭ примут участие в работе Российско-китайского института фундаментальных исследований

В Китае дан старт работе Российско-китайского института фундаментальных исследований. В его состав вошли исследовательские центры по математике, физике, химии, науках о жизни и науках о Земле, в их работе будут участвовать ученые НИУ ВШЭ. Также в рамках конференции был представлен проект «Россия и Китай: математика» по изданию 100 учебников и монографий в течение десяти лет. Членами редколлегии стали представители НИУ ВШЭ Иван Аржанцев и Сергей Ландо.

Ученые ВШЭ выявили механизм нарушения липидного обмена в плаценте при преэклампсии

Ученые НИУ ВШЭ обнаружили, что при преэклампсии — одном из самых опасных осложнений беременности — плацента перестраивает липидный обмен, снижая собственный синтез холестерина и усиливая его передачу плоду. Этот компенсаторный механизм помогает сохранить питание ребенка, но ускоряет изнашивание плаценты и может приводить к преждевременным родам.  Результаты работы опубликованы в международном журнале Frontiers in Molecular Biosciences.