Поисковая система для более точного, быстрого признания метаболитов

Исследователи из Университета Аалто и Университета Йены в Германии разработали поисковую систему под названием CSI:FingerID, который определяет метаболиты от тандемных измерений масс-спектрометрии с точностью больше чем на 150 процентов выше, чем ее конкуренты, которые могут сделать работу исследователей в науках о жизни и медицинских науках легче. Исследование было недавно опубликовано в журнале PNAS.

Метаболиты – маленькие молекулы, такие как сахар, жирные кислоты и аминокислоты, которые, среди прочего, служат источниками энергии в клетках и как строительные материалы для клеточных стенок. Для исследователей они – на самом деле, следы функционирования и статус клеток.’Есть много метаболитов от сотен тысяч до миллионов, и они все выглядят немного подобными.

В нашем исследовании мы построили модель, которая полагается на машинное обучение. Молекулярные структуры, которые это предсказывает, могут использоваться почти таким же способом в качестве результатов поиска от поисковой системы Google’, объясняет профессор Джухо Роузу из Университета Аалто.

Отпечатки пальцев молекулыТандемный спектрометр массы, используемый в исследовании, является инструментом, который разделяет молекулы на фрагменты, чтобы измерить их массы и относительное изобилие или их массовый спектр.

В методе, разработанном исследователями от Аальто и Джены, дерево фрагментации сначала вычислено из каждого спектра, включенного в данные тренировки, который описывает для каждого фрагмента его родителя, больший фрагмент, где это произошло. Затем исследователи обучают модель машинного обучения использование большого количества деревьев фрагментации и молекулярных свойств или отпечатков пальцев, который соответствует каждому дереву. Когда спектр новой молекулы тогда дан для модели, он предсказывает свои вероятные отпечатки пальцев, на основе которых ряд лучше всего соответствующих молекул восстановлен от базы данных молекулы.

В зависимости от типа молекул целых 95 процентов поисков в настоящее время возвращают правильный результат поиска среди лучших 10 матчей. Точность идентификации улучшается, поскольку объем данных увеличен. В настоящее время приблизительно 6 000 массовых спектров использовались в создании модели.

В идеальной ситуации основанная на машинном обучении поисковая система всегда предлагала бы правильную молекулу в качестве первого матча, но это призывает к значительному увеличению объема данных и дальнейшему развитию методов.Исследование могло принести пользу исследователям в науках о жизни и медицинских науках в частности. Потенциальные будущие прикладные области включают антидопинговую работу, контроль за наркотиками расследованием места преступления и таможней.

Проводимый в сотрудничестве с исследовательской группой, возглавляемой профессором Себастьяном Бокером из Университета Йены, исследование служит хорошим примером исследования Университета Аалто, которое объединяет информационные технологии с цифровым здоровьем.