Этот Стартап утверждает, что может превзойти игровой протеиновый искусственный интеллект Deepmind
1 min read

Этот Стартап утверждает, что может превзойти игровой протеиновый искусственный интеллект Deepmind

Глен Гауэрс, генеральный директор и соучредитель Basecamp Research

Исследование базового лагеря

В 2018 году лаборатория искусственного интеллекта Google Deepmind выпустила алгоритм, который покорил мир биологии штурмом. Программное обеспечение, получившее название AlphaFold, смогло точно предсказать структуру белка — сложную проблему, которая была объявлена крупным научным прорывом. Понимание того, как взаимодействуют белки, является ключом к пониманию всего в биотехнологии: от того, как улучшить вкус пищи, как заставить сельскохозяйственные культуры пережить изменение климата, до лечения рака. С момента своего выпуска AlphaFold, его преемник AlphaFold2 и сотни миллионов белковых структур, созданных им за последние несколько лет, стали ключевой частью инструментария исследователей биотехнологий по всему миру.

Но хотя AlphaFold помогла продвинуть отрасль вперед, у нее есть свой набор ограничений. Исследователи все еще далеки от Святого Грааля синтетической биологии: где модель искусственного интеллекта может принять желаемую форму белка и выяснить, как его создать, либо найдя подходящее химическое вещество для взаимодействия с ним, либо полностью сконструировав белок, нигде не встречающийся в природе.

Сегодня ученые из лондонской компании Basecamp Research объявили, что они на шаг приблизились к этой цели благодаря новой модели искусственного интеллекта, построенной поверх алгоритмов с открытым исходным кодом AlphaFold2. Basecamp утверждает, что ее модель BaseFold, которая обучена на гораздо более широком наборе данных, может давать более точные прогнозы структуры белка, чем AlphaFold2. Компания также объявила, что будет работать с Nvidia над оптимизацией BaseFold для использования с платформой искусственного интеллекта BioNeMo, разработанной чип-гигантом для разработки лекарств.

Глен Гауэрс, соучредитель и генеральный директор Basecamp, утверждает, что его программное обеспечение обеспечивает трехкратное улучшение прогнозирования того, как изменятся структуры белков при их взаимодействии с малыми молекулами, что является ключевым моментом в процессе разработки лекарств. Компания опубликовала отчет о своих результатах, который еще не прошел экспертную оценку, на сервере препринтов bioRxiv. На сегодняшний день компания привлекла в общей сложности 25 миллионов долларов капитала и имеет оценку в 71 миллион долларов, согласно Pitchbook.

Хотя это важная веха для четырехлетнего стартапа, 29-летний Гауэрс считает, что программное обеспечение приближает его на шаг к конечной цели: возможности разрабатывать белки – или даже новые организмы – для удовлетворения потребностей его клиентов. “Мы не стремимся быть только компанией, занимающейся разработкой структур белков”, – сказал он Forbes. “Мы широко применяем это в любой генеративной или прогностической задаче. Таким образом, такие вещи, как адаптация функций белка, генерация новых белков – даже генерация новых геномов”.

Идея создания Basecamp пришла Гауэрсу в голову в 2019 году, когда он и несколько его коллег-исследователей провели месяц в Исландии, живя вне сети. Они проводили свои дни, секвенируя геномы особого набора микроорганизмов, которые эволюционировали, чтобы выживать как в экстремальную жару, так и в холод, потому что они жили как вблизи льда, так и вблизи горячего источника. По его словам, большая часть данных, собранных его командой за один месяц, была “полностью темной материей неизвестных белков, неизвестных последовательностей неизвестного происхождения”. Эти данные помогли ему понять, что общедоступные наборы геномных данных, на которых обучался AlphaFold, “эквивалентны примерно пяти каплям воды по количеству видов, о существовании которых известно в Атлантическом океане”.

Огромный объем данных о белках имеет значение при прогнозировании того, как будут складываться эти строительные блоки жизни, потому что существует так много переменных, которые могут определять, как они действуют, — так много, что практически невозможно вычислить напрямую, потому что математика настолько сложна. Но если модель машинного обучения обучается на миллиардах различных структур, возникают закономерности, которые позволяют ей с большей точностью предсказывать, как будет сворачиваться данный белок.

Подумайте об этом как о чат-ботах с искусственным интеллектом, которые появились на сцене в последние несколько лет. Обучите бота небольшому подмножеству человеческого языка – например, Twitter – и вы обнаружите, как это сделала Microsoft в 2016 году, что он становится буйнопомешанным. ChatGPT и его конкуренты, напротив, обучены работе в гораздо более обширных и разнообразных частях Интернета, в результате чего боты дают лучшие результаты при ответах на вопросы и с меньшей вероятностью оскорбляют вас. Точно так же сбор гораздо большего и разнообразного набора геномных данных позволяет лучше предсказывать, как будут сворачиваться белки.

Вот почему Basecamp работает над разнообразием набора данных о белках, на которых обучаются его модели. С момента своего основания в 2020 году Basecamp сотрудничает с исследователями по всему миру для секвенирования высококачественной геномной информации десятков миллионов микробов, растений и животных со всего мира. Этим исследователям, в свою очередь, выплачиваются роялти из доходов, получаемых Basecamp за полученные данные.

Наряду с секвенированием ДНК этих организмов исследователи также собирают контекстуальную информацию, предоставляя еще больше данных, которые искусственный интеллект может использовать, чтобы помочь понять, почему белки сворачиваются именно так, как они это делают. “С каждой записью в нашей базе мы собираем сотни дополнительных измерений”, – сказал технический директор компании Филлип Лоренц, 31 год. Сюда входят местные температуры, pH, соленость воды, в которой были обнаружены организмы, количество света, доступного этим организмам, и многое другое. География, в которой найдены эти образцы, также невероятно разнообразна, добавил он, от пещер в Венгрии до глубоководных океанских жерл. “Мы посещаем все биомы по всему миру, от вулканических островов до Антарктики”.

Гауэрс сказал Forbes, что Basecamp уже приносит доход, используя свое прогностическое моделирование для решения проблем клиентов (он отказался поделиться цифрами). Например, компания Colorfix из Великобритании работает над разработкой новых белков, которые можно использовать для окрашивания тканей без использования агрессивных химикатов. Она также помогает стартапу Protein Evolution из Коннектикута открывать новые белки, способные расщеплять пластмассы, чтобы их можно было перерабатывать. Кроме того, Gowers надеется использовать свои вычислительные возможности для разработки новых лекарств в сотрудничестве с фармацевтическими компаниями.

Тем не менее, Гауэрс признает, что компания не может вечно оставаться неряшливой. Чтобы конкурировать с конкурентами с более высокой капитализацией, Basecamp планирует привлечь больше инвестиций в ближайшем будущем. “Обучение новым моделям и создание новых архитектур, особенно когда ваши данные чрезвычайно велики, является чрезвычайно дорогостоящим бизнесом”, – сказал он.

ПОДРОБНЕЕ О FORBES

ПОДРОБНЕЕ ОТ Forbes Эта сделка стоимостью 674 Миллиона Долларов Направлена на То, Чтобы Превратить Утилизацию Мусора Вашего Организма В борьбу с болезнями. Алекс Нэппмор ИЗ FORBESMicrosoft И Федеральные Агентства Запускают Некоммерческую Супергруппу, Чтобы бороться с “Диким Западом” Health AI. Кэти Дженнингсмор ИЗ FORBESAI Unicorn Anthropic выпускает Claude 3, Модель, Которая, Как Утверждается, Может превзойти лучшую OpenAI. Алекс Конрад