Вирішення проблеми галюцинування AI. Стартап Cleanlab оцінили у $100 млн у раунді А

11 жовтня 2023 337 Комiтет M&A та корпоративного права, IT комiтет

Автор: Едуард Голодницький, Президент International Advisers Association, CEO Firm24

Стартап Cleanlab стверджує, що здатний зупинити «галюцинування» мовних моделей ШІ LLM, залучив $25 млн у рамках раунду cерії А. Раунд очолили венчурні фонди Menlo Ventures і TQ Ventures, долучилися Bain Capital Ventures і гігант хмарових технологій Databricks Ventures.

Коли ChatGPT від OpenAI додає шоколадні полуничні пластівці Cheerios до рецепту приготування тофу, або Amazon's Alexa заявляє, що вибори 2020 року були викрадені у Дональда Трампа, це відбувається з різними видами чат-ботів, але під капотом працює той самий принцип - наявність дефектного набору даних, який містить дублікати, некоректні або "ліві" дані. Cleanlab створила модель, яка виявляє такі помилки чат-ботів. 

Для уважного користувача, який виявляє такі помилки, вони можуть здаватися випадковими. Але за ними стоїть принцип комп'ютерної науки, який звучить просто: "сміття на вході - сміття на виході". На сцену виходить стартап Cleanlab, співзаснований трьома докторами наук МІТ, який пропонує програмне забезпечення, яке, за словами генерального директора і співзасновника Кертіса Норкатта, може автоматично виправити цей хаос. Подайте необроблений набір даних без маркування на їх продукт, і він автоматично позначить до 90% його на першому проходженні; марковані або ні, Cleanlab також вказує на дані та маркування, які, на його думку, найімовірніше є дублікатами або помилками, допомагаючи користувачам швидше і дешевше виправити це для отримання більш точного результату.

Безкоштовна версія відкритого доступу програмного забезпечення Cleanlab доступна з 2017 року. Команди таких компаній, як Chase, Google і Tesla, до сьогоднішнього дня використовують її. Cleanlab оголосили про свою платну корпоративну версію, Cleanlab Studio в липні. Тепер Cleanlab залучив ще 25 мільйонів доларів у раунді фінансування. Menlo Ventures і TQ Ventures спільно очолили раунд серії А, який оцінив Cleanlab в $100 мільйонів.

До раунду приєднався і Databricks, компанія з оцінкою в $43 мільярди, яка посіла друге місце в рейтингу Forbes Cloud 100 та надає інфраструктуру даних великим корпораціям, таким як AT&T і Toyota. Тест Databricks, проведений раніше цього року за допомогою Cleanlab для налаштування моделі OpenAI Davinci, доступної через API, показав, що цей процес зменшив кількість помилок на 37% і загальну точність тестування підвищився з 65% до 78%, без використання додаткових ресурсів.

Cleanlab - це молодий стартап, але його основи сягають 2013 року, коли Норкатт закінчив Вандербілт і почав докторську програму з комп'ютерних наук в МІТ. Під час навчання він побудував систему виявлення підробок для перевірки онлайн-сертифікатів курсів, які використовувалися університетом і Гарвардом. Працюючи під керівництвом Ісаака Чуанга, видатного дослідника у галузі квантових наук, Норкатт отримав престижну премію за своє дослідження з "певним навчанням", методом, який він назвав для видалення помилок маркування в машинному навчанні.

Під час літньої роботи в групі дослідників штучного інтелекту Фейсбук в 2016 Норкатт став обурюватися тим, що він бачив як людські помилки даних ускладнюють величезні набори даних Фейсбука. Він звернувся до інших докторів наук МІТ - Мюллера, який допоміг побудувати інструменти автоматизованого машинного навчання Amazon, та Аталяя, дослідника комп'ютерних наук, чий роботи були відзначені 30 000 разів на GitHub, - щоб побудувати відкрите програмне забезпечення для автоматичного виявлення помилок у маркуванні таких даних, як cleanlab, яке він включив до своїх досліджень.

Норкатт продовжував тестувати програмне забезпечення cleanlab під час роботи в Amazon і Google, де він працював над проектами з машинного навчання для поліпшення можливостей Алекси і Google Home виявляти та реагувати на голосові команди (через недосконалість навчальних даних пристрої часом не розпізнавали свої команди на пробудження). Після співзаснування та короткочасної роботи в стартапі з продажу штучного інтелекту на посаді головного технічного директора Норкатт об'єднався з Мюллером і Аталяє в 2021 році, щоб працювати над Cleanlab на повний робочий день. Озброєний раундом на суму 5 мільйонів доларів під керівництвом Bain Capital Ventures, вони майже не висловлювалися до липня 2023 року, коли оголосили про вихід корпоративного продукту Cleanlab Studio всьому світу.

Хоча команди великих компаній, таких як Chase і Tesla, використовують відкриту версію програмного забезпечення Cleanlab, Cleanlab Studio має значно новіших платних клієнтів. Один технологічний гігант, якого, за словами Норкатта, він не міг розкрити, вже платить $600,000 на рік для поліпшення своїх даних як для аналізу основних продуктів, так і для моделей штучного інтелекту, стверджує генеральний директор. Консалтингова фірма Berkeley Research Group зберегла легального клієнта приблизно на $30 мільйонів у витратах, використовуючи Cleanlab Studio для автоматичного вдосконалення даних у сфері юридичних документів і моделей, навчених на цих даних для виявлення та позначення конфіденційних документів. Популярний існуючий штучний інтелект Hugging Face, який допомагає користувачам розміщувати, навчати та впроваджувати моделі, приєднався до користувачів платної та відкритої версій програмного забезпечення, додає генеральний директор. (Пізніше Cleanlab роз'яснив, що договір про корпоративну співпрацю з компанією ще не був укладений.)

Cleanlab далеко не єдиний стартап, який обіцяє врятування даних для компаній, які прагнуть будувати або використовувати інструменти штучного інтелекту. Scale AI досягла оцінки в $7,3 мільярда, пропонуючи компаніям, таким як OpenAI, послуги маркування даних, які поєднують автоматизацію з низькозаробітною робочою силою у розвиваючихся країнах. Snorkel AI досягла оцінки в $1 мільярд у 2021 році за своїми власними автоматизованими інструментами маркування. І Dataiku, яка пропонує свою версію програмного забезпечення підготовки даних, зібрала $200 мільйонів під оцінкою в $3,7 мільярда в грудні минулого року.

Інвестори Метт Мерфі та Шустер Тангер, які очолювали раунд Cleanlab і приєдналися до його ради директорів, стверджують, що Cleanlab "набагато більше, ніж просто компанія-маркувальник", як сказав Тангер. Вони стверджують, що Cleanlab може виконувати багато функцій, які виконує маркувальник, але не навпаки. Тести, подібні до тих, які проводив Databricks, показують, що Cleanlab може зробити моделі ціннішими після їх випуску, а не тільки під час їх навчання, додав Мерфі: "Люди будуть більше вірити цим моделям, тому що [Cleanlab] також може виміряти вихід".

Звісно, Норкатт і команда Cleanlab повинні переконати підприємства, що вони не можуть використовувати ці покращення просто використовуючи безкоштовну версію їхнього програмного забезпечення, навіть якщо вони змагаються з добре фінансованими конкурентами в інфраструктурній галузі, які, швидше за все, прагнуть займати їхню позицію. (Ще одна причина рахувати Databricks союзником.)

Норкатт грає на довгостроковий результат. Він вже працює над тим, як Cleanlab може зробити невеликі відкрите програмне забезпечення стійкими в боротьбі з більшими, підтримуваними великими гравцями штучного інтелекту. І він думає про те, які моделі можуть з'явитися після того, як хвиля LLM закінчиться.

"Найбільшою бар'єром для інновацій в даний час для самокеруючих автомобілів, корпоративної адопції генеративного штучного інтелекту та аналізу в режимі реального часу є відсутність досконалих і точних даних", - сказав Норкатт. "Незалежно від того, яка модель вийде в майбутньому, вона буде залежати від даних, і Cleanlab буде там."

Forbes