Искусственный интеллект и машинное обучение приносят миллиарды долларов дохода во всех отраслях. Чтобы воспользоваться этими растущими возможностями, студенты стекаются в эту область, и многие из них задаются вопросом, как приобрести эти драгоценные навыки. Они могут чувствовать себя немного потерянными и ошеломленными обилием онлайн-источников.
На недавней сессии Quora технический директор Kaggle Бен Хамнер изложил свой совет по изучению машинного обучения.
Фактически, Бен Хамнер смешивает хорошие советы с рекламными материалами для Kaggle. Это только усугубляет путаницу. Правда в том, что Kaggle не так полезен для реальных проблем, особенно если вы хотите откусить кусок этого многомиллиардного рынка.
В этом посте я предлагаю альтернативный метод обучения, более полезный и реалистичный. В конце поста я предлагаю альтернативную платформу Startcrowd для создания реальных продуктов ИИ вместо статистических моделей.
Начните с онлайн-курсов

Если вы начинаете с нуля, не имея навыков программирования или анализа данных, я лично рекомендую Курс Python на Codecademy, Курс Andrew Ng ML на Coursera, Введение в науку о данных на Udacity и Stanford. курсы по Сверточным нейронным сетям и НЛП. Есть много других хороших курсов, новые появляются каждый день, но не зацикливайтесь на этой фазе разминки. Приступайте к практике как можно скорее.
Найдите проблему, которая вам нравится, и создайте быстрое и грязное решение

Я в основном согласен с первыми двумя шагами, изложенными Беном в его посте. Важно начать с проблемы, которая вам нравится, чтобы со временем сохранить мотивацию. Есть много способов найти вдохновение: посмотреть, как ИИ может решить ваши собственные проблемы. Читайте новости Quora. Полистайте академические статьи. Посмотрите работу AI-стартапов на AngelList и F6S. И да, в какой-то мере взгляните на Kaggle.
Во-вторых, создайте быстрое и грязное решение. Всегда лучше не изобретать колесо заново, поэтому Github и Stackoverflow - ваши лучшие друзья. Это хорошее упражнение - попытаться опираться на работу других, даже с исчезающе малым вкладом. Хватай все, что найдешь, и на Kaggle может быть что-нибудь интересное.
Усовершенствуйте свое первоначальное решение с учетом отзывов клиентов
Я категорически не согласен с третьим шагом Бена. Следующим шагом не должно быть повышение производительности вашего исходного решения. Это большая ошибка.
Вместо этого пора действовать эффективно: подготовить демо. Покажите свое решение потенциальным пользователям. Оберните вашу модель в веб-приложение, визуализацию, видеоклип, сообщение в блоге, что угодно. Например, я подготовил простую демонстрацию распознавания лиц на основе библиотеки OpenFace:
Общение с пользователями может потребовать дополнительных навыков помимо науки о данных: другие навыки программирования (HTML, Javascript, SQL, DevOps…), рассказывание историй или просто человеческие социальные навыки. Здесь может быть эффективным объединение с другими людьми.
Так что для улучшения прислушивайтесь к отзывам пользователей. Вам нужно решение, ориентированное на клиента, а не на данные. Так ли важна таблица лидеров Kaggle? Это будет оплачивать твои счета?
В случае с моей демонстрацией распознавания лиц в обратной связи преобладали вопросы конфиденциальности: многие люди до сих пор находят распознавание лиц навязчивым и неприятным. Мало кто беспокоился, что OpenFace был точен только на 91%.
Узнайте, почему ваше решение не принято: это охват клиентов (маркетинг…)? Пользовательский опыт (дизайн…)? Сроки и полезность (соответствие продукта рынку…)? Или это плохие характеристики модели?
Если производительность действительно является проблемой, вы можете последовать третьему совету Бена: собирайте больше данных, улучшайте очистку данных или оптимизируйте модель, как плеер Kaggle.
Быстро перебирайте и создавайте свое портфолио из реальных проектов

Если вы достигли соответствия продукта рынку, поздравляю, продолжайте. В противном случае будьте настойчивы. Или попробуйте еще раз с другим продуктом или с другим рынком, в зависимости от вашего настроения.
Чтобы продолжить работу еще быстрее, следуйте методу сначала продавай, потом создай: сначала сосредоточьтесь на маркетинге и продажах, создайте целевую страницу без вашего собственного продукта (как я сделал здесь), и если вы привлечете внимание клиентов, построить прототип. Прежде чем следовать этому методу, может быть лучше приобрести навыки создания прототипов.
Если все ваши инициативы потерпят неудачу, и у вас закончились деньги, вы можете начать собеседование на вакансии машинного обучения. Теперь вы создали потрясающее резюме, работая с лучшим работодателем в мире: вами.
На собеседовании при приеме на работу рекрутеры оценят ваш реальный опыт и ваше глубокое понимание индустрии искусственного интеллекта. Это будет более впечатляюще, чем ваши замысловатые решения Kaggle.
Не тратьте время на Kaggle

Kaggle тесно. Дать свой лучший шанс в соревновании Kaggle против тысяч участников - это ужасная трата и огромные альтернативные издержки: существует так много оригинальных задач, над которыми некому работать. Будьте первым на собственном конкурсе. Вы должны заставить себя искать эти возможности, а не ждать, пока Kaggle накормит вас с ложечки. Это лучший способ использовать миллиарды долларов в искусственном интеллекте, о котором все говорят.
Наука была бы разрушена, если бы (как и спорт) поставила соревнование превыше всего. Бенуа Мандельброт
С другой стороны, ожидаемая ставка среднего Кагглера составляет менее 2 долларов в час, учитывая стоимость призов спонсоров и огромное количество участников.
Просыпайтесь и выходите из этой хитрой эксплуататорской схемы.
Стоит ли вам присоединиться к альтернативной платформе для изучения машинного обучения и искусственного интеллекта?

Kaggle определенно не является домом для науки о данных: может быть, стадион для науки о данных или просто его песочница. Наука о данных бездомна, эта область слишком широка, чтобы ее можно было ограничить одной платформой.
Однако я по-прежнему считаю, что изучение ИИ может быть облегчено с помощью соответствующих платформ. В конце концов, Github и Stackoverflow - действительно полезные платформы, которые в некоторой степени удовлетворяют эту потребность.
В альтернативном процессе изучения, который я описал, есть много болевых точек: трудно добиться видимости рынка, объединиться с другими людьми и так далее. В общем, инкубаторы и ускорители призваны устранить эти болевые точки. Однако их часто бывает недостаточно. Вот почему я предлагаю новую платформу для создания продуктов искусственного интеллекта. На мой взгляд, эта платформа должна быть:
- принадлежащие сообществу и неприобретенные по замыслу.
- по-настоящему совместная работа: накопление взносов должно быть в основе платформы, а не побочным продуктом, как в Kaggle.
- Стимулируйте качественный вклад и избегайте лимонной проблемы.
Я подготовил очень предварительный прототип, посмотрите его здесь.
Создавайте продукты ИИ совместно на www.startcrowd.club



Хакерский полдень - это то, с чего хакеры начинают свои дни. Мы часть семьи @AMI. Сейчас мы принимаем заявки и рады обсудить рекламные и спонсорские возможности.
Если вам понравился этот рассказ, мы рекомендуем прочитать наши Последние технические истории и Современные технические истории. До следующего раза не воспринимайте реалии мира как должное!
