Зелёная энергетика — космическая гонка XXI века

Многие знают, особенно в IT, что своими корнями технологическая революция последних 40 лет уходит в космическую гонку. Противостояние между СССР и США в том, кто кого переплюнет в масштабности и экстравагантности символических жестов — одновременно самый бессмысленный и самый плодотворный эпизод в истории прогресса. Даже триумфальный пик космической гонки — одновременно вершина её абсурдности, когда США только чтобы воткнуть свой флаг, залетели так далеко, что часть самих же американцев до сих пор в это не верит.

Но какая разница, на самом деле, когда космическая гонка дала разгон не только ракетам, но и фундаментальной науке, образованию и технологическим производствам и США, и СССР. Благодаря эффективному государственно-частному партнёрству, США удалось конвертировать космическую гонку в технологический прорыв, обеспечивший миру вторую крупнейшую коммуникационную революцию с изобретения письменности, создать новый рынок глобальной экономики, цифровую экономику, и дать старт мощной и динамичной IT-индустрии, которая в нём заняла лидирующие позиции.


Читать дальше →
Зелёная энергетика — космическая гонка XXI века
Source: habrahabr

Как проверять выражения на английском like a pro

Представьте, что вы читаете текст и наткнулись на новую интересную фразу. Всегда ли вы знаете, как её правильно произнести и использовать в речи? Или, например, вы пишете письмо и не можете решить правильно ли использовали выражение. Эти ситуации типичны для изучающих английский. Что вы обычно предпринимаете? Скорее всего вы открываете гугл и, может быть, даже используете кавычки при поиске. Неплохая стратегия, но есть альтернативы получше. Меня зовут Дарья, я преподаю английский язык в EPAM, и в этой статье я расскажу про эффективные подходы и инструменты для поиска примеров использования лексики.  

Читать далее
Как проверять выражения на английском like a pro
Source: habrahabr

Всё, что нам нужно — это генерация

Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров

С наступлением 2021 в NLP продолжается гонка «больше — лучше», захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров — но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров, а затем и Google Brain заявил о разработке архитектуры Switch Transformer с 1,6 триллионами параметров (и тоже является MoE). Насколько повышение результатов за счет объема полезно для индустрии? Тот же Switch Transformer с его триллионом параметров далеко не на 1 месте в лидербордах.

Огромные языковые модели (Enormous Language Models, теперь это термин, им посвящен отдельный воркшоп конференции ICLR 2021) показывают действительно интересные результаты — не только в традиционных задачах ML, но и в новых сферах применения: генерации всего того, что раньше генерировать без ошибок было нельзя — музыку, изображения попиксельно, программный код и т.д. Из всех традиционных форм NLP-задач — классификация, классификация элементов последовательности, seq2seq, — по сути, у нас остается только одна: seq2seq. С приходом больших языковых моделей все задачи NLP сводятся теперь к форме генерации, при должном качестве этой самой генерации.

Seq2seq — самая «человеческая» форма решения задач: человек использует тот же формат,  отвечая на сообщения в чате, общаясь устно, сортируя имейлы в почте.  

  • Лично нам в SberDevices не терпелось поскорее применить такой формат к различным задачам — поэтому мы открываем доступ к самой большой русскоязычной нейросети ruGPT-3 XL с 1,3 млрд параметров. 

Инженерный запал вылился в кропотливую работу по распараллеливанию обучения, очистке данных и тестированию. Но зато… теперь в open-source модель ruGPT-3 XL с 1,3 млрд параметров!

А также ее публичное API:

Читать дальше →
Всё, что нам нужно — это генерация
Source: geektimes

LIT – Инспектор для вашего NLP. Обзор, установка, тест

Инспектор и даже где-то «толкователь»,, LIT или Language Interpretability Tool — мощная платформа с открытым исходным кодом для визуализации и интерпретации NLP-моделей. Платформа была представлена на EMNLP 2020 специалистами Google Research в ноябре 2020 года. LIT еще в статусе разработки, поэтому разработчики ничего не гарантируют, в том числе работу на платформе windows. Но у меня получилось, делюсь опытом.

Читать далее
LIT – Инспектор для вашего NLP. Обзор, установка, тест
Source: habrahabr

О чем говорит YouTube

image
На заре машинного обучения большинство решений выглядели очень странно, обособленно и необычно. Сегодня множество ML алгоритмов уже выстраиваются в привычный для программиста набор фреймворков и тулкитов, с которыми можно работать, не вдаваясь в детали их реализации.

К слову, я противник такого поверхностного подхода, но для своих коллег хотел бы показать, что эта отрасль движется семимильными шагами и нет ничего сложного, чтобы применять ее наработки в продакшен проектах.

Для примера я покажу, как можно помочь пользователю найти нужный видеоматериал среди сотен других в нашем сервисе документооборота.
В моем проекте пользователи создают и обмениваются сотнями различных материалов: текстом, картинками, видеороликами, статьями, документами в различных форматах.
Поиск по документам представляется достаточно просто. Но что делать с поиском по мультимедиа контенту? Для полноценного сервиса пользователя надо обязать заполнить описание, дать название видеоролику или картинке, не помешает несколько тегов. К сожалению, далеко не все хотят тратить время на подобные улучшения контента. Обычно пользователь загружает ссылку на youtube, сообщает что это новое видео и нажимает сохранить. Что же делать сервису с таким “серым” контентом. Первая идея — спросить у YouTube? Но YouTube тоже наполняют пользователи (часто это один и тот же пользователь). Часто видеоматериал может быть и не с Youtube сервиса.
Так мне пришла идея научить наш сервис “слушать” видеоролик и самостоятельно “понимать”, о чем он.
Читать дальше →
О чем говорит YouTube
Source: geektimes