Сетевые трансформаторы: Силовые трансформаторы — Трансформаторы

Содержание

трансформаторы сухие, трансформаторы масляные, ТМ, ТМГ, ТС, ТСЗ, ТСЛ, ТСЛЗ, ТМЗ, ТМН, ТДН, ТДС и др.

Наиболее распространенными электрическими устройствами в промышленности и в быту являются трансформаторы. Их назначение – передача мощности внутри несогласованной электрической цепи между ее различными схемами. Применяются в тех случаях, когда требуется понизить или повысить напряжение между источником энергии и потребителем. Также трансформаторы включены в схемы блоков питания, преобразующих переменный ток в постоянный. В основе работы трансформаторов лежит их способность передавать электроэнергию между контурами посредством магнитной индукции.
Силовые трансформаторы — электромагнитные устройства, предназначенные для преобразования напряжений переменного тока, сохраняя при этом его частоту, а также для преобразования самой системы электроснабжения.
Основной частью каждого силового трансформатора является его сердечник с несколькими обмотками, изготовленный из ферромагнитного материала. Как правило, это тонкие листы специального трансформаторного железа, обладающего магнитомягкими свойствами. Листы укладываются таким образом, чтобы форма стержней под обмотками в сечении была приближенной к кругу. Для повышения КПД устройства и снижения потерь, целые листы перекрывают стыки между отдельно взятыми пластинами.

Трансформаторная обмотка выполняется, как правило, из медного провода с прямоугольным или круглым сечением. Каждый виток изолирован от самого магнитопровода, а также от соседних витков. Для циркуляции охладителя, между обмотками и отдельными ее слоями предусматриваются технические пустоты.

Каждый трансформатор имеет как минимум две обмотки: первичную (на нее подается электрический ток) и вторичную (ток снимается после преобразования его напряжения).

Сортировать по:

ОСОБЕННОСТИ ВЫСОКОВОЛЬТНЫХ СИЛОВЫХ ТРАНСФОРМАТОРОВ

Силовые трансформаторы преобразовывают электрическую энергию в сетях, где проходит трехфазный переменный ток. Функциональные устройства применяются и на промышленных предприятиях, и в зданиях административного и общественного назначения, и в комплектно распределительных подстанциях. Также агрегаты используются на атомных электростанциях, которые относятся к классам III и IV уровня безопасности.

Качественный силовой трансформатор помогает снизить высокое напряжение, подаваемое на различные приборы и технику, которая работает от электросети. Устройство предоставляет возможность эксплуатировать некоторые виды оборудования даже при повышенном показателе напряжения. Рекомендуется купить силовые трансформаторы для повышения или понижения напряжение от приходящих высоковольтных и низковольтных сетей, для работы оборудования и техники.

УСТРОЙСТВА ОБЛАДАЮТ СЛЕДУЮЩИМИ ОТЛИЧИТЕЛЬНЫМИ ЧЕРТАМИ:

Возможность применения в условиях высокой влажности, пожарной опасности и загрязненности.
Высокий показатель стойкости к различным перегрузкам.
Низкий уровень шума.
Высокий показатель пожарной безопасности.
Большой выбор модификаций позволяет подобрать оптимальный вариант.

Цена силового трансформатора зависит от производителя и технических характеристик. Группа «ВП-АЛЬЯНС» предлагает широкий модельный ряд устройств для различных условий эксплуатации.

СИЛОВЫЕ ТРАНСФОРМАТОРЫ ПОДРАЗДЕЛЯЮТСЯ ПО РАЗНЫМ КРИТЕРИЯМ НА НЕСКОЛЬКО ВИДОВ:

высоковольтные и низковольтные;
для монтажа снаружи и внутри помещений или строительного объекта;
литые/воздушно-барьерные и алюминиевые/медные;
с принудительным или естественным охлаждением.

Силовые трансформаторы с сухой изоляцией

Силовые установки для преобразования электричества с воздушным охлаждением называются трансформаторами с сухой изоляцией. От нагретых частей тепло отводится за счет естественной циркуляции воздуха. Для электроустановок с высшим напряжением (ВН) до 15 000 В такого воздушного охлаждения достаточно. Обмотки ВН и НН (низшего напряжения) помещены в защитный кожух. Воздух обладает относительно слабым изолирующим свойством, поэтому требования к изоляционным слоям такого электроагрегата высоки. Применяются данные трансформаторы с сухой изоляцией в местах с повышенными требованиями безопасности. Сухие трансформаторы применяются на промышленных предприятиях, в нефтяной промышленности, в машиностроении, для электроснабжения общественных зданий.

Типы конструкций

Силовые трансформаторы с сухой изоляцией имею три основные конструкции:

  • с открытой обмоткой. Такие сухие электроагрегаты имеют изоляционный слой до 0,2 мм, а пропитка смолой осуществляется при помощи вакуума и давления. Для более эффективного охлаждения применяются специальные профили и фарфоровые изоляторы, которые формируют собой вертикальные и горизонтальные каналы охлаждения;
  • с монолитной конструкцией. Данные трансформаторы с сухой изоляцией заливаются эпоксидной изоляцией в вакууме, что дает возможность использовать трансформатор в местах с повышенными требованиями к экологической безопасности. Сухие электроагрегаты с данной конструкцией можно длительно использовать в режиме циклических тепловых нагрузок без потери изоляционным слоем своих электрических характеристик;
  • с литой обмоткой. Специальные наполнители, из которых изготавливают сухие трансформаторы данной конструкции, улучшают теплоотводящие, противопожарные, механические свойства. Сама конструкция имеет хорошую жесткость и позволяет получить электроагрегат приемлемых размеров для работы в сетях с высоким электронапряжением. Однако изолятор обладает высокой массой и неоднородностями, что может вызвать частичные разряды и затрудненное охлаждение.

Основные технические характеристики

Если рассматривать силовой трансформатор с сухой изоляцией, то его технические характеристики буду зависеть от конкретной модели. Ключевыми параметрами являются:

  • ВН и НН;
  • номинальная мощность;
  • ток и потери холостого хода;
  • способ, которым соединены провода электроагрегата;
  • климатическое исполнение и степень защиты трансформатора с сухой изоляцией;
  • потери короткого замыкания и электронапряжения.

Преимущества сухих трансформаторов

  • Не требуют серьезных затрат на обслуживание. Не возникает необходимость в замене и очищении масла.
  • Увеличено сечение магнитопровода, что дает снижение электромагнитной нагрузки на активные материалы при увеличении тока. Новые материалы обеспечивают увеличение электромагнитных полезных нагрузок и снижение стоимости активных элементов.
  • Данные сухие трансформаторы зачастую имеют защитный кожух, что положительно сказывается на безопасности.
  • Благодаря применению в качестве изоляторов стекловолокна и асбеста увеличена рабочая температура силового трансформатора.

Тороидальные сетевые трансформаторы питания


Сетевые трансформаторы питания ТТН3 — ТТН30 предназначенные для работы в сетях переменного тока напряжением 220 в. Выпускаются с выходными напряжениями до 1200 в и токами до 4 А на одну обмотку. Имеют жесткую нагрузочную характеристику и малый перегрев. Трансформаторы разработаны для применения в приборостроении в качестве трансформаторов питания. За счет малых полей рассеивания (в 1,5-2 раза меньше чем у шихтованных) и перегрева могут без дополнительных средств защиты от электромагнитного излучения (магнитных экранов) применяться для питания измерительных схем, усилителей, преобразователей и т.д., в т.ч. размещаемых в малогабаритных корпусах с недостаточным вентилированием. Для подключения имеют гибкие вывода. Для повышения надежности все трансформаторы имеют вакуумную пропитку изоляционным лаком. Могут комплектоваться крепежными шайбами.

Для удобства обобщенные параметры трансформаторов представлены в табл. 1.

Трансформаторы изготавливаются в соответствии с техническими требованиями ЮНШИ.671221.002 ТТ.

Трансформаторы ТТН3… ТТН30 выпускаются с любыми напряжениями и токами. При заказе просьба конкретизировать ток и напряжение по каждой обмотке и не ссылаться на мощность. Напряжения и токи могут быть нестандартные (не по ГОСТ). Расчеты и согласование характеристик выполняются по уникальной методике бесплатно. Цена за изделие рассчитывается исходя из трудоемкости изготовления и текущих цен на материалы. Существует система скидок от объема заказа.

На предприятии действует уникальная автоматизированная система управления производством, поэтому однажды заказав у нас трансформатор, техкарта его изготовления закрепляется исключительно за Вами, благодаря чему обеспечивается 100% повторяемость изготовления в последующих заказах.

Средний срок изготовления трансформаторов — 5…12 рабочих дней (зависит от текущей загрузки производства, межоперационных заделов и нахождения аналогов на маршруте). Заявки на существенные объемы просьба подавать заранее.

До момента выставления счета на оплату Заказчику предоставляются на согласование расчетные технические характеристики трансформатора: номинальное напряжение, номинальный ток, напряжение х.х. для каждой обмотки, перегрев трансформатора на номинальной нагрузке, расчетные габариты. Все трансформаторы изготавливаются с запасом по входному напряжению и обеспечивают безаварийную работу в условиях Российских электросетей.

Имейте в виду

Использование тороидальных трансформаторов экономит до 30-40 % объёма по сравнению с традиционными трансформаторами, позволяет использовать низкопрофильные корпуса и большую плотность монтажа.

В тороидальных трансформаторах магнитный поток проходит в том же направлении, в каком ориентированы домены стали сердечника и отсутствуют потери в зазорах между пластинами, это позволяет существенно снизить потери в трансформаторах как при холостом ходе, так и при его полной нагрузке, что обеспечивает превосходные температурные характеристики и жесткую нагрузочную кривую тороидального трансформатора. Устали отводить тепло от трансформаторов на шихтованном магнитопроводе и слушать его гудение — устанавливайте тороидальный и забудьте от этих проблемах. Несмотря на то, что торы немного дороже — плюсов гораздо больше, ведь окупаемость применения тороидальных трансформаторов за счёт высокого КПД составляет всего-то пару лет. При нынешних ценах на энергоносители приходится учитывать каждый потребляемый ватт мощности, а применение тороидальных трансформаторов дает в этом существенное преимущество.

Существующая мода на импульсные источники питания не помеха для применения маломощных тороидальных трансформаторов — если посмотреть КПД импульсников, цену и средний срок их жизни до ремонта (не более 3-5 лет для входных высоковольтных конденсаторов) — в диапазоне от 3 до 30 Вт альтернативы тороидальным трансформаторам нет ни по цене, ни по надежности. Про уровень электромагнитных помех вообще промолчим. На большие мощности ситуация немного другая — большой вес и цена зачеркивает преимущества и потребитель вынужден мириться с недостатками импульсных источников. Если посмотреть статистику выхода из строя маломощных импульсных блоков питания на Российских электросетях, основные причины — раздулся 400в входной конденсатор (высох на высокой температуре или пристукнуло скачком входного напряжения) или прогорел силовой транзистор (обычно за счет провала входного напряжения). В случае с торами скачки напряжения ему не вредят. Посудите сами — при существенном скачке напряжения трансформатор уходит в насыщение и не пропускает этот импульс в нагрузку. За счет того, что трансформатор имеет большую теплоемкость — токи первички разогревают маломощный трансформатор не настолько быстро, чтобы трансформатор успел перегреться до срабатывания сетевого плавкого предохранителя. Кроме того, всегда можно поставить дополнительную защиту — термопредохранитель на трансформатор, тогда ему не страшна даже длительная работа в неблагоприятных условиях. Любой трансформатор спокойно относится к нагреву до 120-130 °C, так что термопредохранитель на 90 или 110 °C — эффективная защита трансформатора от перегрева и выхода из строя.

Прайс лист на силовые трансформаторы, 2019 год

марка трансформатора ед. изм. цена, руб/шт
Трансформаторы трехфазные силовые масляные для питания буровых установок
ТМБ-25/10/0,23 шт 79 060,00
ТМБ-25/10/0,4 шт 79 060,00
ТМБ-40/10/0,23 шт 82 600,00
ТМБ-40/10/0,4 шт 82 600,00
ТМБ-63/10/0,23 шт 89 680,00
ТМБ-63/10/0,4 шт 89 680,00
ТМБ-100/10/0,23 шт 99 120,00
ТМБ-100/10/0,4 шт 99 120,00
ТМБ-160/10/0,23 шт 128 620,00
ТМБ-160/10/0,4 шт 128 620,00
ТМБ-250/10/0,23 шт 169 920,00
ТМБ-250/10/0,4 У1 шт 194 700,00
ТМБ-250/10/0,4 шт 169 920,00
ТМБ-400/10/0,23 шт 215 940,00
ТМБ-400/10/0,4 У1 шт 298 540,00
ТМБ-400/10/0,4 шт 215 940,00
ТМБ-630/10/0,23 шт 318 600,00
ТМБ-630/10/0,4 У1 шт 434 240,00
ТМБ-630/10/0,4 шт 318 600,00
ТМБ-1000/10/0,23 шт 538 080,00
ТМБ-1000/10/0,4 У1 шт 696 200,00
ТМБ-1000/10/0,4 шт 538 080,00
ТМБ-1250/10/0,23 шт 712 720,00
ТМБ-1250/10/0,4 шт 712 720,00
ТМБ-1600/10/0,23 шт 905 060,00
ТМБ-1600/10/0,4 шт 905 060,00
ТМБ-2500/10/0,23 шт 1 605 980,00
ТМБ-2500/10/0,4 шт 1 605 980,00
Трансформаторы трехфазные силовые масляные для питания буровых установок герметичного исполнения
ТМБГ-250/10/0,4 У1 шт 227 740,00
ТМБГ-400/10/0,4 У1 шт 366 980,00
ТМБГ-630/10/0,4 У1 шт 553 420,00
Трансформаторы трехфазные силовые масляные для погружных электронасосов добычи нефти
ТМПН-63/1; УХЛ1; 0,611/0,38 шт 83 780,00
ТМПН-63/1; УХЛ1; 0,856/0,38 шт 83 780,00
ТМПН-63/3; УХЛ1; 0,921/0,38 (20 ст.рег.) шт 97 940,00
ТМПН-100/3; УХЛ1; 0,736/0,38 шт 94 400,00
ТМПН-100/3; УХЛ1; 0,844/0,38 шт 94 400,00
ТМПН-100/3; УХЛ1; 1,17/0,38 шт 94 400,00
ТМПН-100/3; УХЛ1; 1,61/0,38 шт 94 400,00
ТМПН-100/3; УХЛ1; 1,98/0,38 шт 94 400,00
ТМПН-100/3; УХЛ1; 1,25/0,38 (25 ст.рег.) шт 109 740,00
ТМПН-100/10 шт 106 200,00
ТМПН-125/3; УХЛ1; 1,540/0,38 (36 ст.рег.) шт 141 600,00
ТМПН-160/3; УХЛ1; 1,09/0,38 (10 ст рег.) шт 128 620,00
ТМПН-160/3; УХЛ1; 1,25/0,38 (25 ст.рег.) шт 141 600,00
ТМПН-160/3; УХЛ1; 1,9/0,38 (25 ст.рег.) шт 141 600,00
ТМПН-160/3; УХЛ1; 1,902/0,38 (25 ст.рег.) шт 141 600,00
ТМПН-160/3; УХЛ1; 2,05/0,38 (5 ст.рег.) шт 128 620,00
ТМПН-250/3; УХЛ1; 2,247/0,38 (25 ст.рег.) шт 194 700,00
ТМПН-250/10 шт 172 280,00
ТМПН-1200/6; УХЛ1; 3,014/0,48 (36 ст. рег.) шт 1 076 160,00
Трансформаторы трехфазные силовые масляные для погружных электронасосов добычи нефти герметичного исполнения
ТМПНГ-100/3; УХЛ1; 1,25/0,38 (25 ст.рег.) шт 109 740,00
ТМПНГ-102/3; УХЛ1; 1,295/0,38 (25 ст.рег.) шт 112 100,00
ТМПНГ-165/3; УХЛ1; 1,355/0,38 (25 ст.рег.) шт 141 600,00
ТМПНГ-160/3; УХЛ1; 1,902/0,38 (25 ст.рег.) шт 141 600,00
ТМПНГ-250/3; УХЛ1; 2,247/0,38 (25 ст.рег.) шт 194 700,00
ТМПНГ-250/3; УХЛ1; 3,564/0,38 (25 ст.рег.) шт 194 700,00
ТМПНГ-253/3; УХЛ1; 2,005/0,38 (25 ст.рег.) шт 194 700,00
ТМПНГ-300/6; УХЛ1; 3,819/0,38 (25 ст.рег.) шт 207 680,00
ТМПНГ-404/6; УХЛ1; 2,47/0,38 (25 ст.рег.; бок. ввод) шт 297 360,00
ТМПНГ-426/6; УХЛ1; 2,998/0,38 (36 ст.рег.) шт 297 360,00
ТМПНГ12-426/6; УХЛ1; 2,998/0,38 (36 ст.рег.) шт 297 360,00
ТМПНГ-520/6; УХЛ1; 2,670/0,38 (25 ст.рег.) шт 425 980,00
ТМПНГ-520/6; УХЛ1; 2,679/0,48 (25 ст.рег.) шт 518 020,00
ТМПНГ-520/6; УХЛ1; 3,812/0,48 (25 ст.рег.) шт 368 160,00
ТМПНГ-650/6; УХЛ1; 2,81/0,38 шт 425 980,00
ТМПНГ-665/6; УХЛ1; 2,810/0,38 (25 ст.рег.; бок.ввод) шт 447 220,00
ТМПНГ-700/6; УХЛ1; 2,94/0,48 (36 ст.рег.) шт 547 520,00
ТМПНГ-700/6; УХЛ1; 5,5/0,38 (36 ст.рег.) шт 547 520,00
ТМПНГ-900/6; УХЛ1; 5,507/0,38 (36 ст.рег.) шт 561 680,00
ТМПНГ-1000/6; УХЛ1; 2,360/0,38 (36 ст.рег.; боковой ввод) шт 652 540,00
ТМПНГ-1000/6; УХЛ1; 5,507/0,38 (900 а; 36 ст.рег.) шт 561 680,00
ТМПНГ-1023/6; УХЛ1; 4,8/0,48 (15 ст.рег.) шт 620 680,00
Трансформаторы трехфазные силовые масляные для питания электрооборудования экскаваторов
ТМЭ-250/10/0,4 У1 шт 194 700,00
ТМЭ-400/10/0,4 У1 шт 298 540,00
ТМЭ-630/10/0,4 У1 шт 433 060,00
ТМЭ-1000/10/0,4 У1 шт 692 660,00
Трансформаторы трехфазные силовые масляные для питания электрооборудования экскаваторов герметичного исполнения
ТМЭГ-40/10/0,4 У1 У/Ун-0 шт 103 840,00
ТМЭГ-63/10/0,4 У1 У/Ун-0 шт 123 900,00
ТМЭГ-100/10/0,4 У1 У/Ун-0 шт 152 220,00
ТМЭГ-160/10/0,4 У1 У/Ун-0 шт 180 540,00
ТМЭГ-250/10/0,4 У1 шт 227 740,00
Трансформаторы трехфазные силовые масляные со встроенным симметрирующим устройством герметичного исполнения
ТМГСУ-10/10/0,4 У1 У/Ун-0 шт 60 180,00
ТМГСУ-16/10/0,4 У1 У/Ун-0 шт 66 080,00
ТМГСУ-25/10/0,4 У1 У/Ун-0 шт 79 060,00
ТМГСУ-40/10/0,4 У1 У/Ун-0 шт 89 680,00
ТМГСУ-63/10/0,4 У1 У/Ун-0 шт 106 200,00
ТМГСУ-100/10/0,4 У1 У/Ун-0 шт 115 640,00
ТМГСУ-160/10/0,4 У1 У/Ун-0 шт 142 780,00
ТМГСУ-250/10/0,4 У1 У/Ун-0 шт 191 160,00
ТМГСУ11-100/10 шт 118 000,00
ТМГСУ11-160/10 шт 149 860,00
ТМГСУ11-250/10 шт 201 780,00

Что такое трансформаторная сеть | На пути к науке о данных

источник: арсений тогулев на unsplash.

Нейронная сеть Transformer представляет собой новую архитектуру, которая направлена ​​на решение последовательных задач, с легкостью обрабатывая долгосрочные зависимости. Он был предложен в документе «Внимание — это все, что вам нужно» 2017 [1]. Это современный современный метод в области НЛП.

Прежде чем перейти непосредственно к Трансформеру, я уделю некоторое время объяснению причин, по которым мы его используем, и того, как он появляется в картине.(Если вы хотите пропустить эту часть, то сразу переходите к теме Transformer, но я предлагаю вам прочитать ее последовательно для лучшего понимания).

Итак, история начинается с RNN (рекуррентных нейронных сетей).

Что такое РНН? Чем она отличается от простой ИНС? В чем основная разница?

RNN — это нейронные сети с прямой связью, развертываемые с течением времени.

источник: кола (CC0).

В отличие от обычных нейронных сетей, RNN предназначены для приема серий входных данных с без заранее определенного ограничения на размер .«Серия», как и любой вход этой последовательности, имеет некоторую связь со своими соседями или оказывает на них некоторое влияние.

Архитектура РНН. источник: кола (CC0).

Базовые сети с прямой связью тоже «помнят» что-то, но они помнят то, чему научились во время обучения. Хотя RNN учатся аналогичным образом во время обучения, кроме того, они запоминают то, что узнали из предыдущих входных данных, при создании выходных данных.

Изображение, иллюстрирующее долгосрочные зависимости. источник: кола (CC0).

Используется в разных типах моделей-

1.) Vector-Sequence Models — Они принимают векторы фиксированного размера в качестве входных и выходных векторов любой длины, например, в подписях к изображениям изображение дается в качестве входных данных, а выходные данные описывают изображение.

2. ) Модель вектора последовательности- Возьмите вектор любого размера и выведите вектор фиксированного размера. Например. Анализ тональности фильма оценивает рецензию любого фильма как положительную или отрицательную в виде вектора фиксированного размера.

3. ) Модель «последовательность к последовательности» — Самый популярный и наиболее часто используемый вариант, входные данные принимаются в виде последовательности, а выходные данные представляются в виде другой последовательности с различными размерами.Например. Языковой перевод для данных временных рядов для прогнозирования фондового рынка.

Его недостатки-

  1. Медленно обучается.
  2. Длинная последовательность приводит к исчезающему градиенту или, скажем, к проблеме долговременных зависимостей. Проще говоря, его память не так сильна, когда дело доходит до запоминания старой связи.

Для Например, . «Облака в ____».

Очевидно, что следующим словом будет небо, так как оно связано с облаками.Здесь мы видим, что расстояние между облаками и предсказанным словом меньше, поэтому RNN может легко его предсказать.

Но, для другого примера,

«Я вырос в Германии с моими родителями, я провел много лет и хорошо знаю их культуру, поэтому я свободно говорю ____».

Здесь прогнозируемое слово — немецкий язык, который напрямую связан с Германией, но расстояние между Германией и прогнозируемым словом в этом случае больше, поэтому RNN трудно предсказать.

Итак, к сожалению, по мере того, как этот разрыв увеличивается, RNN становятся неспособными к соединению, так как их память стирается с расстоянием.

источник: кола (CC0).

Долговременная кратковременная память — Особый вид RNN, специально созданный для решения задач с исчезающим градиентом. Они способны изучать долгосрочные зависимости. Запоминание информации в течение длительного периода времени практически является их поведением по умолчанию, а не тем, чему они изо всех сил пытаются научиться!

Эта ветвь позволяет передать информацию и пропустить долгую обработку ячейки.источник: кола (CC0).

Нейроны LSTM в отличие от обычных нейронов имеют ветвь, которая позволяет передавать информацию и пропускать длительную обработку текущей ячейки, это позволяет сохранять память в течение более длительного периода времени. Это действительно улучшает ситуацию с проблемой исчезающего градиента, но не так удивительно, как будто это будет хорошо до 100 слов, но примерно для 1000 слов он начинает терять свою хватку.

Но, как и простой RNN, он также очень медленно обучается или даже медленнее.

Они берут ввод последовательно один за другим, что не может полностью использовать GPU, предназначенные для параллельных вычислений.

Как мы можем распараллелить последовательные данные?? (Я вернусь к этому вопросу.)

На данный момент мы имеем дело с двумя проблемами:

  • Исчезающий градиент
  • Медленное обучение

Решение проблемы исчезающего градиента

5 3 вопрос о том, на какой части ввода мы должны сосредоточиться.

Я собираюсь объяснить внимание несколько иначе. Возьмем ситуацию-

Предположим, кто-то дал нам книгу по машинному обучению и попросил нас предоставить информацию о категориальной кросс-энтропии.Есть два способа сделать это: во-первых, прочитать всю книгу и вернуться с ответом. Во-вторых, перейдите к указателю, найдите главу «потери», перейдите к части кросс-энтропии и прочитайте часть «Категорная кросс-энтропия».

Как вы думаете, какой метод быстрее?

Как и в первом способе, на прочтение всей книги может уйти целая неделя. В то время как во-вторых, это вряд ли займет 5 минут. Кроме того, наша информация из первого метода будет более расплывчатой ​​и разнообразной, поскольку она основана на слишком большом количестве информации, в то время как информация из второго метода будет точной в соответствии с требованиями.

Что мы здесь сделали по-другому?

В первом случае мы не сосредотачивались конкретно на какой-либо части книги, тогда как во втором случае мы сосредоточили наше внимание на главе о потерях, а затем сосредоточили наше внимание на кросс-энтропийной части, где концепция Категориальная перекрестная энтропия объяснена. На самом деле, именно так поступает большинство из нас, людей.

Внимание в нейронных сетях чем-то похоже на то, что мы находим у людей. Они фокусируются на высоком разрешении в определенных частях входных данных, в то время как остальная часть входных данных имеет низкое разрешение [2].

Допустим, мы делаем NMT (нейронный машинный переводчик),

Посмотрите на эту анимацию, она показывает, как работает простая модель последовательностей.

Работа классической модели Seq-to-Seq. источник: jalammar’s (CC BY-NC-SA 4.0).

Мы видим, что для каждого шага кодера или декодера RNN обрабатывает свои входные данные и генерирует выходные данные для этого временного шага. На каждом временном шаге RNN обновляет свое скрытое состояние на основе входных данных и предыдущих выходных данных, которые он видел. В анимации мы видим, что скрытое состояние на самом деле представляет собой контекстный вектор , который мы передаем декодеру.

Время «Внимание» .

Контекстный вектор оказался проблематичным для этих типов моделей. У моделей проблемы с длинными предложениями. Или сказать, что они столкнулись с проблемой исчезающего градиента в длинных предложениях. Итак, решение пришло в статье [2], Внимание было введено. Это значительно улучшило качество машинного перевода, поскольку позволяет модели сосредоточиться на соответствующей части входной последовательности по мере необходимости.

Работа модели Seq-to-Seq с вниманием.источник: jalammar’s (CC BY-NC-SA 4.0).

Эта модель внимания отличается от классической последовательной модели двумя способами:

  • По сравнению с простой последовательной моделью здесь кодировщик передает гораздо больше данных декодеру. Если раньше в декодер посылалось только последнее, окончательное скрытое состояние кодирующей части, то теперь кодировщик передает в декодер все скрытые состояния (даже промежуточные).
  • Часть декодера выполняет дополнительный шаг, прежде чем производить вывод.Объясняется ниже-

Последний шаг декодеров выполняется следующим образом-

  1. Он проверяет каждое полученное скрытое состояние, поскольку каждое скрытое состояние кодировщика в основном связано с конкретным словом входного предложения.
  2. Я даю оценку каждому скрытому состоянию.
  3. Затем каждый балл умножается на соответствующий балл softmax, таким образом усиливая скрытые состояния с высокими баллами и заглушая скрытые состояния с низкими баллами. (обратитесь к изображению ниже для четкой визуализации.)
источник: jalammar’s (CC BY-NC-SA 4.0).

Это упражнение по оценке выполняется на каждом временном шаге на стороне декодера.

Теперь, когда мы собираем все это вместе:

  1. Уровень декодера внимания принимает встраивание токена и начальное скрытое состояние декодера, RNN обрабатывает его ввод и создает вывод и новый вектор скрытого состояния. (h5).
  2. Теперь мы используем скрытые состояния кодировщика и вектор h5 для вычисления вектора контекста C4 для этого временного шага.Именно здесь применяется концепция внимания, поэтому она называется шагом внимания.
  3. Объединяем (h5) и C4 в один вектор.
  4. Теперь этот вектор передается в нейронную сеть с прямой связью, выход нейронных сетей с прямой связью указывает выходное слово этого временного шага.
  5. Эти шаги повторяются для следующих временных шагов. (См. слайд ниже для четкой визуализации.)
Последний шаг. источник: jalammar’s (CC BY-NC-SA 4.0).

Итак, вот как работает Внимание .

Напр. Работа внимания в задаче с субтитрами к изображениям:-

Работа с вниманием в задаче с субтитрами к изображениям. источник: CodeEmporium (CC0).

Теперь вспомните вопрос, который я задавал ранее:

Как мы можем распараллелить последовательные данные??

Итак, вот и наши боеприпасы-

Статья под названием «Внимание — это все, что вам нужно» , опубликованная в 2017 году, представляет архитектуру кодировщика-декодера, основанную на уровнях внимания, называемых преобразователем. .

Основное отличие состоит в том, что входная последовательность может передаваться параллельно, что позволяет эффективно использовать графический процессор, а также можно увеличить скорость обучения. И он основан на многоголовом слое внимания, проблема исчезающего градиента также преодолевается с большим отрывом. Статья основана на применении трансформатора в NMT (нейронном машинном переводчике).

Итак, здесь обе наши проблемы, о которых мы говорили ранее, здесь до некоторой степени решены.

Как, например, в переводчике, состоящем из простых RNN, мы непрерывно вводим нашу последовательность или предложение, по одному слову за раз, чтобы генерировать вложения слов.Поскольку каждое слово зависит от предыдущего слова, его скрытое состояние действует соответствующим образом, поэтому необходимо выполнять по одному шагу за раз. В то время как в трансформере это не так, мы можем передать все слова предложения одновременно и определить вложение слова одновременно. Итак, как это работает на самом деле, посмотрим дальше —

источник: arXiv:1706.03762 [cs.CL].

1. Блок энкодера —

источник: arXiv:1706.03762 [cs.CL].

Это факт, что компьютеры не понимают слов, они работают с числами, векторами или матрицами.Итак, нам нужно преобразовать наши слова в вектор. Но как это возможно. Итак, здесь появляется концепция Embedding Space . Это похоже на открытое пространство или словарь, где слова с похожими значениями сгруппированы вместе или расположены близко друг к другу в этом пространстве. Это пространство называется пространством вложения, и здесь каждое слово, в соответствии с его значением, отображается и ему присваивается определенное значение. Итак, здесь мы конвертируем наши слова в векторы.

источник: arXiv:1706.03762 [cs.кл.].

Но еще одна проблема, с которой мы столкнемся, заключается в том, что каждое слово в разных предложениях имеет разные значения. Итак, для решения этой проблемы воспользуемся помощью позиционных энкодеров . Это вектор, который дает контекст в соответствии с положением слова в предложении.

Word → Встраивание → Позиционное встраивание → Конечный вектор, называемый контекстом.

Итак, наш ввод готов, теперь он поступает в блок энкодера.

Multi-Head Attention Part —

источник: arXiv:1706.03762 [cs.CL].

Теперь начинается основная суть трансформера, «Самовнимание».

Он фокусируется на том, насколько релевантно конкретное слово по отношению к другим словам в этом предложении. Он представлен в виде вектора внимания. Для каждого слова мы можем сгенерировать вектор внимания, который фиксирует контекстную связь между словами в этом предложении. Источник

: CodeEmporium (CC0).

Единственная проблема, с которой оно сталкивается, состоит в том, что для каждого слова оно имеет гораздо более высокую ценность в предложении, даже если мы склонны к его взаимодействию с другими словами этого предложения.Итак, мы определяем несколько векторов внимания для каждого слова и берем средневзвешенное значение, чтобы вычислить окончательный вектор внимания для каждого слова. Источник

: CodeEmporium (CC0).

Поскольку мы используем несколько векторов внимания, он называется многоголовым блоком внимания .

Сеть прямого распространения —

источник: arXiv:1706.03762 [cs.CL].

Теперь второй шаг — нейронная сеть с прямой связью. Это простая нейронная сеть с прямой связью, которая применяется к каждому вектору внимания. Ее основная цель — преобразовать векторы внимания в форму, приемлемую для следующего уровня кодировщика или декодера.

источник: arXiv:1706.03762 [cs.CL].

Сеть прямого распространения принимает векторы внимания «по одному». И самое лучшее здесь то, что в отличие от RNN, здесь каждый из этих векторов внимания на независимы друг от друга на . Итак, здесь можно применить распараллеливание , и в этом вся разница .

Выход энкодера. источник: arXiv:1706.03762 [cs.CL].

Теперь мы можем передавать все слова одновременно в блок кодировщика и одновременно получать набор кодированных векторов для каждого слова.

2. Блок декодера —

источник: arXiv:1706.03762 [cs.CL].

Теперь, как если бы мы обучали переводчика с английского на французский язык, поэтому для обучения нам нужно дать английское предложение вместе с его переведенным французским предложением для обучения модели. Итак, наши английские предложения проходят через блок кодировщика, а французские предложения проходят через блок декодера.

источник: arXiv:1706.03762 [cs.CL].

Сначала у нас есть слой внедрения и часть позиционного кодировщика, которая изменяет слова в соответствующие векторы. Это похоже на то, что мы видели в части кодировщика.

Многоголовая часть для внимания в маске —

источник: arXiv:1706.03762 [cs.CL].

Теперь он пройдет через блок самоконтроля, где для каждого слова во французских предложениях генерируются векторы внимания, показывающие, насколько каждое слово связано с каждым словом в том же предложении. (Точно так же, как мы видели в части кодировщика).

Но этот блок называется Маскированный многоголовый блок внимания , и я объясню простым языком-

Для этого нам нужно знать, как работает механизм обучения.Во-первых, мы даем английское слово, оно само переведет свою французскую версию , используя предыдущие результаты, затем оно будет соответствовать и сравниваться с фактическим французским переводом (который мы передали в блоке декодера). После сравнения обоих он обновит значение своей матрицы. Вот как он научится после нескольких итераций.

Мы видим, что нам нужно скрыть следующее французское слово, чтобы сначала оно само предсказывало следующее слово, используя предыдущие результаты, не зная реального переведенного слова.Для того, чтобы обучение состоялось, не будет никакого смысла, если оно уже знает следующее французское слово. Поэтому нам нужно его скрыть (замаскировать).

Это пример англо-французского перевода. источник: CodeEmporium (CC0).

Мы можем взять любое слово из английского предложения, но для заучивания мы можем взять только предыдущее слово из французского предложения. Итак, выполняя распараллеливание с матричной операцией, мы убеждаемся, что матрица должна маскировать слова, появляющиеся позже, путем преобразования их в 0, чтобы сеть внимания не могла их использовать.

источник: arXiv:1706.03762 [cs.CL].

Теперь результирующие векторы внимания из предыдущего уровня и векторы из блока кодировщика передаются в другой блок внимания с несколькими головками . ( в этой части также появляются результаты от блока энкодера. На диаграмме также ясно видно, что сюда поступают результаты от блоков энкодера. ). Вот почему он называется Encoder-Decoder Attention Block .

Поскольку у нас есть один вектор каждого слова для каждого английского и французского предложения.Этот блок фактически выполняет сопоставление английских и французских слов и определяет связь между ними. Итак, это та часть, где происходит основное сопоставление английских и французских слов.

Результатом этого блока являются векторы внимания для каждого слова в английских и французских предложениях. Каждый вектор представляет связь с другими словами на обоих языках .

источник: arXiv:1706.03762 [cs.CL].

Теперь мы передаем каждый вектор внимания в блок прямой связи, он формирует выходные векторы во что-то, что легко принимается другим блоком декодера или линейным слоем.

Линейный слой — это еще один слой прямой связи. Он используется для расширения размеров до количества слов на французском языке после перевода.

Теперь он проходит через уровень Softmax, который преобразует ввод в вероятностное распределение, которое человек может интерпретировать.

И полученное слово получается с наибольшей вероятностью после перевода.

Ниже приведен пример, который был проиллюстрирован в блоге Google AI [6] , я поместил его здесь для справки.

Обзор — Работа трансформаторной сети. источник: Google AI (CC0).

Преобразователь начинает с создания начальных представлений или вложений для каждого слова. Они представлены незакрашенными кружками. Затем, используя само-внимание, он собирает информацию из всех других слов, создавая новое представление для каждого слова, основанное на всем контексте, представленном закрашенными шариками. Затем этот шаг повторяется несколько раз параллельно для всех слов, последовательно создавая новые представления.

Декодер работает аналогично, но генерирует по одному слову слева направо. Он обращает внимание не только на другие ранее сгенерированные слова, но и на окончательные представления, сгенерированные кодировщиком.

Итак, вот как работает преобразователь, и теперь это самая современная техника в НЛП. Он дает замечательные результаты, используя механизм самоконтроля , а также решает проблему распараллеливания. Даже Google использует BERT , который использует преобразователь для предварительной подготовки моделей для распространенных приложений НЛП.

Понимание модели GPT-3, BERT и T5

Вы знаете это выражение Когда у вас есть молоток, все выглядит как гвоздь ? Ну а в машинном обучении вроде бы действительно открыли волшебный молоток, для которого все, по сути, гвоздь, и зовут их Трансформеры. Трансформеры — это модели, которые можно спроектировать для перевода текста, написания стихов и статей и даже для создания компьютерного кода. На самом деле, я пишу о множестве удивительных исследований на daleonai.com построен на трансформерах, таких как AlphaFold 2, модели, которая предсказывает структуру белков на основе их генетических последовательностей, а также на мощных моделях обработки естественного языка (NLP), таких как GPT-3, BERT, T5, Switch, Meena и другие. Вы можете сказать, что они более чем соответствуют… тьфу, забудьте об этом.

Если вы хотите оставаться в курсе машинного обучения и особенно НЛП, вы должны хотя бы немного знать о трансформерах. Итак, в этом посте мы поговорим о том, что они из себя представляют, как они работают и почему они так эффективны.


Преобразователь — это тип архитектуры нейронной сети. Напомним, что нейронные сети — очень эффективный тип модели для анализа сложных типов данных, таких как изображения, видео, аудио и текст. Но существуют разные типы нейронных сетей, оптимизированные для разных типов данных. Например, для анализа изображений мы обычно используем сверточные нейронные сети или «CNN». Смутно они имитируют то, как человеческий мозг обрабатывает визуальную информацию.

Сверточная нейронная сеть, любезно предоставлено Renanar2 на Wikicommons.

И примерно с 2012 года мы довольно успешно решаем проблемы со зрением с помощью CNN, такие как идентификация объектов на фотографиях, распознавание лиц и чтение рукописных цифр. Но долгое время для языковых задач (перевод, суммирование текста, генерация текста, распознавание именованных сущностей и т. д.) не существовало ничего сравнительно хорошего. Это было неудачно, потому что язык — это основной способ общения людей.

До того, как в 2017 году были представлены трансформеры, мы использовали глубокое обучение для понимания текста с помощью модели, называемой рекуррентной нейронной сетью или рекуррентной нейронной сетью, которая выглядела примерно так:

Изображение RNN, предоставлено Wikimedia.

Допустим, вы хотели перевести предложение с английского на французский. RNN будет принимать в качестве входных данных английское предложение, обрабатывать слова по одному, а затем последовательно выдавать их французские аналоги. Ключевое слово здесь «последовательно». В языке порядок слов имеет значение, и вы не можете просто перетасовать их. Предложение:

«Джейн отправилась на поиски неприятностей».

означает нечто совершенно отличное от предложения:

.

«Беда пошла искать Джейн»

Таким образом, любая модель, которая собирается понимать язык, должна фиксировать порядок слов, и рекуррентные нейронные сети сделали это, обрабатывая одно слово за раз в последовательности.

Но у RNN были проблемы. Во-первых, им было трудно обрабатывать большие последовательности текста, такие как длинные абзацы или эссе. К тому времени, как они доходили до конца абзаца, они забывали, что было в начале. Например, у модели перевода на основе RNN могут возникнуть проблемы с запоминанием пола темы длинного абзаца.

Хуже того, RNN было трудно обучать. Они, как известно, подвержены так называемой проблеме исчезающего/взрывающегося градиента (иногда вам просто нужно было перезапустить тренировку и скрестить пальцы).Еще более проблематичным было то, что RNN обрабатывали слова последовательно, и их было трудно распараллелить. Это означало, что вы не могли просто ускорить обучение, задействовав для них больше графических процессоров, что, в свою очередь, означало, что вы не могли обучать их на таком большом количестве данных.

Введите Трансформеры

Здесь Трансформеры изменили все. Они были разработаны в 2017 году исследователями из Google и Университета Торонто и изначально предназначались для перевода. Но в отличие от рекуррентных нейронных сетей, Transformers можно очень эффективно распараллелить.А это означало, что при наличии подходящего оборудования можно было обучить несколько действительно больших моделей.

Насколько большой?

Очень большой.

GPT-3, особенно впечатляющая модель генерации текста, которая пишет почти так же хорошо, как человек, была обучена примерно 45 ТБ текстовых данных, включая почти всю общедоступную сеть.

Итак, если вы помните что-нибудь о Трансформерах, пусть это будет так: объедините хорошо масштабируемую модель с огромным набором данных, и результаты, скорее всего, вас поразят.

Как работают трансформеры?

Схема трансформатора из оригинальной бумаги

Хотя диаграмма из оригинальной статьи немного пугает, инновации, лежащие в основе «Трансформеров», сводятся к трем основным концепциям:

  1. Позиционное кодирование
  2. Внимание
  3. Самостоятельное внимание
Позиционное кодирование

Начнем с первого, позиционного кодирования. Допустим, мы пытаемся перевести текст с английского на французский.Помните, что RNN, старый способ выполнения перевода, понимали порядок слов, обрабатывая слова последовательно. Но это также затрудняло их распараллеливание.

Трансформеры

обходят этот барьер с помощью инновационного позиционного кодирования. Идея состоит в том, чтобы взять все слова в вашей входной последовательности — в данном случае английское предложение — и добавить к каждому слову номер его порядка. Итак, вы передаете своей сети последовательность вроде:

[("Дейл", 1), ("говорит", 2), ("привет", 3), ("мир", 4)]

Концептуально вы можете думать об этом как о переносе бремени понимания порядка слов со структуры нейронной сети на сами данные.

Сначала, пока Преобразователь не обучился на каких-либо данных, он не знает, как интерпретировать эти позиционные кодировки. Но по мере того, как модель видит все больше и больше примеров предложений и их кодировок, она учится эффективно их использовать.

Здесь я немного упростил — авторы оригинала использовали синусоидальные функции для позиционного кодирования, а не простые целые числа 1, 2, 3, 4, — но суть та же. Сохраняйте порядок слов как данные, а не структуру, и вашу нейронную сеть станет легче обучать.

Внимание

ПРИВЛЕКАЕТ ВНИМАНИЕ СЛЕДУЮЩУЮ ВАЖНУЮ ЧАСТЬ ТРАНСФОРМАТОРОВ.

Понял?

Внимание — это структура нейронной сети, о которой в наши дни вы услышите повсюду в машинном обучении. На самом деле название статьи 2017 года, в которой были представлены «Трансформеры», называлось не «, мы представляем вам трансформера». Вместо этого он назывался «Внимание — это все, что вам нужно».

Внимание было введено в контексте перевода двумя годами ранее, в 2015 году.Чтобы понять это, возьмите пример предложения из оригинальной статьи:

.

Соглашение о Европейском экономическом пространстве было подписано в августе 1992 года.

Теперь представьте, что вы пытаетесь перевести это предложение на его французский эквивалент:

.

L’accord sur la économique européenne a été signé en août 1992.

Плохой способ попытаться перевести это предложение — просмотреть каждое слово в английском предложении и попытаться выдать его французский эквивалент, по одному слову за раз.Это не сработало бы по нескольким причинам, но, во-первых, некоторые слова во французском переводе перевернуты: это «European Economic Area» на английском языке, но «la zone économique européenne» на французском. Кроме того, французский язык — это язык с родовыми словами. Прилагательные «экономический» и «европейская» должны быть в женской форме, чтобы соответствовать объекту женского рода «ла зона».

Внимание — это механизм, который позволяет текстовой модели «смотреть» каждое слово в исходном предложении при принятии решения о том, как перевести слова в выходном предложении.Вот хорошая визуализация из оригинального документа:

.

Рисунок из статьи «Нейронный машинный перевод путем совместного обучения выравниванию и переводу (2015)»

Это своего рода тепловая карта, показывающая, куда «занимается» модель, когда выводит каждое слово французского предложения. Как и следовало ожидать, w h en модель выводит слово «européenne», она уделяет большое внимание входным словам «европейская» и «экономическая».

И как модель узнает, за какими словами она должна «следить» на каждом временном шаге? Это то, чему научились на данных обучения.Увидев тысячи примеров французских и английских предложений, модель узнает, какие типы слов взаимозависимы. Он учит уважать род, множественность и другие правила грамматики.

Механизм внимания был чрезвычайно полезным инструментом для обработки естественного языка с момента его открытия в 2015 году, но в своей первоначальной форме он использовался вместе с рекуррентными нейронными сетями. Таким образом, инновация статьи «Трансформеры» 2017 года частично заключалась в том, чтобы полностью отказаться от RNN. Вот почему статья 2017 года называлась «Внимание — это все , которые вам нужны.

Самостоятельное внимание

Последняя (и, возможно, самая впечатляющая) часть Трансформера — это поворот внимания под названием «самовнимание».

Тип «ванильного» внимания, о котором мы только что говорили, помогает выравнивать слова в английских и французских предложениях, что важно для перевода. Но что, если вы не пытаетесь переводить слова, а вместо этого создаете модель, которая понимает лежащие в их основе значения и закономерности в языке — модель, которую можно использовать для решения любого количества языковых задач?

В общем, что делает нейронные сети мощными, захватывающими и крутыми, так это то, что они часто автоматически создают осмысленные внутренние представления данных, на которых они обучаются.Например, когда вы исследуете слои нейронной сети зрения, вы обнаружите наборы нейронов, которые «узнают» края, формы и даже высокоуровневые структуры, такие как глаза и рты. Модель, обученная на текстовых данных, может автоматически изучать части речи, правила грамматики и синонимы слов.

Чем лучше внутреннее представление языка изучает нейронная сеть, тем лучше она будет справляться с любой языковой задачей. И оказывается, что внимание может быть очень эффективным способом сделать это, если включить сам ввод текста.

Например, возьмите эти два предложения:

«Сервер, можно чек?»

«Похоже, я только что сломал сервер».

Слово «сервер» здесь означает две очень разные вещи, которые мы, люди, можем легко устранить, взглянув на окружающие слова. Самостоятельное внимание позволяет нейронной сети понимать слово в контексте окружающих его слов.

Таким образом, когда модель обрабатывает слово «сервер» в первом предложении, она может «обслуживать» слово «проверить», что помогает отличить человеческий сервер от металлического.

Во втором предложении модель может обратить внимание на слово «авария», чтобы определить, что этот «сервер» относится к машине.

Самостоятельное внимание помогает нейронным сетям устранять неоднозначность слов, выполнять маркировку частей речи, разрешать сущности, изучать семантические роли и многое другое.

Итак, вот оно.: Трансформеры, объяснение на высоте 10 000 футов, сводятся к:

  1. Кодирование положения
  2. Внимание
  3. Самостоятельное внимание

Если вам нужно более глубокое техническое объяснение, я настоятельно рекомендую ознакомиться с записью в блоге Джея Аламмара The Illustrated Transformer.

Что умеют трансформеры?

Одна из самых популярных моделей на основе трансформаторов называется BERT, сокращение от «представления двунаправленного кодировщика от трансформаторов». Он был представлен исследователями Google примерно в то же время, когда я присоединился к компании, в 2018 году, и вскоре появился почти во всех проектах НЛП, включая Google Search.

BERT относится не только к архитектуре модели, но и к самой обученной модели, которую вы можете скачать и использовать бесплатно здесь. Он был обучен исследователями Google на массивном текстовом корпусе и стал чем-то вроде карманного ножа общего назначения для НЛП.Его можно расширить, решив кучу разных задач, например:

— обобщение текста

— ответ на вопрос

— классификация

— разрешение именованного объекта

— сходство текста

— обнаружение оскорбительного сообщения/ненормативной лексики

— понимание запросов пользователей

— намного больше

BERT доказал, что вы можете создавать очень хорошие языковые модели, обученные на неразмеченных данных, таких как текст, извлеченный из Википедии и Reddit, и что эти большие «базовые» модели могут быть затем адаптированы с данными, специфичными для предметной области, для множества различных вариантов использования.

Совсем недавно модель GPT-3, созданная OpenAI, поразила людей своей способностью генерировать реалистичный текст. Мина, представленная Google Research в прошлом году, представляет собой чат-бот на основе Transformer (akhem, «разговорный агент»), который может вести убедительные разговоры практически на любую тему (этот автор однажды провел двадцать минут, споря с Миной о том, что значит быть человеком) .

Трансформеры

также произвели фурор за пределами НЛП, сочиняя музыку, создавая изображения из текстовых описаний и предсказывая структуру белка.

Как я могу использовать трансформаторы?

Теперь, когда вы убедились в силе Трансформеров, вам может быть интересно узнать, как вы можете начать использовать их в своем собственном приложении. Без проблем.

Вы можете загрузить общие модели на основе Transformer, такие как BERT, с TensorFlow Hub. Для руководства по коду ознакомьтесь с этим, который я написал о создании приложений на основе семантического языка.

Но если вы хотите быть действительно в тренде и пишете на Python, я настоятельно рекомендую популярную библиотеку «Трансформеры», поддерживаемую компанией HuggingFace.Платформа позволяет вам обучать и использовать большинство современных популярных моделей НЛП, таких как BERT, Roberta, T5, GPT-2, очень удобным для разработчиков способом.

Если вы хотите узнать больше о создании приложений с помощью Transformers, возвращайтесь скорее! Скоро появятся новые уроки.


Особая благодарность Луису/Гасу Густаво, Карлу Вайнмайстеру и Алексу Ку за рецензирование первых черновиков этого поста!

(PDF) Уменьшение пусковых токов в сетевых трансформаторах за счет уменьшения остаточного потока с помощью источника питания сверхнизкой частоты

Эта статья принята для включения в будущий выпуск этого журнала.Контент является окончательным в том виде, в каком он представлен, за исключением нумерации страниц.

8IEEE TRANSACTIONS ON POWER DELIVERY

[19] O.A. Mahgoub, «Микроконтроллерный переключатель для минимизации трехфазного пускового тока

», в Proc. Международный IEEE. Силовой электрон. Congr.,

Куэрнавака, Мексика, 1996, стр. 107–112.

[20] JH Brunke и KJ Frohlich, «Устранение пусковых токов трансформатора

с помощью управляемого переключения, часть I: Теоретические соображения»,

IEEE Trans.Power Del., vol. 16, нет. 2, стр. 276–280, апрель 2001 г.

[21] Дж. Х. Брунке и К. Дж. Фролих, «Устранение пусковых токов трансформатора

с помощью управляемого переключения, часть II: Рассмотрение применения и производительности

», IEEE Trans. Power Del., vol. 16, нет. 2, стр. 281–285,

, апрель 2001 г.

[22] Дж. Ф. Чен, Т. Дж. Лян, С. К. Ченг, С. Д. Чен, Р. Л. Лин и У. Х.

Ян, «Асимметричная конфигурация обмотки для уменьшения пускового тока

5 с соответствующим током короткого замыкания в трансформаторе», Proc.Inst.Elect.,

Eng., Elect. Power Appl., vol. 152, нет. 3, May 2005.

[23] В. Молкретт, Дж. Котны, Дж. Свон и Дж. Брудный, «Уменьшение пускового тока

в однофазном трансформаторе с использованием метода виртуального воздушного зазора»,

IEEE Trans . Маг., вып. 34, нет. 4, стр. 1192–1194, июль 1998 г.

[24] C.K. Cheng, TJ Liang, JF Chen, S.D. Chen, and W.H. Yang,

«Новый подход к снижению пускового тока силового трансформатора». прежний», проц.Инст. Избрать. инж., эл. Power Appl., vol. 151, нет. 3,

, стр. 289–295, май 2004 г.

[25] Ф. В. Сирс, «Ферромагнетизм», в книге «Электричество и магнетизм».

Рединг, Массачусетс: Addison-Wesley, 1951, гл. 15, с. 15-3, стр. 335–339.

[26] Э. П. Дик и В. Уотсон, «Модели трансформатора для исследований переходных процессов

на основе полевых измерений», IEEE Trans. Мощное приложение. сист., вып. PAS-

100, № 1, стр. 409–419, январь 1981 г.

[27] Б. А. Морк, Ф.Гонсалес, Д. Ищенко, Д. Л. Штум и Дж. Митра,

«Модель гибридного трансформатора для моделирования переходных процессов, часть I: разработка и параметры», IEEE Trans. Power Del., vol. 22, нет. 1, стр.

248–255, январь 2007 г.

[28] Рабочая группа CIGRE 02 (SC 33), Руководство по представлению сетевых элементов

при расчете переходных процессов, CIGRE Tech. Брошюра

39, 1990.

[29] А. Резаи-Заре, Р. Иравани, М. Санайе-Пасанд, Х. Мохсени и С.

Farhangi, «Точная модель гистерезиса для анализа феррорезонанса трансформатора

a», IEEE Trans. Power Del., vol. 23, нет. 3, pp. 1448–1456,

, июль 2008 г.

[30] М. Х. Рашид, Силовая электроника — схемы, устройства и приложения,

, 3-е изд. Река Аппер-Сэдл, Нью-Джерси: Prentice-Hall, 2004, гл. 6, с.

232, рис. 6.2.

Барис Кован родился в Анкаре, Турция, в

декабря 1980 года. Он получил степень бакалавра наук. и

М.наук (с отличием) в области электротехники

Политехнический институт Нью-Йоркского университета с отличием

Колледж, Бруклин, штат Нью-Йорк, в 2008 году. В настоящее время он работает в Altran Solutions. Его карьера и исследовательские интересы связаны с возобновляемой энергией и

распределенной генерацией.

Франсиско де Леон (S’86-M’92-SM’02) получил

степень бакалавра наук. и магистр наук. степени в области электротехники

Национального политехнического института, Мексика,

в 1983 и 1986 годах соответственно, и степень доктора философии.D.

Степень Университета Торонто, Торонто, Онтарио,

Канада, в 1992 году.

Он занимал несколько научных должностей в

Мексике и работал в канадской электроэнергетике

. В настоящее время он является адъюнкт-профессором

Политехнического института Нью-Йоркского университета,

Бруклин, Нью-Йорк. Его исследовательские интересы включают

анализ силовых явлений в несинусоидальных условиях, анализ переходных и

установившихся режимов энергосистем, тепловые характеристики кабелей и

расчет электромагнитных полей, применяемых при проектировании и моделировании машин.

Дариуш Чарковски (M’97) получил медаль MS. de-

gree в области электроники Горного университета и

Металлургия, Краков, Польша, в 1989 г., M.S. степень

по электротехнике Государственного университета Райта

, Дейтон, Огайо, в 1993 г., и степень доктора философии. степень в области электротехники

Университета Флориды,

Гейнсвилл, в 1996 г.

В 1996 г. он поступил в Политехнический университет,

Бруклин, Нью-Йорк (ныне Политехнический институт, Нью-

Йоркский университет), где он в настоящее время ассоциированный

профессор электротехники и вычислительной техники.

Он является соавтором Resonant Power Converters (Wiley, 1995). Его исследования

связаны с силовой электроникой, электроприводами и качеством электроэнергии.

Зиван Забар (M’76–SM’81) родился в Хадере, Израиль,

, в 1939 году. Он получил степень бакалавра наук, магистра наук и доктора наук.

степени Израильского технологического института Технион

в 1965, 1968 и 1972 годах соответственно.

В настоящее время он является профессором электротехники

в Политехническом институте, Нью-Йорк

Университет, Бруклин, Нью-Йорк.Его областью интересов

являются линейные двигатели, системы преобразования электроэнергии

и силовая электроника. У него шесть патентов

и множество статей, опубликованных в технических журналах

. Он является членом Sigma Xi.

Лео Биренбаум (S’45–A’48–M’55–SM’70) был

, родился в Нью-Йорке в 1927 году. Он получил

B.E.E. степень Cooper Union в 1946 году и

M.E.E. и М.С. Степени (физики) Политехнического института

, Бруклин, Нью-Йорк, в 1958 и 1974 годах,

соответственно.

В настоящее время является почетным профессором Политехнического института

, где в течение многих лет вел

курсы по электрическим цепям, электромеханическому преобразованию энергии

, электромагнитным полям и вращающимся

машинам. Занимался исследованиями в ряде

областей: микроволновые компоненты и передача, биологические эффекты ми-

волновых и низкочастотных электромагнитных полей, электромагнитные пусковые установки,

и распределение электроэнергии.Он является соавтором примерно 40 ре-

просмотренных статей и имеет 3 патента на микроволновые устройства.

Профессор Биренбаум является членом Sigma Xi, Tau Beta Pi, Биоэлектромагнитного общества

и Нью-Йоркской академии наук.

Отчет о состоянии ИИ: Трансформеры захватывают мир ИИ штурмом — Блог в 2021 году.Первоначально разработанная для работы с моделями обработки естественного языка, эта технология за последние 12 месяцев вырвалась из NLP и превратилась в архитектуру общего назначения для ML.

Это лишь один из результатов четвертого ежегодного отчета о состоянии искусственного интеллекта, недавно опубликованного Натаном Бенаичем, генеральным партнером Air Street Capital, венчурной компании, специализирующейся на компаниях, специализирующихся на искусственном интеллекте и биологических науках, и Яном Хогартом. бизнес-ангел в более чем 100 стартапах.

Бенайч и Хогарт предсказали восходящую траекторию развития трансформаторов в выпуске своего отчета за 2020 год, но они были застигнуты врасплох тем, насколько быстро сообщество машинного обучения приняло эту технологию.Самым удивительным результатом прошлого года стало «повсеместное распространение преобразователей из НЛП почти во все остальные задачи машинного обучения», — сказал Бенаич во время недавнего выступления об отчете за 2021 год, организованном Эллиотом Брэнсоном, директором по машинному обучению и разработке в Scale AI.

«Мы предсказывали, что это будет применяться в компьютерном зрении, но мы не думали, что оно распространится на химию и биологию. Возможность переноса этих моделей в разные области действительно замечательна», — Натан Бенайч,

. В отчете рассматриваются важные разработки в области ИИ и машинного обучения в четырех ключевых областях: исследования, спрос и предложение талантов в области ИИ, области коммерческого применения ИИ и его влияние на бизнес. и политика, включая регулирование ИИ и его экономическое влияние.Отчет также включает прогнозы долгосрочных тенденций ИИ.

В отчете упоминается Perceiver, многообещающий преобразователь от DeepMind. Его универсальная архитектура не использует допущения, специфичные для предметной области, и может обрабатывать произвольные типы входных данных, включая изображения, видео и облака точек.

Еще одна разработка, демонстрирующая гибкость преобразователей, была сделана исследователями из Калифорнийского университета в Беркли, Facebook AI и Google, которые показали, что вам не нужно точно настраивать основные параметры предварительно обученного языкового преобразователя, чтобы получить очень высокую производительность на другая задача.

Несмотря на то, что трансформеры стали чрезвычайно популярны в мире машинного обучения, в отчете отмечается, что две технологии — сверточные нейронные сети и многослойные персептроны — могут обеспечить преимущества, сравнимые с трансформерами в некоторых задачах НЛП и компьютерного видео.

В биологии, говорится в отчете, ИИ-первые подходы могут моделировать как белки, так и РНК с высокой точностью. «Два самых крутых приложения в биологии, которые я нашел, связаны с НЛП», — сказал Бенайч.

«Группа исследователей Salesforce использовала эти модели, применимые для перевода предложения с одного языка на другой, и применила их к большому количеству белков», — пояснил он.«Из этого они поняли «язык» белков.

«Самое крутое в этом то, что вы можете получить модель для создания белка, которого никогда не существовало в природе» и который обладает новыми свойствами, сказал он, «которые имеют промышленное значение и интерес».

Некоторые задавались вопросом, как исследовательская группа Salesforce, занимающаяся разработкой корпоративного программного обеспечения, может оказать «большое влияние в области, в которой у них, по-видимому, нет прямого опыта», — сказал Бенайч.

«Тот факт, что это возможно, свидетельствует об универсальности этих моделей.

Еще одним прорывом в течение года стало открытие исследователей из Массачусетского технологического института того, что модели НЛП можно использовать для предсказания эволюции шиповидного белка вируса COVID-19. Использование моделей для коллективного изучения «грамматики» шиповидного белка может открыть двери для выявления мутаций до того, как они произойдут, и дать вакцинам возможность противостоять им, когда они действительно появятся.

В отчете также отмечено, что JAX набирает популярность в качестве платформы машинного обучения. Хотя эта структура еще не используется в производстве, в отчете прогнозируется, что разрыв между исследованиями и производством в конечном итоге будет закрыт.

В отчете отдела кадров говорится, что Китай продолжает наращивать свои возможности ИИ. В отчете говорится, что китайские университеты перешли от того, что в 1980 году не публиковали исследований в области ИИ, к тому, чтобы сегодня производить самый большой объем качественных исследований в области ИИ. Между тем, прогнозируется, что в Китае будет вдвое больше докторов наук STEM. студенты в Соединенных Штатах к 2025 году.

Другие страны также активизируют свои усилия в области искусственного интеллекта, говорится в отчете. Бразилия и Индия сегодня нанимают в три раза больше специалистов по ИИ, чем в 2017 году, что соответствует или превышает рост найма как в Канаде, так и в Соединенных Штатах.

В отчете содержится предупреждение о растущей тенденции в области ИИ, когда крупные технологические компании сотрудничают с элитными университетами за счет средних и младших школ. Это приводит к «дедемократизации» исследований в области ИИ, когда небольшая группа участников создает большую часть высокоэффективных исследований.

Он добавил, что академическое финансирование и истощение факультетов являются постоянными проблемами. Сокращение государственного финансирования угрожает студентам STEM, обучение которых обходится дороже. Это резко контрастирует с Китаем, где учащиеся начальной и средней школы проходят курсы ИИ с 2018 года.

В отраслевой сфере, говорится в отчете, экосистема компаний ИИ продолжала развиваться в течение года. IPO только трех компаний — UiPath, Snowflake и Confluent — принесли в 2021 году публичную рыночную стоимость в размере 38 миллиардов долларов. API и вертикальные программные решения для клиентов, которые не могут позволить себе прямую конкуренцию с крупными технологиями.

В отчете говорится, что в течение года две фармацевтические компании, занимающиеся ИИ, также разместили IPO.Одна из них, Anagenex, разработала метод с использованием графовых нейронных сетей для повышения точности DEL — химических библиотек, закодированных ДНК, — которые используются для синтеза и скрининга больших коллекций низкомолекулярных соединений. В отчете говорится, что другая компания, LabGenius, значительно улучшила структуру белков, используемых для лечения воспалительных заболеваний кишечника.

Продукты, основанные на искусственном интеллекте, также начинают доверять в сценариях с более высоким риском, поясняется в отчете. В нем упоминаются модели компьютерного зрения, разработанные Intenseye, которые могут обнаруживать более 35 типов ситуаций, связанных со здоровьем и безопасностью сотрудников, которые люди не могут обнаружить в режиме реального времени.Тем временем Connecterra разработала систему мониторинга здоровья молочных коров путем сбора данных с датчика, который носят на шее каждого животного. Система может выявлять проблемы со здоровьем за несколько дней до того, как они будут обнаружены при наблюдении человека.

В отчете говорится, что проблемы с данными стали вызывать большую озабоченность в сообществе ML.

Хотя модели машинного обучения становятся все более мощными и доступными, усовершенствования моделей были незначительными. Это пробудило сообщество машинного обучения к тому, что для создания более качественных продуктов необходимы более эффективные методы работы с данными и MLOps.

Больше внимания уделяется вопросам данных, таким как систематическая ошибка, дрейф, метки и спецификация. В частности, недостаточная спецификация может стать острой проблемой в промышленных условиях. «Модели могут работать немного по-разному в зависимости от того, как вы их инициализируете, что пугает», — сказал Бенайч.

В отчете добавлено, что тесты для моделей также нуждаются в улучшении. Быстрое превышение тестов — обычно в течение нескольких месяцев — стало обычным явлением, но тесты часто не отражают, как модель будет работать в реальном мире.В отчете содержится призыв к более динамичному бенчмаркингу, при котором наборы данных постоянно обновляются пользователями-людьми, что сделает бенчмарки более полезными.

В отчете также упоминается текущий дефицит полупроводников. Он отметил, что интерес к отечественному производству полупроводников быстро возрос среди стран, страдающих от дефицита, вызванного пандемией.

Это будет непростая задача, объяснил Бенайч. «Несмотря на то, что США и Европа выделяют 200 миллиардов долларов на производство полупроводников на суше, достижение суверенитета над всей цепочкой создания стоимости обойдется более чем в 1 триллион долларов», — сказал он.Это почти в шесть раз превышает совокупные инвестиции в исследования и разработки в капитальных затратах всей цепочки создания стоимости полупроводников в 2019 году. «Это невероятно тяжелая битва», — добавил он.

Растет осведомленность о необходимости обеспечения безопасности ИИ, чтобы убедиться, что ИИ не используется таким образом, чтобы причинить вред человечеству. Ссылаясь на опрос 524 исследователей ИИ, проведенный Корнеллским, Оксфордским и Пенсильванским университетами, в отчете говорится, что 68% из них считают, что безопасности следует уделять больше внимания. Это по сравнению с 49% всего пять лет назад.Тем не менее, в этой области по-прежнему не хватает персонала: менее 100 штатных исследователей работают в области согласования ИИ, другими словами, над тем, как обеспечить соответствие целей систем ИИ интересам человечества.

Между тем, в некоторых странах искусственный интеллект находится под прицелом регулирующих органов. В Европейском Союзе на рассмотрении находится предлагаемый закон, который запрещает методы искусственного интеллекта, использующие «подсознательные методы» для искажения поведения человека или нацеливания на уязвимые группы.

Трансформеры, говорится в отчете, заменят рекуррентные нейронные сети для изучения моделей реального мира.Это позволит создать усиленных обучающихся агентов, которые смогут превзойти людей в больших и насыщенных игровых средах.

Авторы отчета также видят волну консолидации полупроводников с искусственным интеллектом и предсказывают, что DeepMind осуществит крупный исследовательский прорыв в физических науках.

Наука будет одним из главных бенефициаров ИИ в наступающем году, сказал Бенайч.

«Я с нетерпением жду новых фундаментальных научных проблем, которые будут решаться с помощью машинного обучения.

СТНП – Комитет по трансформаторам ПЭС

СМ. В РАСПРОСТРАНЕНИИ SC.
Стандарт Титул Офицеры Статус Шашки Документы
C57.12.23
WG
Стандарт IEEE для погружных однофазных трансформаторов: 250 кВА и меньше; Высокое напряжение 34 500GrdY/19 920В и ниже; Низкое напряжение 600 В и ниже Председатель: Алан Траут
Телефон: +1 859 221 9144
[email protected]
Заместитель председателя: открытый
Телефон:
.
Неактивный
Опубл. 2018
Ред. Срок: 31.12.2028
.
. .
. .
. .
. .
C57.12.24
WG
Стандарт IEEE для погружных трехфазных трансформаторов мощностью 3750 кВА и меньше: высокое напряжение, 34 500 GrdY/19 920 вольт и ниже; Низкое напряжение, 600 вольт и ниже Председатель: Бен Гарсия
Телефон: +1 714 895 0787
Бенджамин[email protected]
Заместитель председателя: Том Даузат
Телефон: +1 225 937 8154
[email protected]
Секретарь: Джордж Пайерле
Телефон: +1 330 908 0418
[email protected]
Активный
Опубл. 2016
Ред. со сроком: 31.12.2026
PAR Срок действия: 31.12.2023
. . Осень 2021 минуты (неутверждена) 3dec2021
GEC-1128 Понимание нержавеющей стали 18May2019
IEEE TF Materials & Corrosion Report 18may2019
Fall Prestation-Galvanic Corrosion 23oct2018
Spring 2018 Corrosion Corrosion и Cathodic.
С57.12.40
РГ
Стандарт IEEE для сети, трехфазные трансформаторы, 2500 кВА и меньше; Высокое напряжение, 34 500 GrdY/19 920 и ниже; Низкое напряжение, 600 В и ниже; Типы метро и хранилищ (с погружением в жидкость) Председатель: Дэвид Блю
Телефон: +1 609 456 8973
[email protected]
Секретарь: Дэн Шварц
Телефон: +1 330 397-2421
[email protected]
Активный
Опубл. 2017
Ред. Срок: 31.12.2027
PAR Exp.: 31.12.2023
. . Протокол осени 2021 г. (не утверждено) 3 декабря 2021 г.
Презентация погружных сетевых трансформаторов 10 апреля 2018 г.
Презентация Powertech из нержавеющей стали весной 2018 г. 10 апреля 2018 г.
C57.12.44
РГ
Стандартные требования IEEE для вторичных средств защиты сети Председатель: Марк Фолкнер
Телефон: +1 864 993 0509
[email protected]
Заместитель председателя: Алекс Масиас
Телефон: +1 713 207 4556
алекс[email protected]
Активный
Опубл. 2014
Ред. со сроком: 31.12.2024
PAR Срок действия: 31.12.2022
C57.12.44 Отредактировано 2 11 октября 2018 г. Минуты за осень 2021 г. (не утверждено) 3 декабря 2021 г.
. .
C57.12.53
WG
Руководство по уменьшению коррозии подземных трансформаторов и устройств защиты сети Председатель: Уилл Эллиот
Телефон: +1 318 286 2868
[email protected]
Заместитель председателя: Авиджит Шингари
Телефон: +1 240 308 9210
[email protected]
Секретарь: Одри Зиберт-Тиммер
Телефон: +1 604 734 0105
[email protected]
Активный
Опубл. Новый проект
PAR Exp.: 31.12.2026
C57.12.53D0 6 апреля 2022 г.
. .
Протокол весны 2022 г. (не утверждено) 12 апреля 2022 г. 
WG-файлы в IEEE Collabratec .
. .
. .
C57.12.57
.
Требования IEEE к вентилируемым сетевым трансформаторам сухого типа 2500 кВА и ниже, трехфазные с высоким напряжением 34 500 В и ниже, низким напряжением 216Y/125 и 480Y/125 В Председатель: .
Телефон: .
.
Неактивен
Отозван в 2001 г. Больше не поддерживается IEEE
. .
C57.167
РГ
Руководство по мониторингу распределительных трансформаторов Председатель: Гэри Хоффман
Телефон: +1 973 474 2171
[email protected]
Заместитель председателя: Майк Тибо
Телефон: +1 209 628 3126
[email protected]
Активный
Новый проект
PAR Exp.: 31.12.2022
. . ПРИМЕЧАНИЕ. СООБЩЕНИЯ ДЛЯ ЭТОЙ РГ

THE HUB NETWORK ОБЪЯВЛЯЕТ ВЫПУСК СОВЕРШЕННО НОВОЙ СЕРИИ ТРАНСФОРМАТОРОВ НА 2015 ГОД: Discovery Press Web

THE HUB NETWORK ОБЪЯВЛЯЕТ ОБЪЯВЛЕНИЕ СОВЕРШЕННО НОВОЙ СЕРИИ ТРАНСФОРМАТОРОВ В ПРОИЗВОДСТВЕ НА 2015 ГОД

Уилл Фридл, Даррен Крисс и Констанс Циммер сыграют главные роли в новом мультсериале от Hasbro Studios

17 марта 2014 г.

 

ЛОС-АНДЖЕЛЕС. The Hub Network, чемпионы по семейным развлечениям и единственная сеть, занимающаяся развлечением для детей и их семей, которые они могут смотреть вместе, объявила сегодня о том, что в настоящее время разрабатывается новый мультсериал для всемирно известного бренда ТРАНСФОРМЕРЫ.Дебют нового остросюжетного сериала, который должен выйти в начале 2015 года, производится Hasbro Studios, производственно-дистрибьюторским подразделением Hasbro, Inc., а исполнительным продюсером является Джефф Клайн («Трансформеры Прайм», «Солдат Джо Ренегатс»). .

Действие этой новой серии происходит спустя годы после битвы между автоботами и десептиконами в «Трансформеры Прайм» и рассказывает о нашем герое Бамблби, который возглавит совершенно новую команду автоботов. В шоу задействованы все звезды: Уилл Фридл («Мальчик познает мир»), вернувшийся в роли Бамблби, а также Даррен Крисс («Хор»), Констанс Циммер («Карточный домик») и Тед МакГинли («Женаты, с детьми» ).Смешивая 3D-персонажей с нарисованной вручную окружающей средой, сериал сочетает в себе приключения и множество комедий, что делает его захватывающим приключением для детей и семей, чтобы весело провести время вместе.

Это большой год, так как бренд TRANSFORMERS отмечает свое 30-летие. Hub Network также будет отмечать успех франшизы специальными мероприятиями, о которых будет объявлено позже в этом году.

ТРАНСФОРМАТОРЫ и все связанные персонажи являются товарными знаками Hasbro и используются с разрешения.© 2014. Хасбро. Все права защищены.

О сети Hub

The Hub Network — это многоплатформенное совместное предприятие компаний Discovery Communications (NASDAQ: DISCA, DISCB, DISCK) и Hasbro Inc. (NASDAQ: HAS), которое продвигает семейные развлечения, предоставляя интересные, забавные и удобные для всей семьи развлечения, которые дети и их родители могут наслаждаться вместе. Сеть кабельного и спутникового телевидения предлагает оригинальные программы, а также контент из богатого портфолио развлекательных и образовательных ресурсов Hasbro, созданных за последние 90 лет, и от ведущих сторонних производителей со всего мира.Ассортимент Hub Network включает анимационные и игровые сериалы, а также специальные предложения, игровые шоу и любимые семейные фильмы. Сеть расширяет свой контент за счет надежного и привлекательного онлайн-присутствия на HubNetwork.com. 10 октября 2010 г. сеть Hub была переименована в Discovery Kids и доступна почти в 71 миллионе семей в США. Логотип и название Hub Network являются товарными знаками Hub Television Networks, LLC. Все права защищены.

Чтобы найти канал в вашем регионе, посетите HubNetwork.com и проверьте локатор каналов в верхней части страницы.

Посетите Hub Network в социальных сетях:

Facebook на Facebook.com/HubTVNetwork

Твиттер @HubTVNetwork

Инстаграм @HubTVNetwork

YouTube на YouTube.com/HubTVNetwork

Примечание. Для просмотра иллюстраций посетите сайт press.discovery.com/us/Hub/

.

 

О студии Hasbro

Hasbro Studios — лос-анджелесское развлекательное подразделение Hasbro, Inc.(НАСДАК: ЕСТЬ). Студия отвечает за развлекательное повествование, ориентированное на бренд, для компании на телевидении, в кино, коммерческих проектах и ​​короткометражных фильмах. Он разрабатывает, производит и распространяет телешоу на основе брендов Hasbro мирового класса, включая ТРАНСФОРМАТОРЫ, MY LITTLE PONY, LITTLEST PET SHOP и FAMILY GAME NIGHT. Многие из этих шоу транслируются в Hub Network, американской телевизионной сети для детей и их семей, которая является совместным предприятием Hasbro и Discovery Communications (NASDAQ: DISCA, DISCB, DISCK).Шоу Hasbro Studios также можно увидеть в сетях более чем 180 стран мира. С момента своего образования в 2009 году студия получила семь наград Daytime Emmy и 16 номинаций. Что касается фильмов, студия разрабатывает и выпускает ряд полнометражных фильмов на основе брендов Hasbro, в том числе «ТРАНСФОРМЕРЫ 4» (Paramount), G.I. JOE 3 (Paramount) и Уиджи (Universal Pictures). Команда студии также курирует производство рекламных роликов с участием брендов Hasbro, а также производство короткого контента, который можно увидеть на всех основных цифровых платформах и социальных сетях по всему миру.

Генеративное моделирование с разреженными преобразователями

Мы разработали Sparse Transformer, глубокую нейронную сеть, которая устанавливает новые рекорды в предсказании того, что будет дальше в последовательности — будь то текст, изображения или звук. Он использует алгоритмическое улучшение механизма внимания для извлечения шаблонов из последовательностей в 30 раз длиннее, чем это было возможно ранее.

Прочтите PaperView Code

Одной из существующих проблем в исследованиях ИИ является моделирование отдаленных, тонких взаимозависимостей в сложных данных, таких как изображения, видео или звуки.2) Механизм самообслуживания $ Transformer, а также несколько других улучшений для его непосредственного применения к этим богатым типам данных. Ранее модели, используемые для этих данных, были специально созданы для одной области или их было трудно масштабировать для последовательностей длиной более нескольких тысяч элементов. Напротив, наша модель может моделировать последовательности с десятками тысяч элементов с использованием сотен слоев, обеспечивая высочайшую производительность в нескольких областях. В OpenAI мы используем его, чтобы помочь нам создавать системы ИИ, которые обладают большей способностью понимать мир.

Глубокое внимание

В «Трансформерах» каждый выходной элемент соединен с каждым входным элементом, и веса между ними динамически рассчитываются в зависимости от обстоятельств. Этот процесс называется внимание . Хотя считается, что это позволяет трансформерам быть более гибкими, чем модели с фиксированными схемами подключения, на практике это требует создания матрицы внимания $N\times N$ для каждого слоя и головки внимания, что может потреблять большое количество ресурсов. память при применении к типам данных со многими элементами, такими как изображения или необработанный звук.

Тип данных Сохранено Пересчитано
1024 текстовых маркера
(несколько абзацев)
1,0 ГБ 16 МБ
32x32x3 пикселя
(изображение CIFAR-10)
9,6 ГБ 151 МБ
64x64x3 пикселей
(изображение Imagenet 64)
154 ГБ 2,4 ГБ
24 000 выборок
(~2 секунды звука 12 кГц)
590 ГБ 9.2 ГБ

Внимание использование памяти для глубокого преобразователя (64 слоя и 4 головки), когда матрицы сохраняются в памяти или пересчитываются при обратном проходе. Для справки, стандартные графические процессоры, используемые для глубокого обучения, обычно имеют объем памяти от 12 до 32 ГБ.

Один из способов уменьшить это — пересчитать матрицу внимания из контрольных точек во время обратного распространения — хорошо зарекомендовавший себя в глубоком обучении метод сокращения использования памяти за счет дополнительных вычислений.Когда это делается для матрицы внимания в Transformers, это означает, что наибольшая стоимость памяти становится независимой от количества слоев, что позволяет нам обучать сети с существенно большей глубиной, чем это было возможно ранее. На практике мы обнаружили, что трансформаторы с глубиной до 128 слоев превосходят более мелкие сети в тестовых задачах, таких как CIFAR-10.

Для обучения этих моделей с повышенной глубиной мы внесли несколько корректировок в порядок операций в преобразователе и изменили схему инициализации.Полную информацию можно увидеть в нашей статье.

Редкое внимание

Однако даже вычисление одной матрицы внимания может стать непрактичным для очень больших входных данных.2)$.

Чтобы оценить осуществимость подхода, мы сначала визуализировали изученные паттерны внимания для глубоких Трансформеров на изображениях, обнаружив, что многие из них демонстрируют интерпретируемые и структурированные паттерны разреженности. Каждое из приведенных ниже изображений показывает, какие входные пиксели (выделены белым цветом) посещаются данной головкой внимания, чтобы предсказать следующее значение на изображении. Когда входные части сосредоточены на небольших подмножествах и демонстрируют высокую степень регулярности, слой поддается разрежению.Их выборка показана здесь для 128-слойной модели на изображениях CIFAR-10:

Слой 19Слой 20 Выученные паттерны внимания (белое выделение) для нескольких слоев 128-слойной сети CIFAR-10. Эти слои научились разделять внимание по двум измерениям. Уровень 19 суммирует информацию для каждой строки, а уровень 20 объединяет эти сводки по столбцам, что приводит к эффективной факторизации операции полного внимания.
Слой 6Слой 36 Некоторые слои научились обращаться к позиционной памяти, часто обращаясь к одинаковым местоположениям независимо от входных данных или временного шага (уровень 6).Другие уровни изучили шаблоны доступа, сильно зависящие от данных (уровень 36).

В то время как многие слои отображают разреженную структуру, некоторые слои явно демонстрируют динамическое внимание, которое распространяется на все изображение. Чтобы сохранить способность нашей сети изучать такие шаблоны, мы реализовали двумерную факторизацию матрицы внимания, где сеть может уделять внимание всем позициям за два шага разреженного внимания.

Первая версия, шаг, внимания, примерно эквивалентна тому, что каждая позиция обращает внимание на свою строку и свой столбец, и похожа на шаблон внимания, изученный сетью выше.(Обратите внимание, что внимание к столбцу можно эквивалентно сформулировать как внимание к строке транспонированной матрицы). Вторая версия, , фиксированное внимание, обращает внимание на фиксированный столбец и элементы после последнего элемента столбца, шаблон, который мы нашли полезным, когда данные не вписываются в двумерную структуру (например, текст). За более подробной информацией мы отсылаем читателей к нашей газете.

Экспериментальные результаты

Sparse Transformers установили новые современные оценки для оценки плотности CIFAR-10, Enwik8 и Imagenet 64.

СИФАР10 Бит на размер
PixelCNN++ (Салиманс и др., 2017) 2,92
Преобразователь изображения (Parmar et. al, 2018) 2,90
PixelSNAIL (Chen et al., 2017) 2,85
Разреженный трансформатор 59M (256W, 128L, 2H) 2,80
Enwik8 бит на байт
Более глубокое самовнимание (Аль-Рфу и др., 2018) 1.06
Transformer-XL 88M (Dai et al., 2018) 1,03
Transformer-XL 277M (Dai et al., 2018) 0,99
Разреженный трансформатор 95M (512W, 30L, 8H) 0,99
ImageNet 64×64 Бит на размер
Gated PixelCNN (ван ден Оорд и др., 2016) 3,57
Параллельный многомасштабный (Reed et al, 2017) 3.7
SPN 150M (Menick & Kalchbrenner, 2018) 3,52
Разреженный трансформатор 152M (512W, 48L, 16H) 3,44

Производительность моделирования плотности в битах на байт (или диммах) на различных наборах эталонных данных. M обозначает миллионы параметров, используемых в сети, W — ширину сети, L — количество слоев и H — количество головок.

Мы также обнаружили, что разреженное внимание приводит к меньшим потерям, чем полное внимание, в дополнение к тому, что оно значительно быстрее (см. нашу статью для сравнения).Это может указывать на полезную индуктивную предвзятость из-за наших шаблонов разреженности или на основную проблему оптимизации с чрезмерным вниманием.

Создание изображений

Преобразователи, использующие редкое внимание, по-видимому, имеют представление о глобальной структуре, которую можно качественно оценить, просматривая завершение изображения. Здесь мы визуализируем модель, обученную на $64\times 64$ ImageNet:

PromptCompletionsGround true

Мы также сгенерировали полностью безусловные образцы с нескорректированной температурой softmax, равной 1.0. Эти модели обучаются с использованием цели максимального правдоподобия, которая, как известно, охватывает все режимы данных (включая потенциально несуществующие) вместо повышения точности меньшей части данных. Выборка из этих моделей с нескорректированной температурой позволяет нам увидеть полное распределение изображений, которые, по мнению модели, существуют в мире. В результате некоторые образцы могут выглядеть странно.

Образцы моделейРеальные данные

Генерация необработанных звуковых сигналов

Sparse Transformers также можно адаптировать для генерации необработанного звука вместо изображений, просто изменив положение встраивания.Поскольку глубокое обучение распространяется на новые типы данных, мы считаем, что простота указания индуктивных смещений с помощью этого класса сетей станет полезным инструментом.

Эта модель была обучена на необработанных клипах классической музыки и использует редкое внимание для создания последовательностей длиной 65 000. Это соответствует примерно 5 секундам необработанного звука, и мы объединили несколько сэмплов в каждом из клипов ниже.

Код выпуска

Обычно реализация разреженного внимания включает в себя разбиение матрицы запросов и ключей на блоки, поэтому для облегчения экспериментов мы внедрили набор ядер с разреженным блоком, которые эффективно выполняют эти операции на графическом процессоре.Мы открываем исходный код этих ядер и предоставляем примеры функций разреженного внимания в этом репозитории.


Будущая работа и ограничения

  • Введенные нами разреженные паттерны внимания являются лишь предварительными шагами в направлении эффективного моделирования длинных последовательностей. Мы считаем, что изучение различных шаблонов и комбинаций разреженности полезно, и что изучение разреженных шаблонов является особенно многообещающим направлением исследований для следующего поколения архитектур нейронных сетей.
  • Даже с описанными выше улучшениями авторегрессионная генерация последовательности по-прежнему кажется непрактичной для изображений или видео с очень высоким разрешением. Однако введенные нами оптимизированные операции внимания могут быть полезными примитивами для объединения с другими подходами к моделированию многомерных данных, такими как многомасштабные подходы.

Если вы заинтересованы в расширении возможностей ИИ и помощи в выполнении нашей миссии по обеспечению того, чтобы они приносили пользу человечеству, мы нанимаем!

.

Добавить комментарий

Ваш адрес email не будет опубликован.