Исследователи BU обнаруживают, что «босс» — это мужская работа.

Рич Барлоу | Сегодня

Это должно было случиться. В эпоху, когда избранного президента страны регулярно критикуют за его сексистские высказывания о женщинах, исследователи BU, работающие с коллегами из Microsoft, обнаружили, что ваш компьютер сам по себе может быть сексистским.

Или, скорее, они обнаружили, что предвзятые данные, которые мы, склонные к ошибкам люди, загружаем в компьютеры, могут привести к тому, что машины извергнут нашу предвзятость. И есть потенциальные последствия в реальном мире от этого.

Эти выводы изложены в документе, подготовленном группой, двумя членами BU которой являются Венкатеш Салиграма, профессор электротехники и вычислительной техники Инженерного колледжа с назначением в Колледж искусств и наук по информатике, и Толга Болукбаси ( АНГ'18).

Команда изучала встраивание слов — алгоритмы, которые один из членов команды описал Национальному общественному радио как словари для компьютеров. Встраивание слов позволяет компьютерам создавать словесные ассоциации. Возьмем гипотетический пример, используемый NPR: техническая компания, желающая нанять программиста, может использовать вложение, которое знает, что программист связан с такими терминами, как JavaScript или искусственный интеллект. Компьютерная программа с встраиванием этого слова может отбирать резюме, содержащие такие родственные слова. Пока так безобидно.

Но вложения слов могут распознавать отношения слов, только изучая партии письма. Особое внимание исследователи уделили общедоступному встраиванию word2vec, основанному на текстах из Google News, агрегатора журналистских статей. Оказывается, эти статьи содержат гендерные стереотипы, как обнаружили исследователи, когда попросили встраивание найти аналогии, похожие на он/она.

Встраивание возвращает нас к тревожным аналогиям с рабочими местами. Для профессий «он» появились такие слова, как «архитектор», «финансист» и «босс», а для профессий «она» — «домохозяйка», «медсестра» и «регистратор».

Теоретически эти различия могут способствовать реальному неравенству. Компании все чаще полагаются на компьютерное программное обеспечение для анализа заявлений о приеме на работу. Скажем, гипотетическая технологическая компания, ищущая программиста, использовала встраивания для проверки резюме.

Внедрение слов также ставит термины, связанные с информатикой, ближе к мужским именам, чем к женским, — говорится в статье команды BU-Microsoft, которая будет представлена ​​на этой неделе на конференции Система обработки нейронной информации (NIPS) в Барселоне. ежегодное собрание по машинному обучению. В этом гипотетическом примере использование встраивания слов еще больше затрудняет признание женщин учеными-компьютерщиками и будет способствовать увеличению существующего гендерного разрыва в компьютерных науках.

«Это алгоритмы машинного обучения, которые просматривают документы, и любая предвзятость, существующая в нашем повседневном мире, переносится в эти вложения слов», — говорит Салинграма. «Сам алгоритм довольно агностичен. Его не волнует, существует ли скрытая предвзятость или нет предвзятости в самом документе… Он просто улавливает, какие слова встречаются вместе с другими словами». Предвзятость заключается в анализируемом наборе данных, таком как Новости Google.

«Наша статья раскрывает, что только потому, что машина делает что-то агностически, не означает, что она будет беспристрастной… Суть машинного обучения заключается в следующем: вы смотрите на мир, а затем учитесь у него. Машина также будет изучать предубеждения, существующие в мире, который она наблюдает».

Исследователи не просто самостоятельно решили, какие пары были сексистскими, а какие нет; они запускали каждую аналогию с помощью 10 человек, используя Amazon Mechanical Turk, краудсорсинговую онлайн-площадку. Если большинство считало аналогию сексистской, исследователи соглашались с их мнением.

Исследователи говорят, что они написали свои собственные алгоритмы, которые поддерживают соответствующие гендерные ассоциации, отсеивая сексистские стереотипы. «Это звучит как уродливая проблема, потому что слов много, много, много, много, и кажется очень сложным пойти по отдельности и устранить эти предубеждения», — говорит Салиграма. Но способность компьютера создавать словесные ассоциации позволяет ему при вводе некоторых предвзятых слов предсказывать другие слова, которые могут быть столь же сексистскими, говорит он. «Поэтому он может устранить предубеждения… без участия человека, слово за словом, всего словаря».

Вскоре они сделают свои алгоритмы общедоступными на компьютерной платформе обмена кодом GitHub, говорят он и Болукбаси.

Оба планируют провести дополнительные исследования. Они начали изучать расовые предубеждения в статьях Google News и надеются расширить свое исследование за пределы английского языка. «Мы думали о том, как количественно определить предвзятость между разными языками, когда вы смотрите на пол или когда вы смотрите на предвзятость», — говорит Салиграма. «У одних языков больше предвзятости по сравнению с другими? Мы не знаем ответа на этот вопрос».

Первоначально опубликовано на www.bu.edu.

Чтобы получить дополнительные комментарии экспертов Бостонского университета, следите за нами в Твиттере: @BUexperts и в Instagram: @buexperts.