Центр искусственного интеллекта НИУ ВШЭ

Может ли ИИ оценить этичность компании?

Проект Центра ИИ НИУ ВШЭ "Индекс этичности компаний"

Photo by Pavel Danilyuk

Photo by Pavel Danilyuk

Деятельность любой компании можно проанализировать по разным показателям. Обычно в исследованиях по экономике и менеджменту рассматриваются финансовые результаты — прибыль, доходность активов, стоимость акций и т. д. Однако это не единственные достижения, по которым можно охарактеризовать компанию. Мы можем задать вопрос, насколько этично компании ведут свой бизнес с точки зрения влияния на заинтересованных лиц. 

Что мы подразумеваем под этичностью поведения?  Неэтичным является поведение человека или компании, которое снижает благосостояние других людей или компаний (например, воровство, обман, невыполнение обязательств и т. д.).  Общество негативно относится к такому взаимодействию и старается его не допустить.

Поведение компании состоит из множества отдельных компонентов или действий, которые можно оценивать по отдельности, а затем попытаться объединить эти оценки в общий индекс. Предположим, что у нас есть готовый список действий, которые необходимо оценить, исходя из некоторой теоретической базы.  Как мы можем оценить то или иное действие? Существует два основных подхода к измерению: оценивать фактыили мнения

Факты — это объективные переменные, такие как уровень цен, размер социальных льгот для работников, количество загрязнений и т.д. Оценка “факт” представляется наиболее объективным способом оценки этичности, однако мы сталкиваемся с двумя проблемами: 1) факты не всегда легко получить, 2) даже собранные факты не всегда позволяют легко оценить этичность, потому что для конкретных ситуаций нужно знать конкретные пороговые значения, превышение которых будет означать неэтичность. Внешний наблюдатель не всегда может определить пороговые значения внешний.

Мнения — это субъективные оценки этичности компании, которые дают её стейкхолдеры. Они обладают непосредственной информацией об этом, поскольку лично взаимодействуют с компанией. Мнения можно получать двумя способами. Первый способ — попросить стейкхолдеров оценить этичность компании и обобщить их ответы, что требует проведения специального исследования для каждой компании. Второй способ — проанализировать тексты из открытых источников[1], уже написанные стейкхолдерами о компании и обобщить их ответы. Этот способ не требует опросов, но ограничен тем набором текстов, который существует в открытых источниках. 

В нашем проекте мы начали разработку алгоритма, который нацелен на второй способ — анализ открытых источников. Для этого нам нужно научиться собирать и обрабатывать мнения, которые уже выражены заинтересованными сторонами компании на различных сайтах, в социальных сетях или СМИ. Этот метод имеет огромное преимущество перед предыдущими, поскольку вся информация уже доступна, и нам не нужно тратить ресурсы на генерирование новых данных. Нам не нужно согласие какой-либо компании, чтобы оценить ее этическое поведение по открытым источникам. Однако этот метод связан с другой проблемой — мы должны быть в состоянии разработать инструмент для анализа массива текстов и извлечения информации об этическом поведении компании. 

Для сбора текстов из открытых источников можно использовать технологии веб-скрейпинга (web-scraping). Чаще всего это настроенные скрипты Python, которые обращаются к указанным сайтам, скачивают HTML-страницы, преобразуют их автоматически в более удобный для последующего анализа формат данных. 

Для анализа текстов можно использовать различные технологии: мешок слов, модель BERT или словарь Moral Foundations Dictionary. В этих источниках подробно представлена лексика, связанная с этичным или неэтичным поведением.

Любая из этих технологий оценивает этичность компании на основе конкретного предложения. Однако обычно есть несколько предложений об одной компании, например, в отдельном отзыве или в отдельной публикации СМИ. А также много отзывов и публикаций о данной компании. Как же нам агрегировать этическую оценку всех этих предложений в один индекс этичности? Здесь нам нужно придумать решение для четырех уровней агрегирования[2]

1. С уровня отдельных предложений в отзыве до уровня всего отзыва. Например, в отзыве может быть 10 предложений, из которых 2 содержат положительную оценку банка, 3 – нейтральны и 5 содержат отрицательную оценку. Какая оценка будет у отзыва? 

2. С уровня разных отзывов на одном веб-сайте до уровня всего ресурса. Например, на веб-сайте для банка X мы нашли 2 положительных отзыва, 3 нейтральных и 5 отрицательных. Какую оценку будет давать весь веб-сайт?

3. С разных веб-сайтов одного типа в индекс этичности по данному типу веб-сайтов. Например, индекс этичности для банка X на основе Banki.ru равен 4,2, на основе iRecommend.ru - 3.8, на основе сайта Otzovik.ru - 3,5. Каким образом рассчитать общий индекс этичности для банка X на базе сайтов отзывов?

4.  Агрегирование индексов с ресурсов разного типа в один индекс. Например, индекс этичности по сайтам отзывов дает 4,2, индекс этичности по СМИ дает 4,5, индекс этичности по социальным сетям дает 4,0. Как рассчитать общий индекс этичности для банка X?

Когда же мы решим и эту задачу, перед нами возникнет последняя сложная задача валидации индекса. Как проверить, что этичность оценивается корректно? Нужно проверить показания индекса на базе альтернативного способа измерения этичности компании. А как это сделать, если альтернативных способов нет? Можно воспользоваться прокси-методом, который должен иметь корреляцию с этичностью. Например, можно посмотреть количество арбитражных дел, в которых компания выступает ответчиком, или количество судебных или иных штрафов, наложенных на компанию. 

На рисунке ниже мы видим некоторую связь между получившимся индексом этичности банков (рассчитан пока по одной платформе отзывов) на горизонтальной оси и количеством арбитражных исков на компанию (все банки, которые имеют высокое количество исков, располагаются в зоне низкого значения индекса этичности от -0,1 до -0,5).

На основе представленных данных мы можем сделать вывод, что индекс в целом уже работает, но впереди предстоит еще огромная работа по включению в индекс других источников открытой информации, а также по достижению более серьезной статистической значимой валидации индекса через альтернативные способы измерения этичности. 

 


[1] Открытыми источниками называются любые хранилища текстов, к которым можно получить доступ через интернет бесплатно или через подписку. Это могут быть сайты с отзывами, где потребители или работники пишут свое мнение о компаниях на основе личного опыта взаимодействия с ними. Это могут быть социальные сети, где люди делают посты на своих страницах или оставляют комментарии на страницах других людей, выражая свое мнение о той или иной компании. Это могут быть сайты СМИ, содержащие публикации о деятельности компаний (новости и аналитические материалы), в которых может содержаться оценка добросовестности компании. 
[2] Агрегирование — это объединение нескольких элементов в единое целое.