Анализ текста на сайте онлайн

Онлайн-контент-анализ или онлайн-текстовый анализ-это совокупность исследовательских методов. Используемых для описания и вывода выводов об онлайн-материале посредством систематического кодирования и интерпретации. Онлайн-контент-анализ-это форма контент-анализа для анализа интернет-коммуникации.

История и определение

Контент-анализ как систематическое изучение и интерпретация сообщений восходит, по крайней мере, к 17 веку. Однако только с появлением газеты в начале 20 века массовое производство печатной продукции создало спрос на количественный анализ печатного слова.[1]

Определение берельсона (1952) дает основу для текстологического анализа как

[2] контент-анализ состоит из категоризации единиц текста (т. е. предложений. Квазисоставлений, абзацев. Документов. Веб-страниц и т. д.) В соответствии с их содержательными характеристиками с целью построения набора данных. Позволяющего аналитику интерпретировать тексты и делать выводы. В то время как контент-анализ часто носит количественныйхарактер , исследователи концептуализируют этот метод как изначально смешанные методы потому что текстовое кодирование требует высокой степени качественной интерпретации.[3] социологи использовали эту методику для изучения исследовательских вопросов, касающихся

средств массовойинформации,[1]медийных эффектов[4] и постановки повесткидня.]

С ростом онлайн-коммуникации методы контент-анализа были адаптированы и применены к интернет-исследованиям. Как и в случае с появлением газет. Распространение онлайн-контента открывает широкие возможности для исследователей. Интересующихся контент-анализом. В то время как использование онлайновых источников открывает новые исследовательские проблемы и возможности. Основная исследовательская процедура онлайн-контент-анализа. Изложенная Макмилланом (McMillan, 2000). Практически неотличима от контент-анализа с использованием офлайн-источников:

  1. Сформулируйте исследовательский вопрос с акцентом на выявление проверяемых гипотез. Которые могут привести к теоретическим достижениям.
  2. Определите структуру выборки, из которой будет взята выборка. И постройте выборку (часто называемую
  3. Разработайте и внедрите схему кодирования. Которая может быть использована для категоризации контента. Чтобы ответить на вопрос. Определенный на шаге 1. Это требует указания периода времени. Единицы контекста. В которую встроен контент. И единицы кодирования. Которая классифицирует контент.

  4. Обучите кодировщиков последовательно реализовывать схему кодирования и проверять надежность среди кодировщиков. Это ключевой шаг в обеспечении воспроизводимости анализа.
  5. Анализируйте и интерпретируйте полученные данные. Проверьте гипотезы, выдвинутые на шаге 1, и сделайте выводы о содержании. Представленном в наборе данных.

Контент-анализ в интернет-исследованиях

С момента появления онлайн-коммуникации ученые обсуждали. Как адаптировать методы текстового анализа для изучения веб-контента. Природа онлайновых источников требует особой осторожности на многих этапах контент — анализа по сравнению с офлайн-источниками.

В то время как автономный контент. Такой как печатный текст. Остается статичным после создания. Онлайн-контент может часто меняться. Динамический характер онлайнового материала в сочетании с большим и растущим объемом онлайнового контента может затруднить построение структуры выборки. Из которой можно извлечь случайную выборку. Содержание сайта также может отличаться у разных пользователей. Что требует тщательного уточнения структуры выборки. Некоторые исследователи использовали поисковые системы для построения выборочных фреймов. Этот метод имеет недостатки. Так как Результаты поиска являются бессистемными и неслучайными. Что делает их ненадежными для получения объективной выборки. Проблему с выборкой кадров можно обойти. Используя всю интересующую популяцию. Например твиты конкретных пользователей Twitter[6] или онлайн-архивированный контент некоторых газет в качестве выборки.[7] изменения в онлайн-материале могут сделать классификацию контента (Шаг 3) более сложной. Поскольку онлайн-контент может часто меняться. Особенно важно отметить период времени. В течение которого собирается образец. Полезным шагом является архивирование содержимого образца. Чтобы предотвратить внесение изменений.

Онлайн-контент также нелинейен. Печатный текст имеет четко очерченные границы. Которые могут быть использованы для идентификации единиц контекста (например. Газетная статья). Границы онлайн-контента. Используемого в выборке. Определить не так просто. Ранние аналитики онлайн — контента часто определяли [2] исследователи рекомендуют четко и последовательно определять. Из чего состоит [2][3] Исследователи также использовали более дискретные единицы онлайн-коммуникации. Такие как веб-комментарии[8] или твиты.[6]

Кинг (2008) использовал онтологию терминов. Подготовленных из многих тысяч предварительно засекреченных документов. Для анализа предмета ряда поисковых систем.

[9]

Автоматический анализ контента

Рост онлайн-контента резко увеличил количество цифрового текста. Который может быть использован в исследованиях. Количество доступного текста мотивировало методологические инновации для того. Чтобы осмыслить текстовые наборы данных. Которые слишком велики. Чтобы быть практически закодированными вручную. Как это было в традиционной методологической практике.[3][7] прогресс в методологии вместе с увеличением емкости и уменьшением затрат на вычисления позволил исследователям использовать методы. Которые ранее были недоступны для анализа больших наборов текстового контента.

Автоматический контент-анализ представляет собой небольшое отступление от процедуры онлайн-анализа контента Макмиллана в том. Что человеческие кодеры дополняются вычислительным методом. И некоторые из этих методов не требуют определения категорий в advanced. Количественные модели текстового анализа часто используют методы лемматизации или стеммирования. Что уменьшает размерность текста за счет сокращения сложных слов до их корневого слова.[10] Хотя эти методы являются фундаментально редукционистскими в том. Как они интерпретируют текст. Они могут быть очень полезны. Если они правильно применяются и проверяются.

Гриммер и Стюарт (2013) выделяют две основные категории автоматического текстового анализа: контролируемые и неконтролируемые методы. Контролируемые методы включают в себя создание схемы кодирования и ручное кодирование подвыборки документов. Которые исследователь хочет проанализировать. В идеале подобласть. Называемая Затем кодированный обучающий набор используется для Алгоритм может быть применен для автоматического анализа остатков документов в корпусе.[10]

  • Методы словаря: исследователь предварительно выбирает набор ключевых слов (n-грамм) для каждой категории. Затем машина использует эти ключевые слова для классификации каждой единицы текста по категориям.
  • Индивидуальные методы: исследователь предварительно помечает выборку текстов и обучает алгоритм машинного обучения (например, SVM-алгоритм) с использованием этих меток. Машина помечает оставшиеся наблюдения. Экстраполируя информацию из обучающего набора.
  • Ансамблевые методы: вместо использования только одного алгоритма машинного обучения исследователь обучает их набор и использует полученные множественные метки для обозначения остальных наблюдений (Подробнее см. Collingwood and Wiklerson 2011).[11]
  • Контролируемое идеологическое масштабирование (например. Wordscores) используется для размещения различных текстовых единиц вдоль идеологического континуума. Исследователь выбирает два набора текстов. Представляющих каждую идеологическую крайность. Которые алгоритм может использовать для идентификации слов. Принадлежащих каждой экстремальной точке. Остальные тексты в корпусе масштабируются в зависимости от того. Сколько слов каждой крайней ссылки они содержат.[12]

Неконтролируемые методы могут быть использованы. Когда набор категорий для кодирования не может быть четко определен до начала анализа. В отличие от контролируемых методов. Человеческие кодеры не обязаны обучать алгоритм. Одним из ключевых вариантов для исследователей при применении неконтролируемых методов является выбор количества категорий для сортировки документов. А не определение того. Какие категории являются заранее.

  • Модели единого членства: эти модели автоматически группируют тексты в различные категории. Которые являются взаимоисключающими. А документы кодируются в одну и только одну категорию. Как отмечают Гриммер и Стюарт (16), [10].]
  • Смешанные модели членства: согласно также Гриммеру и Стюарту (17). Смешанные модели членства [10] смешанные модели членства FAC классифицируют отдельные слова в каждом документе по категориям. Позволяя документу в целом быть частью нескольких категорий одновременно. Тематические модели представляют собой один из примеров смешанного членства. Который может быть использован для анализа изменений в фокусе внимания политических акторов[6] или газетных статей.[7] одним из наиболее часто используемых методов тематического моделирования является LDA.
  • Неконтролируемое идеологическое масштабирование (т. е. wordsfish): алгоритмы. Которые выделяют текстовые единицы в идеологический континуум в зависимости от общего грамматического содержания. В отличие от методов контролируемого масштабирования. Таких как wordscores. Такие методы. Как wordfish[13], не требуют. Чтобы исследователь предоставлял образцы экстремальных идеологических текстов.

Валидация

Результаты контролируемых методов могут быть валидированы путем построения отдельной подвыборки корпуса. Называемой Документы в наборе валидации могут быть закодированы вручную и сравнены с выводом автоматического кодирования. Чтобы оценить. Насколько хорошо алгоритм реплицирует человеческое кодирование. Это сравнение может принимать форму показателей надежности межкодера. Подобных тем. Которые используются для проверки согласованности человеческих кодеров в традиционном текстовом анализе.

Валидация неконтролируемых методов может осуществляться несколькими способами.

  • Семантическая (или внутренняя) валидность показывает. Насколько хорошо документы в каждом идентифицированном кластере представляют собой отдельную категориальную единицу. В тематической модели это будет степень. В которой документы в каждом кластере представляют одну и ту же тему. Это можно проверить. Создав проверочный набор. Который программисты-люди используют для ручной проверки выбора темы или родства документов внутри кластера по сравнению с документами из разных кластеров.
  • Прогностическая (или внешняя) валидность-это степень. В которой сдвиги в частоте каждого кластера могут быть объяснены внешними событиями. Если кластеры тем допустимы. Наиболее заметные темы должны реагировать во времени предсказуемым образом в результате внешних событий. Которые происходят.

Проблемы в онлайн-текстовом анализе

Несмотря на непрерывную эволюцию текстоанализа в социальной науке. Остаются нерешенными некоторые методологические проблемы. Это (неисключительный) список с некоторыми из этих проблем:

  • Когда исследователи должны определять свои категории? Ex-ante, туда-сюда или ad-hoc? Некоторые социологи утверждают. Что исследователи должны построить свою теорию. Ожидания и методы (в данном случае конкретные категории. Которые они будут использовать для классификации различных текстовых единиц). Прежде чем они начнут собирать и изучать данные[14], в то время как некоторые другие поддерживают. Что определение набора категорий является обратным процессом.[15][16]
  • Утверждение. Хотя большинство исследователей сообщают о валидационных измерениях для своих методов (например. Надежность межкодера. Точность и оценки отзыва. Матрицы путаницы и т. д.). Некоторые другие этого не делают. В частности. Все большее число ученых обеспокоено тем. Что некоторые методы тематического моделирования вряд ли могут быть подтверждены.[17]
  • Случайные Выборки. С одной стороны. Крайне сложно узнать. Сколько единиц одного типа текстов (например. Блог-постов) находится в определенное время в Интернете. Таким образом. Поскольку большую часть времени Вселенная неизвестна. Как исследователь может выбрать случайную выборку? Если в некоторых случаях почти невозможно получить случайную выборку. Должны ли исследователи работать с образцами или они должны попытаться собрать все текстовые единицы. Которые они наблюдают? А с другой стороны. Иногда исследователям приходится работать с образцами. Которые им дают некоторые поисковые системы (например. Google) и онлайн-компании (т. е. Twitter), но исследователи не имеют доступа к тому. Как были сгенерированы эти выборки и являются ли они случайными или нет. Должны ли исследования использовать такие образцы?
  1. ^ b
  2. ^ b c McMillan. Sally J. (Март 2000). Журналистика и массовые коммуникации ежеквартально. 77 (1): 80–98. doi:10.1177/107769900007700107.
  3. ^ b c Ван Сельм, Мартина; Янковский, Ник (2005). Контент-анализ Интернет-документов. Неопубликованная Рукопись.
  4. ^ Riffe, Daniel; Lacy, Stephen; Fico, Frederick (1998). Анализ медийных сообщений: использование количественного контент-анализа в исследованиях. Мауа, Нью-Джерси, Лондон: Лоуренс Эрлбаум.
  5. ^ Baumgartner, Frank; Jones, Bryan (1993). Повестки дня и нестабильность в американской политике. Чикаго. Издательство чикаоского университета. ISBN 9780226039534.
  6. ^ b c Барбера, Пабло; Бонно, Ричард; Иган, Патрик; Йост, Джон; Нэглер, Джонатан; Такер, Джошуа (2014). -Лидеры или последователи? Измерение политической реакции в Конгрессе США с использованием данных социальных сетейПодготовлено для выступления на ежегодном собрании Американской ассоциации политических наук.
  7. ^ b c ДиМаджио, Пол; Наг, Маниш; Блей, Дэвид (Декабрь 2013). Поэтика. 41 (6): 570–606. doi:10.1016/j.poetic.2013.08.004.
  8. ^ Мишне, Гилад; Взгляд, Натали (2006). Третья ежегодная конференция по экосистемевеб-блогов .
  9. ^ Кинг, Джон Д. (2008). Поисковый Контент-Анализ (PhD). Квинслендский технологический университет.
  10. ^ Jump up to: a b c d Гриммер, Джастин; Стюарт, Брэндон (2013). Политический Анализ. 21 (3): 1–31.
  11. ^ Коллингвуд. Лорен и Джон Уилкерсон. (2011). Компромиссы в точности и эффективности методов контролируемого обучения, в журнале
  12. ^ Гербер, Элизабет; Льюис, Джефф (2004). (PDF). Журнал политической экономии. 112 (6): 1364-83.  doi:10.1086/424737.
  13. ^ Шлепин, Джонатан и Свен-Оливер Прокш. 2008. Масштабная модель для оценки временных рядов партийных позиций по текстам. Американский журнал политических наук 52(3):705-22.
  14. ^ King, Gary. Robert O. Keohane. & Sidney Verba. (1994). Проектирование социального запроса: научный вывод в качественных исследованиях. Принстон: Издательство Принс-Юниверсити.
  15. ^ Herring, Susan C. (2009). В книге Hunsinger. Jeremy (ed.). International Handbook of Internet Research. Springer Netherlands. PP. 233-249. CiteSeerX 10.1.1.476.6090. doi:10.1007/978-1-4020-9789-8_14. ISBN 978-1-4020-9788-1.
  16. ^ Салдана Джонни. (2009). Руководство по кодированию для качественных исследований. Лондон: SAGE Publication Ltd.
  17. ^ Чжуан, Джейсон. Джон Д. Уилкерсон. Ребекка Вайс. Дастин Тингли. Брэндон М. Стюарт. Маргарет Э. Робертс. Форо Пурсабзи-Сангде. Джастин Гриммер, Лиа Финдлейтер, Джордан Бойд-Грабер и Джеффри Хир. (2014). Компьютерный контент-анализ: тематические модели для изучения множественных субъективных интерпретаций. Доклад представлен на конференции по нейронным системам обработки информации (НИП). Семинар по машинному обучению на основе человеческого фактора. Монреаль, Канада.

Читайте так же:

  • Опубликован список 750+ SEO-специалистов со всего мираОпубликован список 750+ SEO-специалистов со всего мира SEO-консультант Правин Шарма (Praveen Sharma) опубликовал список 750+ SEO-специалистов со всего мира. В списке представлены специалисты из таких стран, как Индия, США, Великобритании, Канады, Австралии, Испании, Германии. Норвегии, Польши. Новой Зеландии. Нидерландов, Италии. Франции, […]
  • Google обновил фильтр регулярных выражений в Search ConsoleGoogle обновил фильтр регулярных выражений в Search Console Google обновил фильтр регулярных выражений в отчете об эффективности в Search Console и поделился советами по его использованию. В обновленном фильтре можно выбрать, показывать ли строки. Которые соответствуют регулярному выражению или не соответствуют ему. По умолчанию показываются […]
  • Microsoft закрывает Windows 10 и разрабатывает новое поколение ОСMicrosoft закрывает Windows 10 и разрабатывает новое поколение ОС Microsoft прекращает поддержку Windows 10 14 октября 2025 года. С момента первого представления операционной системы исполнится чуть более 10 лет. О дате выхода Windows 10 из эксплуатации Microsoft написала на обновленной странице жизненного цикла поддержки для ОС. Возможно, […]
  • Poco и Redmi доминируют: самые популярные смартфоны дешевле 15 тысяч рублей на AliExpress в РоссииPoco и Redmi доминируют: самые популярные смартфоны дешевле 15 тысяч рублей на AliExpress в России Команда российского AliExpress поделилась интересной статистикой, опубликовав рейтинг самых популярных мобильных устройств на маркетплейсе в ценовой категории дешевле 15 тысяч рублей с начала лета.  В рейтинге лидируют смартфоны брендов экосистемы Xiaomi — модели Poco и Redmi […]