Скачать Классификация, кластеризация и оценка сходства текстов (Курс "Компьютерная лингвистика") [Архэ] [Александр Пиперски]

Sky90

VIP складчик
Platinum
Премиум
Администратор
Регистрация
1 Дек 2015
Сообщения
145.834
Реакции
777.031
[Складчина: Классификация, кластеризация и оценка сходства текстов (Курс "Компьютерная лингвистика") - Архэ, Александр Пиперски]

**Компьютерная лингвистика** является динамично развивающейся областью, где теория встречается с практикой. Ее достижения окружают нас повсюду: от машинного перевода до поиска в Интернете, от голосовых помощников и многое другое. За каждым из этих продуктов стоит труд лингвистов и программистов. В рамках курса мы рассмотрим историю компьютерной лингвистики, ее основные методы и способы решения практических задач, таких как проверка орфографии и классификация новостей по темам.

**7. Классификация, кластеризация и оценка сходства текстов**

Одной из ключевых задач компьютерной лингвистики является группировка схожих текстов. Это может быть как предварительное разделение на заданные категории («Спорт», «Политика» и т. д.), так и разделение на основе самих текстов. Например, новостные агрегаторы сначала объединяют похожие тексты в один сюжет, а затем относят его к определенной категории. На занятии мы обсудим способы оценки расстояния между текстами, различия между задачами классификации и кластеризации, а также способы их решения.

**Лектор:** **Александр Чедович Пиперски**, кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ.
 
Сверху