Система фактографического анализа
Обилие разнородной не структурированной информации делает автоматическую семантическую рубрикацию [классификацию] текстов на естественном языке одной из важнейших задач современных интернет-технологий.
Системы фактографического анализа применяются для задач автоматического извлечения, классификации и статистического учета упоминаемых в текстах на естественном языке сущностей и связанных с ними фактов, таких, например, как события связанные с личностями (даты рождения или смерти, высказывания, должности и места работы, подписываемые документы, перемещения в пространстве, задержания и обвинения, и т.д.), или компаниями (даты основания, банкротства, выхода на биржу, изменения котировок акций, слияния и поглощения, заключения альянсов и судебные разбирательства, и т.д.).
Ядро фактографического анализа представляет собой интерпретатор декларативного проблемно-ориентированного языка программирования [L], предназначенного для извлечения синтактико-морфологических последовательностей из текстов на естественном языке.
Разработка шаблонов извлечения на этом языке не требует специальных навыков программирования, и, после краткого введения в базовые концепции и синтаксис, доступна широкому кругу лингвистов, не обладающих знаниями и опытом в разработке программного обеспечения.
Инкрементная обработка потока текстовых данных реализуется в фактографическом анализе через этапы извлечения соответствий всем заданным шаблонам, классификации и нормализации извлеченных фактов на основе их типов, группировки по сущностям и занесения извлеченной информации в базу данных.
Разработчикам фактографического анализа предоставляет удобные и гибкие механизмы создания и расширения специализированных для конкретных задач систем извлечения.- Технологии автоматической обработки текстов
- Сбор и анализ статистических данных
- Лингвистические технологии
-
- Система фактографического анализа
- Поведенческие технологии
- Рой