Технологии

Компания «Витософт» специализируется на технологиях для интернет-СМИ, включающих автоматическую обработку текстов, сбор и анализ статистических данных, лингвистические и поведенческие технологии.

Технология автоматической обработки текстов

Подразумевает работу с текстом на основе автоматического определения смысловых конструкций. На данный момент обработка текстов включает:
  • классификацию (рубрикацию) текстов новостных сообщений по семантическим рубрикам. Наш рубрикатор имеет 3 уровня и насчитывает более 180 рубрик.
  • Кластеризацию — склеивание одинаковых по теме новостных сообщений в один сюжет.
  • Определение дубликатов текстов, позволяющее находить перепечатки новостных сообщений.

Все эти технологии используются в новостном агрегаторе «Инфоротор». В комплексе они грамотно структурируют новостной поток, позволяя читателю легко в нем ориентироваться, находить нужную информацию и избегать сообщений, не содержащих новых сведений.

Технологии автоматической обработки текстов стали основой системы статистики, созданной для анализа качества контента

Разработанные нами технологии автоматической обработки текстов могут применяться не только для работы с новостными сообщениями, но и любыми другими текстами.

Сбор и анализ статистических данных

Мы разработали собственные технологии, позволяющие собирать информацию о посещаемости и посетителях веб-сайтов, быстро обрабатывать большие объемы данных и строить полезные отчеты. Эти технологии позволяют извлекать любые данные об аудитории сайта, сравнивать и пересекать их между собой.

На таком анализе данных построена система статистики Инфоротора, имеющая ... подробных отчетов, позволяющая оценивать посещаемость сайта и качество его аудитории, в том числе по источникам трафика на сайт. Комбинируя данные о посещаемости страниц с информацией об их содержании, полученной благодаря технологии автоматической обработки текстов, мы создали уникальную систему статистики для интернет-СМИ, позволяющую оценивать популярность рубрик, новостей и упоминаемых в них объектов. Кроме того, наша система статистики отслеживает самые популярные сообщения в режиме реального времени.

Лингвистические технологии

Созданы для выявления объектов, их связей и фактов о них в текстовых массивах. Все лингвистические конструкции разработаны на нашем собственном языке и позволяют решать совершенно любые задачи.

Сейчас они в полной мере применяются в «Инфодосье» — фактографическом поиске по персонам и организациям, позволяющем оценивать медиаполе вокруг них: в каком контексте упоминается объект, что он делает, о чем говорит. Интересными для аналитиков являются также данные о связях между объектами (персона — персона, персона — организация).

Поведенческие технологии

Позволяют собирать информацию о каждом пользователе, формируя историю его поведения на сайтах СМИ — о ком и о чем читает пользователь, когда и как часто он обращается к новостям этой темы. Такая информация о читателях четко показывает регулярность чтения новостей, разграничивая постоянные и случайные интересы пользователя.

Информация о поведении пользователя на сайте СМИ позволяет абсолютно точно подбирать интересные ему новостные или рекламные сообщения и даже перестраивать сайт под индивидуальные нужды каждого читателя, обеспечивая их максимальную вовлеченность.

В данный момент поведенческие технологии успешно применяются в рекламной сети Adnews, главной особенностью которой является таргетинг по новостным интересам пользователей.

На основе истории интересов частично формируется главная страница агрегатора «Инфоротор».

Для того, чтобы обеспечить работу этих сложных сервисов и проектов, создан ряд технологий, имеющих дополнительные или вспомогательные функции, например:

Рой — система, обеспечивающая быстрое обращение к базе данных.