Компьютерные технологии в филологии
Это — свободный викиучебник по компьютерным технологиям в филологии. Пожалуйста, не стесняйтесь исправлять и улучшать существующие страницы и добавлять новые. Часть требуемых информационных источников сможете найти в Интернете, воспользовавшись викиучебником Поиск информации в Интернете.
Филоло́гия (от греч. φιλολογία, буквально — любовь к слову) — содружество гуманитарных дисциплин — языкознания, литературоведения, текстологии, источниковедения, палеографии и других, изучающих духовную культуру человека через языковой и стилистический анализ письменных текстов. Текст во всей совокупности своих внутренних аспектов и внешних связей — исходная реальность филологии.
Использование компьютерных технологий расширяет возможности филологов, позволяя автоматизировать рутинные операции при обработке и анализе текстов.
Интернет
правитьКиберпространство доступно для всех языков мира в одинаковой степени, поскольку нет центральной власти, которая могла бы держать его под своим контролем и принимать решения по его использованию.
В этом викиучебнике постараемся найти по возможности более простой ответ на вопрос: каким образом язык, лишенный достаточных как лингвистических и/или информационных, так и человеческих ресурсов, может обрести свое место в киберпространстве и активно в нем использоваться.
ЮНЕСКО
правитьЮНЕСКО превращения киберпространства в среду, отражающую многообразие существующих сегодня языков и культур, при содействии Латинского союза и при интеллектуальной поддержке эксперта Марселя Дики-Кидири выпустило книгу «Как обеспечить присутствие языка в киберпространстве?» в рамках серии публикаций программы ЮНЕСКО «Информация для всех»[1]
Лингвистическое программное обеспечение
правитьЛингвистическое программное обеспечение (англ. lingware = linguistic + software) — компьютерные программы и данные, обеспечивающие:
- анализ, обработку, хранение и поиск аудиоданных;
- анализ, обработку, хранение и поиск рисунков (OCR);
- анализ, обработку, хранение и поиск текстов.
Компьютерные технологии в филологии можно ограничить только последней третьей группой программ.
Проблемы компьютерного анализа и синтеза естественных языков изучаются в рамках общего направления, получившего название обработка естественного языка (Natural Language Processing, NLP).
Анализ сводится к проблемам понимания языка, а синтез — к проблемам генерации грамотных текстов.
Главные задачи
править- Синтез речи
- Распознавание речи
- Анализ текста
- Синтез текста
- Машинный перевод
- Вопросно-ответные системы
- Информационный поиск
- Извлечение информации
- Упрощение текста
- Технология перевода
Системы обработки текстов
править- AlchemyAPI
- Expert System S.p.A.
- General Architecture for Text Engineering (GATE)
- Modular Audio Recognition Framework
- MontyLingua
- Natural Language Toolkit (NLTK)
Программы для обработки данных:
- Alibi — программа параллельного выстраивания текстов (или сравнения текстов на различных языках). С помощью этого инструмента можно сделать выборку по двум параллельным файлам и автоматически вывести текстовые компоненты этой пары файлов. В качестве текстовых компонентов Alibi может сопоставлять как параграфы или фразы, так и отдельные слова обоих текстов.
- Concorde — программа согласования слов в контексте. Этот инструмент позволяет сделать выборку текстовых файлов и составить алфавитный перечень ведущих элементов с их непосредственным контекстом. Ведущий согласованный элемент может базироваться на словах в их фразовых контекстах или на знаках в контексте слов, в которых они употреблены. Ведущие элементы могут приводиться в обычном алфавитном порядке или в обратном алфавитном порядке.
- Recode — программа автоматического конвертирования текстов из одной кодировки в другую. С помощью этой программы можно обрабатывать и запоминать около 175 различных кодировок и около дюжины комплектов файлов. В зависимости от пары кодировок, указанных в запросе (исходной и итоговой), Recode производит перекодирование одного или нескольких файлов. Поскольку каждая кодировка может работать в паре с большинством из остальных 174 кодировок, становится возможным проведение тысяч различных схем конвертирования.
- Ventlie — программа статистической обработки текстов. На основе текстовых элементов Ventile дает возможность подсчитывать количество параграфов, фраз, слов и знаков в файле. На основе текстовой статистики Ventile производит измерение абсолютной частоты, три измерения средних значений (моду, медиану и среднее арифметическое) и пять измерений разброса (минимум, максимум, разница квартилей, среднее отклонение, стандартное отклонение). Статистические результаты воспроизводятся в виде числовой таблицы или графически, в виде столбчатой диаграммы (гистограммы).
- Vocable — программа производства алфавитных индексов. Этот инструмент дает возможность произвести анализ текстов и составить перечень слов, используемых в этих текстах. Списки могут быть составлены в обычном алфавитном порядке, в порядке, обратном алфавитному, или в порядке частоты использования. Каждое слово может сопровождаться показателем частоты его применения с перечнем всех мест, где это слово встречается в тексте.
Электронные словари
правитьЭлектронные словари — компьютерные программы позволяющие осуществлять быстрый поиск нужных слов, часто с учетом морфологических форм и с возможностью поиска сочетаний слов (примеров употребления) в компьютерных базах данных, содержащих особым образом закодированные словарные статьи. Электронные словари также позволяют изменять направления перевода (например, англо-русский или русско-английский).
Орфокорректоры (спеллчекеры)
правитьПоисковые системы
правитьСистемы машинного перевода
правитьСистемы памяти переводов
правитьЯзыковой анализ письменных текстов — это ...
Стилистический анализ письменных текстов —
Семантический анализ письменных текстов — ...
На сайте ADVEGO предоставляется онлайновый сервис cемантического анализа текста (seo-анализ текста).
Перевод
правитьСтатистика
правитьМорфологический анализ
Приложения
правитьПримечания
править- ↑ Марсель Дики-Кидири. Как обеспечить присутствие языка в киберпространстве? — М.: Межрегиональный центр библиотечного сотрудничества (МЦБС), 2007. — 64 с.