Билет 14
1. Автоматизация анализа письменного текста: основные подходы к решению проблемы.
Существует 2 основные стратегии решения проблемы:
1. модульный подход - последовательный анализ по уровням (морфологический, синтаксический, семантический, прагматический)
2. интегральный подход (более современный и более адекватный, Р. Шенк)
1. Системы модульного типа (Леонтьева):
модуль морфологического анализа | -> полное морф. представление |
модуль синтаксического анализа | -> полное синт.представление |
модуль семантического анализа | -> частичное (фрагментарное) представл. |
прагматический анализ (пока не реализован) |
Для широких ПО может быть использован в нескольких системах:
· СМП (SYSTRAN)
· системах извлечения знаний
· ИПС
2. Системы интегрального типа
Концептуальный анализ | -> | фрагментарные концептуальные представления: |
морф.анализ | синт.анализ | сем. анализ | сценарии, фреймы. планы. |
· Ищет в тексте диагностические слова
· заполняет пустые слоты в сценарии
· делает ряд концептуальных выводов (inferences) о смысле текста (в результате чего способна отвечать на поставленные вопросы по содержанию)
· на определенных этапах подключает процедуры
· нельзя получить уровневое представление
· тексты узко ограниченной тематики
Пример: интегральная система анализа Шенка:
1. MARGE (Memory Response Generation in English) - обработка концептуальной информации. В основе лежит теория концептуальных зависимостей - комплексная теория человеческого мышления.
Работает в двух режимах:
· перефразирование (перевод входной фразы на ЯКЗ)
· концептуальный вывод
2. Модель SAM (Script Applying Mechanism) является компьютерной программой, которая позволяет понимать связность текста за счет применения сценариев:
· POLITICS (ведет диалог, моделирует политическую идеологию)
· PAM -> TALE-SPIN - порождение сказок
· FRUMP - машинное реферирование сообщений на нескольких языках, чтение , опирающееся на понятие интереса (Integral Partial Parser)
2. Терминологические банки данных: структуры, функции, методы построения.
ТБД - автоматизированная система инвентаризации и машинного представления терминологической лексики и ее семантизации в системах машинного и человеко-машинного речевого общения. Это единая служба с удобным доступом, описывающая все сведения о термине и ликвидирующая неравномерность описания терминологии.
Научные задачи:
· моделирование терминологической системы РЯ как системы подсистем
· построение общенаучных и общетеоретических тезаурусов
· исследование русской терминологии
Типы традиционного использования ТБД:
· справочно-информационное обслуживание специалистов различных областей знания
· обеспечение традиционного перевода научно-технической литературы
· обеспечение АСОТ, включая системы машинного перевода
· лингвистическое обеспечение авт. систем информации
· обеспечение работ по упорядочению терминологии
· подготовка и издание терминологических словарей
· унификация определенных терминов
· подготовка научных отчетов о составе РЯ
Организационная структура ТБД:
· терминологические центры
· службы переводов (переводческая функция)
· службы стандартизации (нормативная функция)
· университеты (исследовательская функция)
· всероссийские органы НТИ (по АСУ и ИПС)
Функциональная структура ТБД:
1. Головной ТБД - справочно-поисковый аппарат по видовым банкам данных:
· ведение коммуникативного формата данных
· организация и руководство работами по передаче данных в ТБД
· обработка и ввод данных
· обслуживание предприятий
2. Специализированные ТБД (сбор, хранение , обработка информации), могут включать существующие ТБД, словарно-терминологические службы НТИ:
отбор представительного массива источников
ввод и обновление терминологической информации в БД
передача информации другим СТБД и ГТБД
эксплуатация СТБД в соответствии с конкретными задачами организации.
ТБД состоит из ряда массивов, которые называются подфондами.
Подфонды - массивы терминов, которые создаются и хранятся в центральном органе МФРЯ (Машинный фонд РЯ) на базе массивов первичного типа.
Подфонды:
специальных и межотраслевых терминов, фигурирующих в отдельных отраслях знаний и деятельности
общенаучных и общетехнических терминов
терминоэлементов (используются в нескольких терминосистемах).
3. Примеры оформления сложных документов (сноски, газетная верстка, колонтитулы и т. д) в MS Word 5.0.
Сноски:
1. курсор на месте символа ссылки на сноску
2. Format, Footnote
3. в поле reference mark ввести ссылку на сноску (не более 28 символов)
4. enter
5. ввести текст сноски (до нескольких абзацев)
перемещение между сноской и текстом: Jump Footnote
использование окна сносок: Esc W S F
переход из окна в окно: F1
местоположение сносок:
· по умолчанию - на той же стр., где ссылка
· Format Division Layout: same page, end
Газетная верстка:
колонки:
1. Options: Show Layout Yes или Alt-F4
2. Esc Format Division Layout
колонтитулы:
1. курсор в начало документа
2. ввести текст + enter
3. курсор внутрь текста или выделить текст
4. Esc Format Running Head: Position:
Top Bottom None Odd Even First Alignment: left margin Edge-of-paper
5. enter
Быстрое создание колонтитулов:
1-3 - то же самое
4. верхний колонтитул: Ctrl+F2
нижний колонтитул: Alt+F2
На каждой странице может быть не более двух колонтитулов: верхний и нижний
Выравнивание колонтитулов: Format Paragraph или Alt C, Alt R.
Вывод номера страницы/даты:
1. курсор в то место колонтитула, где будет страница.
2. набрать page/date
3. F3
1. На тему основные проблемы в современной семье
2. Литосфера основные проблемы загрязнения
3. Главеая причина обострения водной проблемы на Земле
4. Земельные и пищевые ресурсы человека и их проблемы
5. Земельные и пищевые ресурсы человека и их проблемы в
6. Главная причина водной проблемы
7. Причина обострения водной проблемы человечества
8. Главная проблема обострения водной проблемы на Земле
9. Глобальные проблемы мира и пути их решения
10. Вывод к теме экологические проблемы ч рного моря
11. Основная причина водной проблемы человечества
12. Местные бюджеты проблемы совершенствования
13. Купля продажа земли и ее проблемы
14. Актуальные проблемы бухгалтерского учета
15. Картинки на тему проблемы экологии