Загальне
Дубинский А.Г.
ДЗ "Днепропетровская медицинская академия МОЗ Украины"
Дубинский А.Г.
ГУ "Днепропетровская медицинская академия МОЗ Украины"
ПОДГОТОВКА ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ УЧЕБНОЙ ДИСЦИПЛИНЫ
В Днепропетровской медицинской академии (ДМА) с каждым годом обучается все больше иностранных студентов. Вводятся новые языки обучения. Так в 2018/19 учебном году сформированы группы студентов, которые обучаются на французском языке.
Теперь взаимодействие преподавателя со студентами осложняется тем, что язык преподавания не является родным ни для студента, ни для преподавателя. Многие студенты, получившие неплохое школьное образование на своем родном языке, часто недостаточно хорошо владеют даже базовой терминологией на языке обучения. Эта проблема отчасти решается на подготовительных курсах, однако лучшие студенты, выбравшие языком обучения английский или французский, обычно поступают на первый курс, минуя подготовительное отделение.
Одним из инструментов, призванных помочь решить эту проблему является тематический словарь или глоссарий. В текущем учебном году сотрудники разных кафедр ДМА готовят общий словарь, который будет содержать используемые термины на украинском, английском и французском языках.
При подготовке словаря необходимо прежде всего определить круг терминов, которые будут в него включены. Общий словарь будет составлен из отдельных тематических словарей, подготовленных для каждой из дисциплин, входящих в учебный план.
Представляется вполне разумным частично автоматизировать составление предварительного списка терминов, которые используются в материалах из учебно-методического комплекса дисциплины. Методические разработки для аудиторной и самостоятельной работы студентов, а также методические разработки для преподавателей, доступны в электронном виде, обычно в формате Microsoft Office Open XML или в Portable Document Format (PDF). Если в pdf-документе текст сохранен в виде растрового изображения, потребуется использовать программу для OCR (оптического распознавания символов), которая поддерживает распознавание на языке документа.
Для получения достаточно полного предварительного списка терминов мы использовали свою программу Wordstat, созданную в 2001 г. Эта программа считывает текст из текстовых или html-файлов, может обрабатывать окончания слов, суммируя количество вхождений слов, которые отличаются числом, падежом, родом и т.п., позволяет накапливать результаты подсчета при обработке нескольких файлов. Программа Wordstat доступна на условиях freeware и загружена отдельным файлом в раздел данного курса.
Однако подготовленный программой Wordstat частотный словарь не вполне подходит для наших целей. Дело в том, что термины часто являются устойчивыми словосочетаниями, состоящими из двух или даже трех слов.
Вместо доработки старой программы, мы составили другую, на языке Python. Новая программа Wordstat2.0 с исходным кодом чуть более текстовой страницы, позволяет составить частотные словари словосочетаний из двух, трех и четырех слов.
Подсчет комбинаций из четырех слов мы добавили, когда обнаружили наличие достаточно часто встречающихся устойчивых словосочетаний. Так в методических материалах по курсу высшей математики для специальности «фармация» таковыми оказались: «задания для самостоятельной работы», «общее решение дифференциального уравнения», «частное решение дифференциального уравнения», «дифференциальные уравнения первого порядка», «дифференциал функции нескольких переменных» и пр.
В программе Wordstat2.0 реализована только базовая функциональность. До запуска программы все обрабатываемые тексты нужно объединить вместе и сохранить в один текстовый файл с заранее заданным именем и расширением: text.txt Текст должен быть сохранен в кодировке windows cp1251 (т.е. в Microsoft Word при сохранении выбираем формат "обычный текст" и обязательно указываем кодировку 'Windows (по умолчанию)', а не уникод/Unicode). Этот файл должен находиться в том же каталоге, что и сама программа. Результаты подсчета количеств употреблений двух-, трех- и четырехсловных словосочетаний сохраняются в текстовые файлы text2.txt, text3.txt и text4.txt соответственно. В text1.txt сохраняется частотный словарь для отдельных слов. Если такие файлы уже существовали, они перезаписываются без предупреждения. Словосочетания с одинаковой частотой расположены согласно порядку первого появления в исходном тексте. Словосочетание отделено запятой от числа (количества). Это позволяет легко импортировать результаты для последующей обработки в Microsoft Excel. Для этого в мастере текстов (импорт) указываем формат данных «с разделителем», символом-разделителем является запятая.
Перед подсчетом количеств словосочетаний, программа переводит все символы текста в нижний регистр и с помощью регулярных выражений удаляет все символы, которые не являются буквой или цифрой, в том числе знаки препинания. Вследствие чего список использованных словосочетаний пополняется «ошибочными», слова из которых в исходном тексте были разделены границами предложения или разрывом строки. Для отсечения низкочастотных результатов, в файлы выводятся только словосочетания, обнаруженные 2 раза и более - для четырехсловных, 3 раза и более - для трехсловных, 4 раза и более - для двухсловных и 5 раз и более для отдельных слов. Обработка флексий языка не предусмотрена. Сортировка результатов выполнена только по частоте.
Очевидно, что значительная часть найденных словосочетаний (которые не являются терминами) должны быть удалены. Удалить ненужные словосочетания (строки файла), которые не являются терминами, можно как перед импортом – в текстовом редакторе, так и после импорта – в Microsoft Excel.
Фактически нам для каждого языка нужно импортировать и объединить воедино четыре списка терминов – по количеству слов в словосочетании, и, очевидно, большинство терминов будет все-таки однословными.
До начала работы со словарем мы надеялись, что результаты обработки документов на разных языках удастся легко сопоставить. Однако оказалось, что полученные частоты слов и словосочетаний существенно отличаются. Это вызвано в первую очередь различием флексивности языков (английский, французский, русский, украинский), наличием артиклей (которые, конечно, можно отфильтровать, если доработать программу) и пр. Свое влияние оказывает и различие содержания методических разработок на разных языках, которые после перевода исходного текста редактировались независимо. Чтобы упростить сопоставление списков терминов, составленных на разных языках, нам потребуется скрипт (очевидно на Visual Basic для приложений).
После завершения подготовки списка терминов, мы полагаем целесообразным размещение терминологического словаря на образовательном портале ДМА, где сейчас развернута Moodle версии 3.6.3. Обзор трёх способов импорта глоссария дан в [1].
Для того, чтобы глоссарий был полезен иностранным студентам еще до добавления детальной расшифровки терминов, полагаем возможным в полуавтоматическом режиме добавить ссылку на соответствующую статью википедии на нужном языке. Для чего потребуется 1) сформировать url-адрес соответствующей страницы («дифференциальное уравнение» -> https://ru.wikipedia.org/wiki/Дифференциальное_уравнение), 2) убедиться что такая страница существует, и 3) добавить соостветствующую гиперссылку в глоссарий (до импорта глоссария).
Список использованных источников
- Табунщик В. Н. Краткий обзор трёх способов импорта терминов глоссария // Друга міжнародна науково-практична конференція «MoodleMoot Ukraine 2014. Теорія і практика використання системи управління навчанням Moodle». (Київ, КНУБА, 22-23 травня 2014 р.): тези доповідей. – К.: КНУБА, 2014. – 60 с http://2014.moodlemoot.in.ua/course/view.php?id=35
Программа Wordstat для создания частотного словаря текста позволяет подсчитать, сколько раз то или иное слово встречается в выбранном тексте.
Запускать из-под MS Windows. Текст, который нужно обрабатывать, предварительно сохраните в формате txt (как "обычный текст").Программа Wordstat предоставляется в виде "as is" ("как есть"), распространяется на условиях freeware (т.е. бесплатно).
© Дубинский А.Г., 2001
Указанные контакты с тех пор изменились) По всем вопросам можно обращаться dubinsky@ukr.netПрограмма Wordstat 2.0 для создания частотного словаря текста, в том числе из 2х- 3х и 4х-словных словосочетаний.
Текст должен быть в этом же каталоге в текстовом файле text.txt
Результаты сохраняются в файлах text1.txt, text2.txt, text3.txt и text4.txt
В text4.txt - четырехсловные словосочетания, которые найдены 2 раза и более; в text3.txt - трехсловные словосочетания, которые встречаются 3 раза и более; в text2.txt - двухсловные словосочетания, которые встречаются 4 раза и более; в text1.txt - отдельные слова, которые встречаются в тексте 5 раз и более.
Сортировка результатов выполнена только по частоте.
Словосочетание отделено от количества запятой - для легкого импорта в MS Excel.
Программа Wordstat предоставляется в виде 'as is' ('как есть'), распространяется на условиях freeware (т.е. бесплатно).
© А.Г. Дубинский, 2019 http://fb.com/alexeydubinsky