简介
所谓语料库是指大规模信息化处理过的语言资料的集合;它在语言研究的诸多领域应用广泛,能够有效反映语言的本质以及各种变化。
延世语料库肇始于‘韩国语辞典编纂会’成立的1986年;从1988年开始,我院开始着手‘延世语料库1’的语料标本选定工作,这标志着语料库建设正式启动。在初期阶段语料库建设主要是以辞典编纂为目的,同时也囊括了国语研究、韩国语教育、国语教育、人文语言学等诸多领域的各种语言资料,并对其进行了信息化处理。截至目前,语言信息研究院所创建的‘延世语料库’清单可参见下列清单。其中,用颜色标注的语料库条目则可以通过‘延世语料库索引检索系统’进行查询使用。
目录
编号 |
项目 |
概述 |
规模 |
1 |
延世语料库 1 |
延世语料库中,创建时间最早的语料库;依据‘现代韩国人的读书现状’问卷调查而建立的均衡性语料库。为了确保语料标本的代表性和相关标本选定标准,在‘专家调查’阶段,重点调查了教科书的删减或筛选的比例、问题翻译内容的筛选以及相关问题和读物的类目分类等问题。而在‘普通人调查’阶段,则主要参考专家意见的研究结果而进行。关于语料样本及语料库本身的详细介绍,请参考郑灿燮(1990:7~70)。 |
2,900,000 |
2 |
延世语料库 2 |
为了构建以图书借阅频率为基础的均衡性语料库,针对不同主题制定了相应语料选定标准。为了网罗各个主题中所出现的所有词汇,主要借鉴了文献情报学中的研究方法;即通过采用杜威十进分类法(Dewey Decimal Classification),将韩语文献大致分为十大类(总类、哲学、社会、科学、语言学、纯科学、应用科学、艺术、文学、历史等类目)从而进行语料收集。此外,通过假定图书的借阅频率可以间接反映单词认知度,针对1987~1988年的书籍中借阅频次较高的书目,最终选定了234本样本书目,并在1990~1998年间完成了语料库构建。样本书目比例为,总类7.8%), 哲学(9.9%), 宗教(10.7%), 社会科学(12.8%), 语言(5.7%), 纯科学(11%), 应用科学(11.7%), 艺术(8.1%), 文学(11.2%), 历史(11.3%)。 |
1,100,000 |
3 |
延世语料库 3 |
根据读者越多的文献中词汇的认知度也会越高的假设,依据1980年优秀出版物目录,从而进行了标本采集。 |
5,980,000 |
4 |
延世语料库 4 |
主要由将实际使用的口语录音并誊写的‘纯口语’资料,以及以戏剧、电视节目脚本、剧本为主的‘准口语’资料而组成。其比例为,对话(26%), 演讲(24%), 问询(14%), 戏剧·脚本(13%), DJ节目(13%), 政论(8%), 会议(2%)。与其他的书面语语料库的不同之处在于,对话参与者的年龄、性别、职业信息以及对话参与者的数量、对话的特征、誊写员资料、录音时长等信息都有收录其中。 |
770,000 |
5 |
延世语料库 5 |
由1970年代文献中,包括教科书以及新闻材料在内的多种文献资料所构成。收录资料的比例为,新闻(10%), 小说·随笔(50%), 一般图书(35%), 教科书(5%)。 |
8,600,000 |
6 |
延世语料库 6 |
以构建能够翻译解放之后韩语面貌的语料库为主要目标,以1960年代的文献资料为基础,并以1000万词频为预期目标,而构建的语料库。 |
7,230,000 |
7 |
延世语料库 7 |
主要以1990年中期以前的小说和随笔等材料为主所构成,并在1994~1995年期间得以完成。 |
13,670,000 |
8 |
延世语料库 8 |
由小学所有科目以及初高中的国语和社会科目的教学资料所构成。包括第五次教科课程(韓榮均语料库)以及第六次教科课程。 |
870,000 |
9 |
延世语料库 9 |
以纯韩语使用频率较高且句子结构也更符合韩语语法构造的儿童教学图书资料为基础,于1996年创建的语料库。 |
1,500,000 |
10 |
延世语料库 10 |
利用为《延世现代韩国语辞典》编纂而收集的1时期(1945~1965年)语料库中的单行本图书资料而构建的语料库。 |
780,000 |
11 |
延世语料库 11 |
利用为《延世现代韩国语辞典》编纂而收集的1时期(1945~1965年)语料库中的教科书资料而构建的语料库。 |
730,000 |
12 |
延世20世纪韩国语语料库 |
以20世纪出版的文本资料为标准,而收集并创建的书面语原始语料库。 |
150,378,870 |
13 |
韩国语教材语料库(全部) |
以1990年代韩语教育机构编著的韩国语教材文本为基础而创建的语料库。 |
724,856 |
14 |
韩国语教材语料库(对话) |
以1990年代韩语教育机构编著的韩国语教材中的导入部分对话文本为基础而创建的语料库。 |
119,598 |
15 |
延世韩国语学习者语料库 |
以延时大学语言研究教育院学生所写的作文文本为基础,创建的韩国语学习者语料库。 |
278,542 |
16 |
光复以后初级韩国语教科书语料库 |
以‘教授要目期’之后所发行的小学国语教科书资料为基础而构建的语料库。 |
1,496,280 |
17 |
6,7次初级教科书语料库 |
以第6次、第7次教育课程的教科书资料为基础,并依托延世韩国语辞典,进行过同形异义词标注的语料库。 |
1,681,769 |
18 |
延世书面语均衡语料库 |
包括多种多样体裁文本的书面语语料库。 |
1,054,362 |
19 |
延世口语均衡语料库 |
包括正式对话、非正式对话、独白和对白在内的均衡性口语语料库
|
998,934 |
20 |
延世多义词语料 |
为了编纂韩国语语义频率辞典而构建的多义词标注语料库。 |
1,165,224 |
21 |
延世韩文大藏经语料库。 |
以佛说类经文和序文以及释义文本为基础而构建的语料库。 |
386,472 |
22 |
独立新闻语料库 |
包括独立新闻国语文本以及原始文本(校正文本)对照的语料库。 |
144,309 |
23 |
近代流行歌谣语料库 |
以1930~1940年代唱片中收录的流行歌谣歌词文本为基础而创建的语料库。 |
29,339 |
24 |
延世多媒体语料库 |
包括对话录像、语音誊写文本、非语言行为信息标注在内的语料库。 |
18,986 |
25 |
推特语料库 |
收集2011年10月期间生成的韩语推特文本而构建的语料库。 |
945,175,620 |
26 |
政治谈话语料库 |
以语篇分析为目的,收集政论主题文本而创建的语料库。 |
306,681 |
|
合计 |
|
1,148,089,842 |