Language situation in China.2006
光盘
作者: 李宇明主编;王铁琨[册]主编;国家语言资源监测与研究中心编
出版社:商务印书馆,2007
简介: 调查统计和撰写报告过程中,始终遵循实事求是的原则。“实事求是”体现在两个方面:一是力求客观记录语言文字使用的实态,二是吸收和改进现有技术手段,在记录语言文字使用实态的过程中努力体现出技术“实态”的最新进展和较高水平。两个“实态”缺一不可,前者是追求的目标,后者体现了实现目标的手段和方法上的改进。随着科技的进步,中文信息处理技术发展非常快,使得我们现在有条件运用计算机、语料库和数理统计的方法定期发布监测数据,开展语言使用实态的研究,这是非常了不起的进步!但是,技术的发展和走向成熟需要一个过程,由于多方面原因,现有的信息技术手段在处理语言文字时尚有一些“瓶颈”问题(如自动分词和提高词性标注的准确率等)没有得到圆满解决,也在一定程度上影响甚至阻碍着统计数据和研究报告质量的进一步提升。因此可以说,发布中国语言使用状况报告和相关数据,既得益于信息技术的发展,也受制于目前信息技术水平的“实态”,这是需要信息处理界和语言学界合力攻关才能逐步解决的问题。在《中国语言生活状况报告(2006)》(下编)数据处理和报告撰写遇到需要攻关的问题时,我们时常采取请教信息处理专家,或者召开信息处理和语言学专家都参加的专题研讨会等方式,探索某些无法回避的技术“瓶颈”问题的处理策略,力争使所采用的技术“实态”能够代表最新和较高发展水平。当然,这类问题目前解决得还不是很理想,这是需要说明的。
还有一点需要说明的是,利用现代信息技术手段对动态、鲜活的年度语言文字使用状况进行数据处理和初步分析,是一项全新的、具有开创意义的工作。工作开始的头几年主要还是探索阶段,工具、手段都不是很完善、很成熟,人们对语言现象的认识(语言观和语言规范观)也有许多不同。这种探索往往依赖于技术上的支持,而处理语言文字的信息技术眼下还有一定局限性,兼通语言学和计算机科学的“两栖型”研究队伍的培养建设,目前也还不能满足实际研究工作的需要,等等。在这种情况下,调查统计本身有些缺陷、数据有一点儿误差应该是允许的,事实上也是难免的。在本编的研究撰写中,我们遇到了局外人难以想象的困难,付出了比编写其他著作辛苦得多的巨大努力,除召开4次专家审稿会外,本编还针对研究难点和数据处理中遇到的问题约请有关专家开了3次专题研讨会、4次专题审稿会,各位审订更是严格把关。尽管如此,数据和报告中的不足和疏漏之处依然在所难免,恳请读者不吝赐教,帮助年度语言生活状况报告的数据发布和撰写工作逐步完善。