您的位置:首页 ->> 思想者论坛 】 【打 印
【 第1页 第2页 第3页 第4页 第5页 第6页 】 
“伤不起”成年度十大热词 “吊丝”落选

http://www.CRNTT.com   2012-07-06 13:42:37  


  中评社北京7月6日讯/《2011年中国语言生活状况报告》最近发布,伤不起、虎妈、淘宝体和另外7个词,被宣布为“十大新词语”,十二五开局、乔布斯、利比亚局势等则是“十大流行语”……(详见链接)

  许多人好奇,这两个“十大”到底是怎么“选拔”的?该不是一帮人围一桌你一言我一语凑出来的吧?中国传媒大学教授侯敏对此回应:怎么可能?这可是历经监测、过滤、筛选、释义等一整套程序,从每年10亿字的语料中像沙里淘金那般“提炼”出来的。

从几万条中挑几百个

  侯敏教授有着另一个头衔:国家语言资源监测与研究中心有声媒体语言分中心负责人。她介绍说,每年总量10亿字的语料,取自平面媒体、有声媒体和网络媒体,并且逐年积累形成三大语料库。

  平面媒体语料库每年新采集5亿字,以15份国内报纸为样本,收入1月1日至12月31日的所有文字;有声媒体语料库年采集1亿字左右,以央视新闻联播、央广新闻与报纸摘要等广播电视主流新闻栏目为样本,将1月1日至12月31日的视频与音频素材全部转换成文字;网络媒体语料库的年采集量约4亿字,收纳新浪、腾讯等网站新闻栏目的全年语料。

  语料备齐,先要人工“淘洗”一番,查找补正漏字、缺字、乱码等等,而后一股脑儿送进语言信息处理技术平台,平台上装着全切分软件、自动分词软件等。在电脑上输入“我是学生”,立马会被切分成我、是、学、生4个字与我、是、学生3个词。

  新词语,当然要“新”。把2011年度的语料统统切分成词语之后,需借助软件把它们跟此前几年的词语作比对,去旧留新,剩下来的就构成了年度新词语候选集——候选的词语有多少?年均几万条。不过其中包含了大量人名、地名、机构名称、数字表达式、时间表达式等,这些没有语言学意义,不能算,得剔除。侯敏说,每年最终入围的几百个新词语,就是从这几万条候选词中遴选出来的。遴选完全由人工操作,选中的词语还要逐条释义,为此几十名专家得集体工作两个多月。这部分工作的成果,《2011年汉语新词语》今年8月将正式出版。

  相比新词语,流行语的“选拔”简单些。利用电脑软件,统计出每个词在365天中的生命周期长短、出现频次高低等指标,然后对比前一年数据,使用频率相仿的即刻淘汰,而一旦发现使用频率“异峰突起”的,就留下。“迅速盛行、广为传播是流行语和其他词语的最大区别;从新出现或较少使用到广泛使用的间隔时间短,是流行语的显着特征。”中国传媒大学副教授滕永林说,流行语的人工筛选也相对轻松,候选集跟最后公布的流行语差别不太大。 


【 第1页 第2页 第3页 第4页 第5页 第6页 】