】 【打 印】 
【 第1页 第2页 第3页 第4页 】 
以数字映射古代文学经典
http://www.CRNTT.com   2022-03-30 15:32:49


 

  唐诗偏重空间,而宋诗偏重时间。敻绝的宇宙意识和无垠的空间,从《全唐诗》词频前五位中(不知、何处、万里、千里、不见)可见一斑。日本汉学家吉川幸次郎曾提出,唐诗是凝视着人生贵重瞬间的燃烧,所注视的只是对象的顶点。而宋诗是时间性的,诗人视人生为漫长的持续。以语词的统计来衡量这一观点,唐诗排序最高的时间词是“今日”(8),时空与情感凝注于此一点,而宋诗中居首的是“十年”(9),继而是“今日”(12)与“百年”(20)。吉川将“燃烧与持续”的说法推进至意象选用的对比方面,夕阳是燃烧的景象,雨是持续的景象,于是有了“唐人写夕阳宋人写雨”的经典论断。词频统计恰也验证了这点,《全唐诗》词频居于前列的“落日”(55)、“日暮”(59)、“夕阳”(69),在宋诗中都排在九十位之后。

  不同于信息爆炸的现代,传世文献中的经典文本边界是相对清晰的,然而其体量对于专注于某一选题或领域的研究者依然难以全体掌握。基于大数据技术的古代文学经典文本分析,既着眼于经典文献,又以海量的基础文献为基础,希望在较短时间内用高效、全面的数据挖掘,来进行准确有效的文本分析。传统古典学研究中的结论多通过个人有限阅读过程中的观察、思索、领悟等方式获得,这类方式往往具备一定的主观性乃至先验色彩。大数据的汇聚和计算分析方法的运用,能够使既出人意表又允执厥中的结论“自动涌现”。

  利用大数据将以往被分裂和隔绝的事物重新连接,改变了我们对文献、文本、知识的认识路径和把握尺度。仅从字/词频统计这一大数据手段的微小切面入手,我们便已初步获得了以一种新方式探测经史、语言学、文学等领域文献的体验。与用不同技术手段、不同结构化方式、不同颗粒度重构的集成式文献知识库相比,以上工作或许只是一份小尝试。相信随着统计数据的累积、叠加和映射,古籍和传统文化研究一定能够焕发出更多生机和活力。


 【 第1页 第2页 第3页 第4页 】


扫描二维码访问中评网移动版 】 【打 印扫描二维码访问中评社微信  

 相关新闻: