乡村地名文化的大数据分析及其空间网络分布
地名是研究乡村文化的活化石,挖掘和研究乡村地名文化对于文化传承具备极其重大价值。以我国48万多个行政村地名为样本,使用文本分析工具,分别以全名、专名、通名进行频次统计和网络共现。发现和平、团结、张庄等是我国使用频次最高的行政村地名,而在专名中,“东、大、西”等方位词和“王、李、张”等姓氏使用频次最高,“村、庄、山、沟”是最常见的通名。我国地名存在冀鲁豫和湘川渝两个核心,在周边形成不同的地名文化板块,构成了丰富多彩的乡村地名文化网络。
乡村地名是宝贵的民族文化遗产。地名具有非常明显的地域特征,代表了不一样的地区的文化特色和历史传承,是研究乡村文化的活化石。跟着社会的发展,特别是城镇化步伐的加快,大量乡村实体不断消失,这些乡村地名所承载的历史与文化内涵,也可能随之湮灭在历史长河之中。地名是乡愁的基本载体,挖掘和研究乡村地名,对于乡村文化的传承和振兴具备极其重大意义。
通过查询民政部、住房和城乡建设部、统计局等官方数据,1990年我国共有行政村100.1万个,2020年减少到了49.3万个;在自然村方面,1990年有377.3万个,到2020年只剩下236.3万个了。文化振兴是乡村振兴的五大工程之一,继承和发扬乡村民间传统文化,是乡村振兴的重要任务。乡村地名文化包括历史、地理、社会、经济、军事、民族、语言等方面的知识,内容丰富厚重,具有较强的原生态性。目前,关于乡村地名文化的研究大多分布在在历史、地理、民族和语言等领域,如中国乡村地名的历史起源、某一区域民族地名文化资源的挖掘、地名文化内涵和历史传承、新疆不同语言地名的空间分布等研究。研究方法主要是史料考证、语言文字分析以及地理信息系统等。
近年来,大数据和复杂网络分析开始应用于地名研究,如利用新闻报道中城市地名共同出现的频次来研究不同节点城市的中心度以及相互之间的社会与经济关系,构建区域城市群地名共现网络等,这些研究仅限于城市地名,样本数量相对较少。本文则是以全部行政村地名为样本,综合利用大数据文本挖掘与复杂网络分析方法,以期揭示不一样的地区乡村地名的文化特色,初步探索乡村地名之间的网络关系。
基础数据来自国家统计局公布的2021年度全国统计用区划代码和城乡划分代码,更新维护的标准时点为2021年10月31日。同时使用“中国国家地名信息库(https:)”“中国聚落地名分布查询(http://)”系统作为辅助数据来进行验证,前者是民政部官方网站数据库,涵盖了各类地名数据,后者是民间网站的数据库,共收录了我国各地区(不包括台湾省,以下统计数据均不含)3926858个自然村地名。据国家统计局《统计用区划代码和城乡划分代码编制规则》显示,中国统计用区划共分为省、地、县、乡、村等五级,其中,省、地、县分别用两位数编码,乡镇和行政村分别用三位数编码,共十二位编码。我国共有31个省级行政区单位(不包括港澳台地区,以下统计数据均不含)、333个地级行政区、2843个县级行政区、41355个乡级行政区,五级基层组织共有618133个。第五级行政区划分为城镇和乡村两个区域,分别有三种组织形式。依照国家《县级以下行政区划代码编制规则》(GB/T10114—2003)的规定,城镇区域的组织形式是居民委员会(编码为001~199,十二位编码中的最后三位,下同)、类似居民委员会(编码为400~497、499)和虚拟社区(编码为498);农村区域的组织形式是村民委员会(编码为200~399)、类似村民委员会(编码为500~597、599)和虚拟生活区(编码为598)。类似居委会(村委会)是指级别相同但名称不同的区划单位,如园区、农场分场、连队生活区等;虚拟社区(生活区)是指级别相当,但没有明确设置居委会(村委会)的单位,如北京大兴机场工作区虚拟社区、天津市北辰区红旗农场虚拟生活区等。在乡村区域的三种组织形式中,共有村委会488991个、类似村委会5628个、虚拟生活区725个。村民委员会(村委会)所管辖区域又称行政村(或建制村),行政村一般由若干个自然村组成,较大的自然村可以独立组成行政村或者分解为若干个行政村。本文分析的对象是现有的488991个行政村所管辖区域地名,即行政村地名,简称村名。针对以上数据,使用SPSS、Gephi等工具对488991个行政村地名的全名、专名和通名进行频次统计、地区分布和网络关系分析,挖掘不同地区地名的特色及其文化内涵。
根据国务院发布的《地名管理条例》(2022年5月1日起实施)第九条的规定,地名由专名和通名两部分组成。行政村的法定名称为“村民委员会”,简称“村委会”,但在中华人民共和国住房和城乡建设部统计时仍使用行政村。行政村地名的正式名称由专名、通名和区划通名等三部分组成,即“专名+通名+区划通名(村委会)”,作为地名研究,主要是关注专名和通名。乡村地名有长有短,字数多少不一。例如,安徽省萧县杜楼镇孟窑村委会有自然村名为“孝哉闵子骞鞭打芦花车牛返村”,是我国最长的自然村地名。在行政村地名中(不包括区划名称),双音节地名(如王村、张庄)有244041个,占49.91%,三音节地名(如赵各庄、李家村)180970个,占37.01%,共计占到全部村名的86.92%。可见,常用的村名以双音节和三音节为主。
根据《地名管理条例》,同一个省级行政区域内的乡、镇名称,同一个县级行政区域内的村民委员会、居民委员会所在地名称,不应重名,并避免同音。针对地名重复问题,曾专门进行整理,但只是到县一级。目前,要实现省内乡镇不重名、县内村委会(居委会)不重名,还有一定的难度。在全部488991个村委会中,重名的有326604个,占66.79%,其中仅重复两次的地名22878个,占9.36%,完全不重名的有162386个,占33.21%。统计完全相同的村名,使用频次前30的村名及其使用频次见表1。在表1列举的村名中,使用频次最高的名称是“和平村”“团结村”“太平村”等。高频次村名可以分为传统名称和新兴名称两类,和平、团结、太平、胜利、红星等新兴村名大多数是新中国成立后出现的,名称具有较强的寓意性;传统村名多以姓氏、自然与地理环境特征为专名,如张庄、王村、石板岩等。在使用最多的30个村名中,新兴与传统村名之间的比例是21:9。在长期的历史演变中,传统村名通过增加限制性专名等方式,减少了重复的次数,如“大王庄”“北张庄”等。
新兴村名和传统村名具有不同的地理分布。以和平村和张庄村为例,和平村主要分布在湖南省(56个)、贵州省(47个)、黑龙江省(45个)、四川省(40个)和广西壮族自治区(37个)等地,在村庄密布的华北平原地区较少出现,河北省和河南省分别只有7个和4个。传统村名的分布主要集中于冀鲁豫三省,河南省有167个张庄,山东省和河北省分别有108个和73个,三省的“张庄”占全国的78.20%。华北平原人口密集,自然村可以独立成为行政村,故多沿用传统村名。部分省级行政区及直辖市使用频次最高的前10个村名,构建村名共现网络(见图1)。从图1可以发现,全国部分地区常见村名共现网络具有明显的核心和板块结构。河南、河北、山东构成了一个以“张庄、王庄、李庄、赵庄”等传统村名为核心的网络;湖南、四川、重庆构成了一个以和平、平安、红旗、胜利等新兴村名为核心的网络,与这个核心相连的还有黑龙江、吉林、辽宁、内蒙古等省区。江苏省是连接南北两个地名核心的桥梁,安徽省、湖北省、陕西省与江苏省有所类似,是地名文化的过渡地带。由两个核心向外扩展,山西省、甘肃省和青海省连接度较强,江西省、浙江省、广东省、广西壮族自治区和海南省又构成一个板块。新疆尔自治区与西藏自治区村名具有鲜明的民族特色,西藏的前10个村名与其他地区没有交集,新疆尔自治区则有“团结”和“幸福”与其他地区相连,这种网络关系充分体现了中国乡村地名的区域特色。板块之间既有联系,又有差异,越是远离核心,地名文化的差异性就越大。不同地区、不同民族、不同时代语言特色的地名在时空交汇,构成了中国厚重旖旎的乡村地名文化。
专名分为单纯词和合成词两种结构。双音节单纯词可以单独作为地名,合成词专名一般由两个词构成,也可以由多个词构成,合成词的构成在语法上也没有限制。乡村地名来自民间,约定俗成,常用的专名有姓氏(张、王、李、赵等)、计量(一、二、三等)、示位(东、南、西、北等)、对比(新、老、大、小等)、动作(卧、打、跳、走等)、动植物(龙、虎、杨、柳等)、人文(孝子、罗汉、仙女、秀才等)、史地(扳倒井、虎牢、沙、水等)、经济(瓦窑、铁炉、牛市、油坊等)、寓意(团结、胜利、和平、幸福等)等若干类别。对资料中的488991个村委会全名进行分解处理,区分专名与通名分别进行频次统计,专名和通名全部按照单字处理,专名使用频次最高的30个字见表2。使用“中国国家地名信息库”和“中国聚落地名查询系统”做验证,表2排序与自然村的首字排序基本一致。
从表2不难发现,表示方位的专名使用频次最高,其次才是各种姓氏,再次是地理名称。在示位专名中,使用频次从高到低依次是东、西、南、北、上、下、前、后、中,“东西”是“南北”的1.57倍;在对比专名中,依次是大、新、小、中,“大”是“小”的2.02倍,“新”是“老”(2493)的6.08倍,说明在中国文化中,崇尚“大”但不避“小”,喜用“新”而慎用“老”;另外,由于“东”多于“西”,“南”多于“北”,说明村庄在最初的形成过程中,主要是由西往东、由北向南延展。在姓氏专名中,依次是王、马、张、李、高、杨、刘、黄等,其中,“马”出现频次高有多种原因,“马”姓出处多、分布广,“马”除了作为姓氏以外,还有其他含义,与专名“高”“黄”“白”的情况类似。
统计各省、自治区、直辖市出现频次最高的前10个专名(见表3),不考虑西藏、新疆和内蒙古等三个自治区,其他各省、自治区、直辖市专名排序支持表2的统计。“大”在表3中出现的次数29次,“新”和“东”各出现23次,“西”和“南”各出现16次,“三”和“张”分别是12次和11次,“王”和“龙”各出现10次。在表3所列出的专名中,有17个专名只出现了一次(不包括内蒙古、新疆和西藏),代表了其所在区域的地名特色。这17个字依次是“溪”(福建省)、“那、平、六、古”(广西壮族自治区)、“抱、美、文”(海南省)、“刘”(河南省)、“民、富”(黑龙江省)、“四”(吉林省)、“拉、尕”(青海省)、“联”(上海市)、“阿、曼”(云南省)。
“溪”一般用作通名,在全国自然村地名中,溪作通名的有17577个,放在首字作“专名”的只有2980个,其中1181个在福建省,如溪口、溪头、溪尾、溪边、溪南、溪北等。在这些地名中,“溪”有时是专名,有时是通名前置,很难判断。
广西壮族自治区的地名比较特殊,其民族语言地名与汉语地名很难区分,如“大”和“六”,既可能是汉语的本义,也可能是壮语的注音,壮语的“大”是指“河”,“六”则是“山谷”。壮侗语的地名通常是通名在前、专名在后的齐头式地名,广西壮族自治区的地名中的“大”和“六”属于专名与通名兼用。“那(南、罗、纳)”是壮语,意为水田,一般前置用作通名。“平”也是一词多义,除了平坦以外,还有“市、场”的含义,作为专名,主要是取其本义。广西壮族自治区以“古(果、歌、过、姑、句)”为首字的地名较多,远超全国其他省份。“古”在地名中有多种含义,除了汉语本义以外,还有“这,那”“棵”等其他含义,多为专名,如“古降村”是指“这里地势开阔的村”,“古立村”是指“有很多棵梨树的村”,而在古越语中,“古”还是村寨的通名,并且前置。
海南省的地名与广西壮族自治区有很多相似的地方,黎语、临高语与壮侗语接近,音译和汉语本义混合使用,专名与通名倒置,导致很多地名难以从字面解释,如“南”“抱”“美”“文”等。“南(湳、喃)”表示“水”;“抱(保、宝、报、包)”就是村落;“美”(迈、湄)由“母”演化而来,表示母亲、雌性或物体之大者;“文”意为旱地或园子。另外,海南省的地名中常见的前置通名“那、什、扎”表示水田,与壮侗语相通。
查询“中国国家地名信息库”,黑龙江省村落主要形成于清末民初和中华人民共和国的1960年代,村落名称受时代影响较大,“民富”“富民”一类的地名偏多,既有时代特色,也是美好期望。东北三省的部分地名起源于满语,经过汉语演化并赋予全新的语义,如富裕屯的富裕,满语的原意是洼地。
青海省地名中的“拉”“尕”是藏语的音译。同样,云南省的“阿”“曼”也是民族语言的音译,其中,“曼”在傣语里表示“村寨”,通名前置。在人口众多的大姓中,“刘”姓只有在河南省进入专名前十。根据第七次人口普查的数据,刘姓人口分布最多的省份是河南省和四川省,而河南省的村名多以姓氏为专名。
内蒙古、新疆、西藏等三个自治区村名的音译一般为多音节。内蒙古自治区村落常用的专名有巴彦(富饶)、宝拉格(泉水)、查干(白色)、巴图(结实)、塞罕(美丽)等;新疆尔自治区常用的民族语言专名有博斯坦(绿洲)、兰干(客栈)、英(新)、阿瓦提(繁荣)等;西藏自治区村庄的专名多是祝福、吉祥以及宗教用语,如扎西(吉祥)、德吉(幸福)、拉(神)等。
村庄的通名即乡村聚落名称的统称,常见的通名大致分为三类:一是居民点名称,如村、庄、街、巷、里等;二是建筑物名称,如楼、桥、庙、寨、店、坊等;三是自然地理名称,如山、岭、沟、河、湾等。在村庄名称中,有的没有通名,有的只有通名,有的有两个甚至多个通名。为了便于统计,将村名末字定为通名,当两个通名相连,最后一个是“村”或“子”时,统计前一个通名,结果见表4。从表4不难发现,“村”使用频次最高为125666次,其次是“庄”“山”“沟”等。
“村”和“庄”是两个最常见的通名。“村”在全国的分布比较均衡,其中,最多的是山东省、四川省、河北省、河南省等人口较多的省份。“村”字是东汉末年才出现的一个汉字,其前身是“邨”,特指因屯垦而形成的居民点,屯田制被废弃后,邨字逐步为村所替代。“庄”主要分布在华北地区,鲁豫冀三省约占全国的四分之三。庄字的原始含义是在垒墙和筑路时填土的动作,春秋时期齐国国都临淄有两条商业大街分别叫“康”和“庄”,“连衽成帷”“举袂成幕”“挥汗成雨”等成语就出自这里。《尔雅·释宫》:“五达谓之康,六达谓之庄。”又据《说文解字》:“达,行不相遇也。”康庄后泛指繁荣宽阔的大道。《尔雅音义》解释“庄”:“盛也,道烦盛。”《大广益会玉篇》则将庄解释为“草盛皃(mào)”。据此,隋唐之后将官方所有和赏赐的田地称为庄田,后演变成农村居民点通名。
我国目前共有10056个以“山”为通名的行政村,相对于2011年的16828个“山”村,十年间减少了40.2%。精准扶贫使很多贫困村搬出了深山,摘掉了“穷”帽。“山”村在全国的分布相对比较均衡,浙江省最多为787个,其次是福建、江西、山东和甘肃等省份。“沟”分布的省份主要是陕西、河北、山西、河南、山东、甘肃等六省,在全国占比为66.8%。从西部、北部到东部和南部,以沟为村,由多变少,呈阶梯性递减。浙江、福建和江西分别只有6个、4个和2个“沟”。沟少溪就多,我国以“溪”为通名的地名,主要集中在福建、湖南、江西、浙江等省份。
分别统计31个省、自治区、直辖市乡村通名频次,取每个地区频次最高的前20个通名绘制我国部分地区通名共现网络(见图2)。通名具有较强的区域性,是一个地区传统文化和地理地貌的具体反映。从图2不难发现,河南、河北、山东、安徽、山西、北京、辽宁等省市通名共现密度最大;上海市、黑龙江省和吉林省具有较强的关联性,三地的新兴村名支撑了这种联系;江西省、福建省、广东省、海南省、贵州省、广西壮族自治区、重庆市构成一个区域;云南省、四川省和甘肃省又与我国中部地区有较强的共现关系。在各地20个高频通名中,新疆尔自治区和西藏自治区分别拥有14个和13个独立的通名,然后是拥有4个独立通名的上海市、天津市和福建省,拥有3个独立通名的有内蒙古自治区和青海省。从图2还可以发现每个地区的特色通名,以新疆尔自治区和西藏自治区的特色通名最多。在网络中,其他省市也呈现出一系列特色通名,如福建省的“厝”、浙江省的“岙”、天津市的“沽”、安徽省的“郢”、吉林省的“字”等。独特的通名是地方文化的一张名片。“厝”在闽南语中是“家”和“房屋”,以“厝”为村名,几乎全部分布在福建省及其毗邻的广东省的潮汕地区。我国有4279个自然村以“厝”为名,其中,福建省占81.6%,广东省占14.9%。“岙”指山间平地,我国有1764个以“岙”为通名的自然村,其中,1709个在浙江省,“垟”也是几乎全部在浙江省。“沽”是天津的别称,用“沽”作通名的自然村有97个,其中,61个在天津。“海河七十二弯,天津七十二沽”,“沽”的形成和演变就是半个天津史。我国以“郢”为通名的行政村有188个,其中, 178个在安徽省。以“郢”为通名的自然村有6954个,安徽占6709个,毗邻的江苏省盱眙县有243个(盱眙县在历史上曾属于安徽省)。安徽省的“郢”多,因为明朝在凤阳修建中都(后凤阳府),驻扎大量军营。现在所谓的“郢”绝大多数都是由“营”和其他发音相同的通名而来,具有历史意义。以“字”为名虽并不常见,但在吉林省乾安县,却是村村有“字”。1925年,吉林省当局决定对一块荒地设官治理,因该地位于省会西北,属于八卦中的乾位,故命名为乾安县。仿照井田制出荒设井,共划274井(每井长宽各3公里)。每井按照《千字文》依次命名,从东北角开始按照传统书写顺序排列,如“天字村”“地字村”等,将国学书写在了大地上,形成了独具特色的地名文化。在图2的通名网络关系中,内蒙古自治区、新疆尔自治区、西藏自治区的通名只是音译的最后一个字。内蒙古自治区常见的通名有嘎查(村)、塔拉(平地)、温都尔(高地)、淖尔(湖)、高勒(河流)、敖包(土堆)等;新疆尔自治区常用的民族语言通名有古勒巴格(果园、花园)、艾日克(小河)、吾斯塘(渠)、其布拉克(泉)、麦盖提(集市)、买里(村)等;西藏自治区常用的通名有岗(坡)、日(山)、拉(山口)等。青海省的通名受藏语文化的影响,“隆、加、麻”皆音译,其中,“隆”为单音节,即汉语的“沟”。
我国将近49万个村委会地名,文化内涵丰富多彩,既有时代特征又有历史传承,各具特色又相连相通。地名具有显著的地域特征,冀鲁豫三省以姓氏为专名、以“庄”为通名的传统村名为主,新兴村名相对较少;和平、太平、团结等专名使用频次高,体现了新中国对乡村地名的影响,反映了人民健康向上的价值观;专名东、南、西、北、前、后、大、小等的使用频次,既体现了民间传统文化的传承,也能反映出乡村衍生的历史轨迹;在东南、西南和东北地区,地名时空穿越,既有古代与现代的传承,又有不同民族之间的融合;内蒙古自治区、新疆尔自治区、西藏自治区等地的地名文化特色突出,反映了人民对大自然的尊敬和对美好生活的追求。