社会网络分析方法在图情领域合著关系的实证研究

来源:岁月联盟 作者:荣先乾 覃桃 时间:2014-06-25
  [摘要]本文首先构建了图情领域的作者合著网络,并将该网络与国外其他学科的合著网络进行比较分析,发现目前图情领域的合著交流并不充分,提出需要进一步加强交流与合作。随后,构建了图情领域核心作者的合著网络和web合著网络,并对两个网络进行了简单的比较分析,指出可以通过使用web合著网络近似模拟学术合著网络进行社会网络分析,解决web合著中的文献重复消岐和作者重名消岐问题。
  [关键词]社会网络分析;图书馆学;情报学;合著关系;web数据集
  
  1 引言
  
  随着学科的不断发展,学科的专业化程度越来越高,很多科学研究需要科研者进行合作才能够完成,在学术上,这种情况表现为科研合作和科学合著越来越频繁。科研合作和科学合著的科研者之间往往较为熟悉,科研者之间通过互相合作发文,建立了一个合著发文网络,该网络能够比较真实地反映科研者人际网络,又称为社会网络。过去,一般使用传统的文献计量学方法(即统计学方法)分析合著关系,这种分析的弊端是没有从整体上来考察作者之间的合著关系,忽略了某些作者之间潜在的关联。社会网络分析方法产生于社会学领域,现在已经发展成为了一种应用广泛的研究方法。使用社会网络分析方法考察图情领域作者之间的合著关系,可以了解图情领域目前的合著状况,改善图情领域的合著现状。作者合著网络的学术数据集一般难以获取,而web数据集相对而言更容易获取。比较学术数据库和web数据集所形成的社会网络的异同,如果两者的差异不大,则可以使用web数据集模拟学术数据库进行社会网络研究;如果两者的差异很大,则需分析比较两个网络,找出差异存在的可能原因。
  
  2 相关研究现状
  
  国外关于合著网络的实证研究比较多,大多数集中在自然科学领域,作者也一般来自物理学、数学或者计算科学领域,来自图情领域的作者相对较少。Xiaoming Liu等构建了数字图书馆领域二值无向合著网络,并进行了中心性分析,构建了加权有向合著网络,并提出了authorRank计算单个作者在合著网络中的地位;Fuyuki Yoshikane等比较了计算机科学理论研究领域和应用研究领域合著网络,并修改了hits算法来识别合著网络中领导者和追随者;A.L.Barabasi研究了合著网络随时间的演变规律,验证了合著网络度分布符合幂率分布、聚类系数随时间递减、最大连通子图占整个网络的比重随时间递增、平均度随时间递减、新加入节点优先选择度比较高的节点建立连接;M.E.J.New-man研究了物理学、生物学和计算机科学领域合著网络的基本属性,并对各个网络进行了比较分析;Yasmin H.Said等介绍了社会网络分析的基本方法如中心性分析、聚类分析等,重点研究了合著网络聚类分析后形成的小团体特征,这些小团体可以归纳为单人型、顾问型、企业型以及团队型,并推测这些小团体特性可能带来的影响。在国内,使用社会网络方法实证分析合著关系的研究相对较少,南京大学信息管理系的朱庆华总结了社会网络分析方法在情报学领域的应用现状,并对《情报学报》的合著社会网络做了实证研究,使用Ucinet工具对《情报学报》合著网络进行了中心性分析、凝聚子群分析以及核心一边缘结构分析,评价了学者在合著网络中的地位,发现了合著网络中联系紧密的团体,指出了合著网络中核心作者的数量和所属机构;刘蓓等使用NetDraw工具分析了研究者合作发文的网络、共词网络、引文网络、小团队不同时期合作网络,认为我国的情报学合作研究不够充分,大多数处于分散研究状况;鲁东大学的王福生等验证了《情报学报》合著网络符合无标度网络特性和小世界网络特性;中国科技信息研究中心的孟微等使用Pajek工具对《情报理论与实践》的合著网络进行了可视化研究,得出了一些小团体。
  
  
  
  3 研究方法
  
  3.1 研究对象
  本文实证研究的目的是为了获取整个图情领域社会网络的基本属性,同时比较图书馆学和情报学领域(以下简称图情领域)由学术数据集和web数据集所生成的社会网络的差异。研究的领域为图书馆学和情报学。本文定义图情领域为以下罗列的图书馆学和情报学17类国家级核心期刊,见表1。本文从中国期刊网采集了以下期刊1998--2007年共lO年所有论文的题名、作者及发表时间。图1展示了十年间合著率的变化,可以很清楚地看到,整个图情领域的合著率呈上升趋势。
  以图情领域的期刊发文记录构建合著网络,其中节点为发文的作者;合著文章中所有合著者之间两两关联记一次合著关系,合著关系不分方向。如文章I由A、B、C三位作者合著,文章II由A、D合著,则提取节点A、B、C、D,提取关系A-B、B-C、A-C、A-D。由该例生成的社会网络如图2。通过这种方式,提取到图情领域总计49 938篇文献里面25 712个作者之间的29 643条合著关系(多次合著关系简记为一次),构建了图情领域的合著网络。
  本文还将比较图情领域核心作者合著网络和核心作者web合著网络的差异。根据普赖斯定律关于核心作者的定义,选取发文量在O,749’N一=8.57以上的作者作为核心作者研究,其中N...为发文最多的作者的发文量,在我们的试验中,N...:131。这样,获取了图情领域核心作者的合著网络,该网络包括1215个节点。本文将重点研究该网络。同时,由这些核心作者构建web学术网络。本文定义的web学术网络节点为实验中的1215名核心作者;关系为两位核心作者在Google Scholar中文学术搜索中的共著次数。试验采集了这些核心作者在Goc,出Scholar中的共著信息,并由此构建了web合著网络。
  3.2 研究角度
  目前使用社会网络分析方法分析合著网络,主要集中在以下几个方面:(1)中心性分析。中心性分析包括点度中心性分析、中间中心性分析和接近中心性分析。点度中心性描述了节点与其他节点的关联次数,在合著网络中即表示作者参与合著的次数;中间中心性描述了通过该节点的路径数量总和,表示了该节点对资源的控制能力;接近中心性为节点和其他节点的距离之和,该值越小表明该节点能以最短的距离到达其他节点,在网络中处于比较核心的地位。(2)凝聚子群分析。凝聚子群分析主要包括K-丛分析和凝聚子群密度。K-丛是指一个规模为N的子群,该子群中每个点至少与(N-K)个点关联,用子网络的关联特点来反映整体网络的特点;凝聚子群密度是子网络密度和整体网络密度的比值,用以反映整个网络中的小团体现象是否明显。(3)核心一边缘结构分析。根据网络中节点之间联系的紧密程度来把网络中的节点划分为两个区域,核心节点区域和边缘节点区域,这样可以得出网络中的核心节点。(4)小团体特征分析。筛选出网络中比较重要的节点重新构建网络分析,得到一些小团体,这些小团体按其连通特性可以划分为单点型、双核型、流线型、核心型、桥梁型和网架型。(5)网络平均度以及度分布特征。在合著网络中,网络的平均度就是每个作者平均与几个作者的合著发文数;度分布特征主要考察合著网络的度是否符合幂率分布。(6)网络平均路径长度及其分布特征。一般考察连通图和非连通图最大连通子图的平均路径长度,该值反映了网络中任意两点的平均距离,在合著网络中就是任意两个作者平均经过几个作者关联,可以用来验证合著网络是否符合小世界特性。(7)聚类系数。网络中某个节点的聚类系数定义为它所有相邻节点之间连边的数目占可能的最大连边数目的比例,整个网络的聚类系数为所有节点的聚类系数的平均值,该值越大说明网络越符合小世界特征。(8)最大连通子图分析。网络直径、平均路径长度、聚类系数分析的前提条件是网络必须是连通的,当网络为非连通时则可以研究网络的最大连通子图的相关特性。

图片内容