科学引文索引概念的提出
Eugene Garfield于1955年第一次提出科学引文索引(Science Citation Index)概念之际,即强调了引文索引区别于传统学科分类索引的几点优势。因为引文索引会对每一篇文章的参考文献做索引,检索者就可以从一些已知的论文出发,去跟踪新近发表的引用了这些已知论文的论文。此外,无论是顺序或回溯引用论文,引文索引都是高产与高效的。
因为引文索引是基于研究人员自身的见多识广的判断,并反映在他们文章的参考文献中,而图书情报索引专家对出版物的内容并不如作者熟悉,只能靠分类来做索引。Garfield将这些作者称为“引文索引部队”,同时他认为这种索引是一种“创意联盟索引”。他认为引文是各种思想、概念、主题、方法的标志,“引文索引可以精确地、毫不模糊地呈现主题,不需要过多的解释,并对术语的变化具备免疫力”。除此之外,引文索引具有跨学科属性,打破了来源文献覆盖范围的局限性。引文所呈现出的联系不局限于一个或几个领域——这种联系遍布整个研究世界。
对科学而言,自从学科交叉被公认为研究发现的沃土,引文索引便呈现出独特的优势。诺贝尔奖得主Joshua Lederberg是Garfield这一思想较早的支持者,他在自己的遗传学研究领域与生物化学、统计学、农业、医学的交叉互动中受益匪浅。Science Citation Index(现在的Web of Science)创建于1963年,虽然Science Citation Index经过很多年才被图书情报人员及学术圈完全认可,但是引文索引理念的影响力及它在操作过程中产生的实质作用是无法被否认的。
科学引文索引的发展与应用
虽然Science Citation Index的主要用途是信息检索,但是从其诞生之初,Garfield就很清楚它的数据可以被用来分析科学研究本身。
首先,他意识到论文的被引频次可以界定“影响力”显著的论文,而这些高被引论文的聚类分析结果可以指向具体的领域。不仅如此,他还深刻理解到大量的论文之间的引用与被引用虽然极其复杂,但揭示了科学的结构。
他发表于1963年的一篇论文“Citation indexes for sociological and historical research”,论述了利用引文分析客观探寻研究前沿的方法。这篇文章背后的逻辑与利用引文索引进行信息检索的逻辑如出一辙:引文不仅体现了智力活动之间的相互连接,还体现了研究者社会属性的相互联系,它是研究人员做出的智力判断,反映了学术领域学者行为的高度自治与自律。
Garfield在1964年与同事Sher及Torpie第一次将引文关系佐证下指向的具备影响力的相关理论按时期进行线性描述,制作出DNA的发现过程及其结构研究的一幅科学历史脉络图。Garfield清楚地看到引文数据是呈现科学结构的最好素材。迄今,除了利用引文数据绘制了特定研究领域的历史图谱外,尚未出现一幅展示更为宏大的科学结构的图谱。
在这个领域Garfield并不孤独。同期,物理学、科学史学家Price也试图探寻科学研究的本质与结构。作为耶鲁大学的教授,他首先使用科学计量方法对科学研究活动进行了测量,并且分别于1961年与1963年出版了两本颇具影响的书,证明了为什么17世纪以来无论是研究人员数量还是学术出版数量都呈现指数增长态势。但是在他的工作中鲜有对科学研究活动本身的统计分析,因为在他不知疲倦的探究之路上,获取、质询、解读研究活动的想法还没有提上日程。Price与Garfield正是在此时相识了。Price,这位裁缝的儿子,收到了来自Garfield的数据,他这样描述当时的情景:“我从ISI计算机房的剪裁板上取得了这些数据”。
1965年,Price发表了《科学研究论文网络》一文,文中利用了大量的引文分析数据描述他所定义的“科学研究前沿”的本质。之前,他使用“研究前沿”这个词语时采用的是其字面意思,即某些卓越科学家在最前沿所进行的领先研究。但是在这篇论文中,他以N射线研究为例(该研究领域的生命周期很短),基于按时间顺序排列的论文及其互引模式构成的网络,从出版物的密度以及不同时期活跃度的角度对研究前沿进行了描述。Price观察到研究前沿是建立在新近发表的“高密度”论文上,这些论文之间呈现出联系紧密的网状关系图。
“研究前沿从来都不是像编织那样一行一行编出来的。相反,它通常被漏针编织成小块儿或者小条儿。这些‘条’被客观描述成‘主题’,对‘主题’的描述虽然随着时间推移会发生巨大变化,但是作为智力活动的内在含义保持了相对稳定性。如果有人想探寻这种‘条’的本质,也许就会指向一种勾勒当前科学论文‘地形图’的方法。这种‘地形图’形成过程中,人们可以通过期刊在地图中的位置以及在‘条’中的战略中心地位来识别期刊(实际上是国家、个人或单篇论文)的共同及各自相对的重要性。”
1972年,年轻的科学史学者Henry Small离开位于纽约的美国物理学会,加入费城的美国科技信息所,他加入的最初动机是希望可以利用Science Citation Index的数据以及题名和关键词的价值。但是很快他就调整了方向,把注意力从“文字”转向了“文章间相互引用行为”,这种转变背后的动机与Garfield和Price不谋而合:引文的力量及其发展潜力。1973年,Small在Garfield1955年介绍引文思想论文的基础上,开拓出自己全新的方向,发表了论文“Co-citation in the scientific literature:a new measure of relationshipbetween two documents”,这篇论文介绍了一种新的研究方法——“共被引分析”,将描述科学学科结构的研究带入了一个新的时期。Small利用两篇论文共同被引用的次数来描述这两篇论文的相似程度,换句话说,就是统计“共被引频率”来确认相似度。
共被引分析
他利用当时新发表的粒子物理领域的论文分析来阐述自己的方法。Small发现,这些通过“共被引”联系在一起的论文通常在研究主题上有高度的相似度,是相互关联的思想集合。他认为基于论文被引用频率的分析,可以用来寻找领域中关键的概念、方法和实验,是进行“共被引分析”的起点。
前者用客观的方式揭示了学科领域的智力、社会和社会认知结构。像Price做研究前沿的研究一样,Small将最近发表的通过引用关系紧密编织在一起的论文聚成组,接着通过“共被引分析”,发现分析结果指向了自然关联在一起的“研究单元”,而不是传统定义的“学科”或较大的领域。Small将“共被引分析”比作一部完整的电影,而不是一张孤立的图片,以表达他对该方法潜力的极大信任。
他认为,通过重要论文间的相互引用模式分析,可以呈现某个研究领域的结构图,这幅结构图会随着时间的推移而发生变化,通过研究这种不断变化的结构,“共被引分析”可以帮助我们跟踪科学研究的进展,以及评估不同研究领域的相互影响程度。
还有一位值得注意的科学家是俄罗斯研究信息科学的Marshakova-Shaikevich。她也在1973年提出了“共被引分析”的思想。但是Small与Marshakova-Shaikevich并不了解彼此的工作,因此他们的工作可以被看作是相互独立、不谋而合的研究。科学社会学家Merton将这种现象称为“共同发现”,这在科学史上是非常常见的现象,而很多人却没有意识到这种常见现象的存在。Small与Marshakova-Shaikevich都将“共被引分析”与“文献耦合”现象进行了对比,后者是Kessler于1963年阐释的思想。
“文献耦合”也是用来度量两篇论文研究内容相似程度的方法,该方法基于两篇论文中出现相同参考文献的频次来度量它们的相似程度,即如果两篇论文共同引用了同一篇参考文献,他们的研究内容就可能存在相似关系,相同的参考文献越多,相似度越大。
“共被引分析”则是“文献耦合”分析的“逆”方向:不用两篇文章共同引用的参考文献频次做内容相似度研究的线索,而是将“共同被引用”的参考文献聚类,通过“共被引分析”度量这些参考文献的相似度。“文献耦合”方法所判断两篇文章之间的相似度是“静态”的,因为当文章发表后,其文后的参考文献不会再发生变化,也就是说两篇论文之间的相似关系被固定下来了;但是“共被引分析”是一个逆过程,永远无法预知哪些论文会被未来发表的论文“共同被引用”,它会随着研究的发展发生动态的变化。Small更倾向于使用“共被引分析”,他认为这样的逆过程能够反映科学活动、科学家认知随着时间发生的变化。
1974年,Small与位于费城德雷塞尔大学的Griffith共同发表了两篇该领域里程碑式的著作,阐释了利用“共被引分析”寻找“研究单元”的方法,并且利用“研究单元”间的相似度做图呈现研究工作的结构。
虽然此后该方法有过一些重大的调整,但是它的基本原理与实施方式从来没有改变过。首先遴选高被引论文合集作为“共被引分析”的种子。将这样的高被引论文合集限定在一定规模范围内,这些论文被假定可以作为其相关研究领域关键概念的代表论文,对该领域起着重要的影响作用,作为寻找这些论文的线索,“被引用历史”成为关键点,利用引用频次建立的统计分析模型可以证明这些论文的确具有学科代表性与稳定性。一旦这样的合集被筛选出来,就要对该合集做“共被引扫描”。
合集中,同时被同一篇论文引用的论文结成对,称为“共被引论文对”,当然会出现很多结不成对的“0”结果。当很多“共被引论文对”被找到时,接下来会检查这些“共被引论文对”之间是否存在“手拉手”的关系,举例来说:如果通过“共被引扫描”发现了“共被引论文对A和B”“共被引论文对C和D”“共被引论文对B和C”,那么由于论文B和C的共被引出现,“共被引论文对A和B”与“共被引论文对C和D”就被联系到一起了。我们就认为两个“共被引论文对”出现了一次交叉或者“拉手”。因为这一次交叉,就将这两个“共被引论文对”合并聚成簇,也就是说两个“共被引论文对”间只需要一次“拉手”就能形成联系。
通过调高或调低共被引强度阈值可以得到规模大小不同的“聚类”或者“群”。阈值越低,越多的论文得以聚类,形成的“群”越大,阈值过低则会形成不间断的“论文链”。如果调高阈值,就可以形成离散的专业领域,但是如果相似度阈值设得太高,就会形成太多分裂的“孤岛”。
在构建研究前沿方法中采用的“共被引相似度”计量方法以及共被引强度阈值随着时间的推移有所不同。目前采用余弦相似性方法计量“共被引相似度”,即用共被引频次除以两篇论文的引用次数的平方根。而“共被引强度”最小阈值是相似度0.1的余弦,不过这个值是可以逐渐调高的,一旦调高就会将大的“聚类”变小。通常如果研究前沿聚类核心论文超过最大值50时,我们就会这样做。反复试验表明这种做法能产生有意义的研究前沿。
研究前沿的体现
现在我们做个总结,研究前沿是由一组高被引论文和引用这些论文的相关论文组成的,这些高被引论文的共被引相似度强度位于设定的阈值之上。
事实上,研究前沿聚类应该同时包含两个组成部分,一部分是通过共被引找到的核心论文,这些论文代表了该领域的奠基工作;另外一部分就是对这些核心论文进行引用的施引论文,其中最新发表的论文反映了该领域的新进展。研究前沿的名称则是从这些核心论文或施引论文的题名总结而来的。ESI数据库中研究前沿的命名主要是基于核心论文的题名。有些前沿的命名也参考了施引论文。正是这些施引论文的作者通过共被引决定了重要论文的对应关系,也是这些施引论文作者赋予研究前沿以意义。研究前沿的命名并不是通过算法来进行的,仔细地、一篇一篇通过人工探寻这些核心论文和施引论文,无疑会对研究前沿工作本质的描述更加精确。
Garfield这样评价Small与Griffith的工作,“他们的工作是我们的飞行器得以起飞的最后一块理论基石”。Garfield——一位实干家,他将自己的理论研究工作转化成数据库产品,无论是信息检索还是分析领域都受益良多。这个飞行器以1981年出版的《ISI科学地图:生物化学和分子生物学(1978/80)》而宣告起飞,可以说这本书所呈现的工作与Small的工作有着内在的联系。这本书分析了102个研究前沿,每一个前沿都包括一张图谱,其包含了前沿背后的核心论文,以及多角度展示这些论文间的相互关系。每一组核心论文被详细列出,并且给出它们的被引用次数,那些重要的施引论文也会在清单中,还会基于核心论文的被引用次数给出每个前沿的相关权重。
伴随这些分析数据的还有来自各前沿专业领域的专家撰写的综述。书的最后,是这102个研究前沿汇总在一起的巨大图谱,显示出它们之间的相似关系。这项工作具有划时代的意义,但对于市场来说无异于一场赌博,这就是Garfield的个性写真。
Small与Griffith于1974年共同发表的第二篇论文中,可以看到他们对不同研究前沿相似度的度量。通过“共被引分析”构建的研究前沿及其核心论文,是建立在这些论文本身的相似度基础上的。同样,用这种方法形成的不同研究前沿之间的相似度也是可以描述的,从而发现那些彼此联系紧密的研究前沿。在他们的研究前沿图谱中,Small与Griffith通过不同角度剖析、缩放数据以期接近这两个维度的研究方向。
对Small与Griffith的工作,尤其是从以上两个维度解析通过“共被引分析”聚类论文图谱的工作,Price认为“看上去这是非常深奥的工作,也是革命性的突破”。他强调“他们的发现似乎预示着科学研究存在内在的结构与秩序,需要我们进一步去发现、辨识、诊断。我们习惯常用分类、主题词的方式去描述它,看上去与它自然内在的结构是背道而驰的。如果我们真想发现科学研究结构,无疑需要分析海量的科学论文,生成巨型地图。这个过程是动态的,不断随着时间而变化,这使得我们在第一时间就能捕捉到它的进展与特性”。
在出版了另一本书和一系列综述性期刊之后,《ISI科学地图》作为系列出版物终止于20世纪80年代。出于商业考虑,那时还有更优先的事情需要做。但是Garfield与Small继续执着地行走在科学图谱这条道路上,他们几十年来做了各种研究与实验。1985年,Small发表了两篇论文介绍他关于研究前沿定义方法的重要修正:分数共被引聚类法。
根据引用论文的参考文献的多少,通过计算分数被引频次调整领域内平均引用率差异,借此消除整体计数给高引用领域(如生物医药领域)带来的系统偏差。随着方法的改进,数学显得越发重要,而在整数计数时代,数学曾被忽视。他还提出基于相似度可以将不同研究前沿聚类,这超越了单个研究前沿聚组的工作。同年,Garfield与Small发表了“The geography of science:Disciplinary and national mappings”,阐述了他们研究的新进展。该论文汇集了Science Citation Index与Social Sciences Citation Index数据,勾勒出全球该领域的研究状况,从全球的整体图出发,他们还进一步探索了更小分割单位的研究图谱。这些宏-聚类间的关系与具体研究内容同样重要。这些关联如同丝线,织出了科学之网。
接下来的几年里,Garfield致力于发展他的科学历史图谱,并在Pudovkin与Istomin的协助下,开发了HistCite这一软件工具。HistCite不仅能够基于引用关系自动生成一组论文的历史图谱,提供某一特定研究领域论文发展演化的缩略图,还可以帮助识别相关论文,这些相关论文可能在最初检索时没有被检索到,或者没有被识别出来。因此,HistCite不仅是一个科学历史图谱的分析软件,也是帮助论文检索的工具。
Small继续完善着他的共被引分析聚类方法,并且试图基于某个学科领域前沿之间呈示的认知关系图谱探索更多的细节内容。背后的驱动力是对科学统一性的强烈兴趣。为了显示这种统一性,Small展示了通过强大的共被引关系,如何从一个研究主题漫游到另一个主题,并且跨越了学科界限,甚至从经济学跨越到天体物理学。对此Small与Wilson有类似的看法,后者在1998年出版的名为Consilience:The Unity of Knowledge一书中表达了类似的思想。20世纪90年代早期,Small发展了Sci-Map,这是一个基于个人计算机的论文互动图形系统。后来的数年中,他将研究前沿的研究数据放到ESI数据库中。
ESI主要用来做研究绩效分析。ESI中的研究前沿,以及有关排名的数据每两个月更新一次。这时,Small对虚拟现实软件产生了极大的兴趣,因为这类软件可以产生模拟真实情况的三维虚拟图形,可以实时处理海量数据。例如,20世纪90年代末期,Small领导了一个科学论文虚拟图形项目,在桑迪亚国家实验室成功开发了共被引分析虚拟现实软件VxInsight。
由于桑迪亚国家实验室高级研究经理Charles E.Meyers富有远见的支持,在动态实时图形化学术论文领域,该研究无疑迈出了巨大的一步,这也是一个未来发展迅速的领域。该软件可以将论文的密度及显著特征用山形描绘出来。可以放大、缩小图形的比例尺,允许用户通过这样的比例尺缩放游走在不同层级学科领域。基础数据的查询结果被突出显示,一目了然。
事实上,20世纪90年代末期对于科学图谱研究来说是一个转折点,之后,有关如何界定研究领域,以及领域间关系的可视化研究都得到了迅猛发展。全球现在有很多学术中心致力于科学图谱的研究,他们使用的方法与工具不尽相同。印第安纳大学的Borner教授在其2010年出版的一本书——Atlas of Science:Visualizing What We Know中对该领域过去10年取得的进展做了总结,当然这本书的名字听上去似曾相识。
结 语
从共被引聚类生成科学图谱诞生,到这个领域的繁荣,大约经历了25年的时间。很有意思的是,引文思想从产生到Science Citation Index的商业成功也大约经历了25年。
当我们回顾这个进程时,清楚地看到相对于它们所处的时代来说两者都有些超前。如果说Science Citation Index面临的挑战来自图书馆界根深蒂固的传统思想与模式(进一步说就是来自研究人员检索论文的习惯性行为),那么,科学图谱,作为一个全新的领域,之所以迟迟未被采纳,其原因应归为,在当时的条件下,缺乏获取研究所需的大量数据的渠道,并受到落后的数据存储、运算、分析技术的限制。
直到20世纪90年代,这些问题才得到根本解决。个人计算机与软件的发展已经可以胜任海量数据的分析工作。今天,我们利用Web of Science进行信息检索、结果分析、研究前沿分析、图谱生成,以及科学活动分析,它不仅拥有了用户,还拥有了忠诚的拥趸与宣传者。
Garfield与Small辛勤播种,很多年后这些种子得以生根、发芽,在很多领域迸发出勃勃生机。有人这样定义什么是了不起的人生——“在人生随后的岁月中,将年轻时萌发的梦想变成现实”。从这个角度说,他们两人不仅开创了信息科学的先锋领域,而且成就了他们富有传奇的人生。科睿唯安将继续支持并推进这个传奇的持续发展。
本文摘编自《2017研究前沿及分析解读》(中国科学院科技战略咨询研究院 等著),标题和内容有调整。语音播报为智能生成,如有疑问请以文本为准。科学人文在线,与您共同关注科技史、科技哲学、科技前沿与科学传播,关注人类社会的可持续发展,创造有价值的阅读!联系邮箱:kxrw@mail.sciencep.com。
今日好书推荐
内容简介
本书以文献计量学中的共被引分析方法为基础,基于科睿唯安的Essential Science Indicators(ESI)数据库中的9690个研究前沿,首先,遴选出2017年自然科学和社会科学的10个大学科领域排名最前的100个热点前沿和43个新兴前沿,重点选择一些研究前沿进行详细统计分析和解读;其次,利用研究前沿热度指数评估和分析世界主要国家在研究前沿中的研究活跃程度和态势;最后,着重对中国和美国在143个研究前沿的参与情况展开详细的比较分析,以期较为全面地掌握中国与美国的差距和优势。
本书为科技前沿领域方向的分析提供定量监测和专业分析相结合的情报基础,为科技发展大势的研判提供一定角度的证据,对科技管理者、科研人员和公众具有重要的参考价值。
如若转载,请注明出处:https://www.xiezuogongyuan.com/9854.html