【摘要】图书馆的图书自动化管理系统存储了大量的读者、馆藏、流通的数据,对这些数据进行统计、分析、挖掘等操作,不仅能够得到图书馆各方面的的宏观信息,更能得到一些揭示读者行为习惯的隐含信息。这为改进图书馆工作的不足、为图书推送、采购、流通、参考咨询等环节提供决策参考、为读者提供个性化服务起到非常大的作用。 【关键词】图书馆;大数据;个性化服务;数据挖掘 一、高校图书馆与大数据 根据百度上的最新定义,大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。图书馆大数据从来源上可以分为很多类,其中和图书流通相关的大数据包括读者数据、馆藏数据、借阅数据等。运用工具对这些数据进行分析、挖掘生成我们需要的信息,从而为图书馆管理提供帮助,为决策者提供数据支持是图书馆人的一项重要工作内容。 二、我馆的大数据的统计分析过程 1。方法步骤 1)通过链接图书馆自动化管理系统(ILAS3)服务器后台,导出需要的数据库表。 2)使用数据库软件、程序、工具对这些表进行分析、处理等操作,得到我们需要的统计数据。 3)使用数据挖掘工具对数据库表和统计数据进行数据挖掘,得到隐含在数据中的信息。 4)对得到的数据进行分析。 2。ILAS3中的主要原始数据 1)读者数据表 读者数据表记载着所有的读者的信息,含有3万多条数据,包括读者记录号、姓名、读者证号、性别、读者类型、单位、注册时间、注销时间等信息。 2)图书入库数据表 图书入库数据表记载着图书入库环节等相关信息,含有70多万条数据,包括图书的记录号、条码号、入库时间、最后一次借阅时间、价格等信息。 3)图书信息数据表 图书信息数据表记录着馆藏图书的相关信息,含有30多万条数据,包括图书的记录号、条码号、书名、价格、ISBN、分类号、尺寸等信息。 4)流通日志数据表 流通日志数据表记载着图书在流通环节的信息,含有400多万条数据,包括借阅日期、借阅图书记录号、借阅图书条码号、读者记录号等信息。 三、数据分析及对策 根据数据库表中原始数据,可以得出大量统计数据,限于篇幅,在这里只能抽取出一些基础的、比较有针对性的加以说明。 1。馆藏图书数量 1)从2008年的50471册到2016年的712997册,馆藏图书增速明显,近五年的平均增速为6。26,年均增加藏书4万册以上。 2)《海南省高等学校图书馆十二五发展规划》中关于发展目标和任务中规定:到2015年,高职高专院校生均纸质藏书(建设性指标)60~80册、生均新书(指标)2~3册。从上看,我校图书馆已经达到或超过该项要求。 2。图书正复本数量 1)我馆图书正复本量维持在2。5~3。0之间,并且还有逐年下降的趋势,这符合我馆目前在有限财力情况下尽可能用较低正复本量换取更多类图书的总体要求。 2)从正复本量排名前4为的O(数理科学、化学)、T(工业)、H(语言、文字)、G(文教、科学、体育)大类中都有小类(O1数学、TP自动化计算机、H1汉语、G8体育)和我校某个系部的专业对应,正复本量相对较多一点。 3)从整体上看,除Z类(综合性图书)外,所有的类的正复本量相差并不显著。 3。每个大类藏书比例变化 1)高校图书馆的藏书结构完全取决于师生读者的专业学习研究领域及爱好等,同时兼顾类别齐全等因素,所以,各馆的藏书结构并没有统一的指导意见,从以下的分析中我们可以看出,我馆的藏书结构是考虑了以上两种因素的结果,比较合理。 2)2009年以后我館藏书的分布结构趋于稳定,不再有显著变化。整体上看,比例较高的I类(文学)、K类(历史地理)以非专业书籍为主,比例有所下降;H类(语言文字)普通话、中文、英文等对口书籍,比例有所提高;T类(工业)图书时效性比较强、更新率比较快,比例有所提高。 3)除此之外,比例较高的F类(经济)包括有旅游类书籍、B类(哲学)包括有心理类类书籍、O类(数理化学)含有数学类书籍,都有相对应的对口专业。 4)根据我校系部各专业分布、学生人数等具体情况,通过一定的算法,确定各类图书配置比例,进而建设我馆自己的图书配置模型是下一步的工作内容之一。 4。历年借阅量、流通率统计 1)借阅量的高峰出现在2008、2009、2010这三年,这三年的新书上架量比较高,以后几年借阅量逐年下降,并且下降很快。分析原因,主要是我校新馆刚刚建成投入使用,目前部分新书还没有来得及上架,学生几乎看不到近两年采购的新书,非常遗憾。 2)纸质图书借阅量逐年下降还有一个重要的客观因素:转向电子图书,这是一个一定时期内不可逆转的全球性趋势。 3)图书流通率是是检验图书馆工作水平、衡量图书馆工作效率的主要指标之一。提高图书流通率,是馆员核心的工作内容之一。图书流通率近几年下降比较快,除去客观因素外,图书馆员的当务之急,就是通过数据分析和挖掘,找出不同读者群体的阅读需求,有针对性的进行推送、咨询等服务。 5。按照学年统计借书量 1)借阅量根据学年的不同呈现出很明显的规律性。第一学年是学生借阅量最大的一年,也非常容易理解,这一年是大学的第一年,对大部分同学来说,有时间和精力多看些书。随着课业的增多以及实习等因素,第二学年、第三学年及以上(五年制等)借阅量随之大幅减少。 2)第一学年学生借阅量前三名是I类(文学)、K类(历史、地理)、G类(文教、科学、体育),广泛涉猎的心态比较明显。 3)第二学年学生借阅规律也非常明显。I类(文学)、K类(历史、地理)虽说仍旧是前两名,但所占借阅比例减少。G类(文教、科学、体育)、B类(哲学)、D类(政治、法律)、F类(经济)、J类(艺术)、T类(工业)类因和某些专业相关,借阅比例明显提高。 4)第三学年及以上学生借阅规律性:I类(文学)、K类(历史、地理)但所占借阅比例进一步减少。专业关联性较高的G类(文教、科学、体育)、B类(哲学)、F类(经济)、H类(语言、文字)、J类(艺术),借阅比例维持不变或进一步提高。 5)根据以上规律,图书馆在制定图书资源推广的时候,应着重考虑不同年级读者的需求。 四、结论 本文抽取了图书借阅大数据中的几个片面的点进行统计、分析,并针对其中反映出工作不足的地方提出相应的解决办法。从总体上看,这些信息和措施为我馆建设适合自身需要的业务模型提供了重要依据,使各项管理更加规范化、专业化。不足的地方是分析和统计的是片面的点,是容易获得的数据信息,不够全面和深入,尤其是对反映读者阅读习惯、喜好等的挖掘还很不够,而这对未来图书馆服务创新、服务个性化等都有重要作用。在时代高速发展的今天,图书馆应该顺应大数据时代的潮流,更好地运用大数据分析实现观念的转变、服务的提升,让图书馆焕发新的活力。 【参考文献】 〔1〕杨亮、雷智雁。阅读2。0:大数据环境下图书馆个性化服务研究〔J〕。现代情报。2014年第4期:7477 〔2〕杨海燕。大数据时代的图书馆服务浅析〔J〕。图书与情报。2012年第4期:120122 〔3〕高珊。大数据时代的图书馆用户服务创新〔J〕。上海高校图书情报工作研究。2014年第4期:4549 〔2〕韩翠峰。大数据时代图书馆的服务创新与发展〔J〕。图书馆。2013年第1期:121122