开源专利分析工具有哪些(上)

文章正文
发布时间:2024-11-24 15:13

原创 丑丑姐姐 专利分析可视化

本文节选自WIPO Manual on Open Source Patent Analytics (2nd edition),主要介绍了可用于专利分析的开源工具。由于数据挖掘和可视化技术发展十分迅速,本文中所介绍的工具并不是对可用于专利分析工具的穷举,而只是作为开源专利分析工具的快速参考指南。

选择哪一种工具,主要是看专利分析的需求,以及专利分析人员所掌握的技能。比如,如果有编程基础的话,可以使用R和Python,如果没有编程基础的话,可能就会需要花费一些时间来学习,不过对于这两种编程语言,网络上也有很多学习资源,可以帮助我们迈出编程的第一步。

本文所介绍的工具可以分为八个种类:通用工具、数据清理工具、数据挖掘工具、数据可视化工具、网络数据可视化工具、信息图制作工具、地理数据可视化工具、文本挖掘工具。本文主要介绍前面四种,下期文章介绍后面四种。

有一些工具同时具有多种功能,所以这种工具可能会出现在上述两个以上的种类中。

PART 1

通用工具

有很多工具都可以用来实现多种不同的功能,例如对专利数据的清理和可视化。在本部分中主要介绍以下三种开源工具。

1.1 Open Office

Apache Open Office可以作为Excel的免费替代工具来进行数据清理。同时,Open Office中的Spreadsheet (Open Office Calc)可以作为一个数据库工具,成为Microsoft Access的替代工具。

下载并安装Apache Open Office的链接:https://www.openoffice.org/

Tips:当需要保存Apache Open Office中的spreadsheet文件时,将其保存为.csv格式,而不要将其保存为默认的.odt格式,因为.csv格式的文件更常用,而.odt格式的文件不太常用可能在一些程序中没办法打开。

1.2 Google Sheets

能够熟练使用Excel的人可能会觉得没有必要用Google Sheets。但是Google Sheets的优势在于能够在线与他人分享,并且有很多的免费插件可供使用,这些插件可以帮我们做数据清理。

对于有编程基础的用户,Google Sheets可以与R一起使用,也可以在Python中使用Google的Sheets API。

1.3 Google Data Studio

我们可以通过Google Data Studio来分析数据,也可以使用Google Data Studio来创作图表仪表板和其他的数据可视化。

除了普通的数据分析和数据可视化之外,Google Data Studio一个值得注意的功能是可以提供对大规模数据集的访问和分析。但这一功能需要用户有一个Google账号,并且免费账号的权限有限,如果要用到更多权限,会需要缴费。

PART 2

数据清理工具

2.1 Open Refine (曾经的Google Refine)

进行数据分析的一个基本认识就是:如果数据不好,那分析出来的结果也不会好。也就是说,如果在分析之前,没有好好清理数据,那么最后做出来分析结果和可视化都是没有价值的。

对于专利分析而言,Open Refine是用作清理申请人和发明人名称的一个非常重要的开源工具。在Open Refine的首页上提供了很多视频教程帮你入门。

Open Refine可以与带有refinr包的R一起使用,也可以通过Open Refin 客户端与Python一起使用。

PART 3

数据挖掘工具

目前市面上的数据挖掘工具不断涌现,下面主要介绍其中的几种。

3.1 RStudio

RStudio是一个非常强大的工具,其使用R和Python编写程序来处理数据和进行数据可视化。WIPO的专利分析团队使用RStudio来做专利分析,WIPO专利分析的网站(WIPO Patent Analytics: WIPO Analytics (wipo-analytics.github.io))就是用RStudio创建的,该网站上的文章WIPO Manual on Open Source Patent Analytics (2nd edition)、The WIPO Patent Analytics Handbook和其他资源都是用RStudio创建的。

虽然对于没有编程基础的小白来说,学习R会令人生畏,但网络上有很多资源可供学习。例如,在DataCamp、webinars、R-Bloggers和Stack Overflow上都有R的教程,Coursera上也有约翰霍普金斯大学的免费R编程课程。与Python相比,学习R和RStduio你不会感到孤单,因为在网络上能够找到很多资源,也有很多不同水平的人都在与你一起学习。

3.2 RapidMiner Studio

RapidMiner Studio专注于机器学习、数据挖掘、文本挖掘和分析,它提供部分免费服务以及部分分层付费服务。

3.3 KNIME

KNIME是一个开源的数据挖掘平台。

PART 4

数据可视化工具

如果你是数据可视化领域的新人,首先推荐几本关于数据可视化的书籍。

第一,耶鲁大学的爱德华·塔夫(Edward Tufte)的《The Visual Display of Quantitative Information》(定量信息的视觉显示)。爱德华·塔夫对Powerpoint的使用和滥用的评价也非常精辟。需要记住的是,数据可视化的第一要务是与读者沟通。这就涉及到选择如何沟通以及寻找到一种能够清晰沟通的方式。在通常情况下,专利分析的成果将以报告或演讲的方式呈现。爱德华·塔夫对PPT制作的观点值得每一个PPT制作者学习。

第二,Stephen Few的《Show Me the Numbers: Designing Tables and Graphs to Enlighten》。

第三,南希·杜阿尔特(Nancy Duarte’s)的《Resonate》(沟通:用故事产生共鸣),该书是关于如何完善PPT以及用故事叙事,并且该书传递了很多关于信息可视化的有价值的信息和观点。

第四,Katy Borner的《Atlas of Science: Visualising What We Know》,是一本关于科学活动中的数据可视化发展历史的优秀指南,其中还包括了涉及专利的可视化作品。

数据可视化的工具目前也是层出不穷,给了我们很多选择。在商业分析中,Gartner发布的《Magic Quadrant for Analytics and Business Intelligence Platforms》,简称ABI魔力象限报告,是业内的权威报告。阅读这种报告对于帮助我们发现在数据可视化领域中的新公司和免费软件非常有用。

当然,在学习数据可视化之前,你也需要了解你做数据可视化的需求以及涉及的学习曲线。如果你毫无编程基础,也没有时间或不想学习编程,那就选择一个能够帮你完成大部分工作,而不需要编程的工具;但如果你有相关的编程基础,例如javascript,Java,R,Python或类似的编程语言,那就选择一种你用着顺手的工具。尤其要留意具有各种语言(例如Python或R)的API(应用程序编程接口)的工具,这些工具可能会满足你的需求。

如果你完全没有数据可视化的基础,Tableau Public是一个很好的选择,因为它不需要任何编程。在本文将要介绍的工具中,也有一些的功能类似于Tableau Public,因为Tableau已经是数据可视化市场的领导者。在本节的最后也将会列出一些介绍可视化的网站,在其中你能找到数据可视化领域出现一些新的、有趣的内容。

4.1 Google Charts

创建Google账户以访问Google Spreadsheets和其他Google程序。

查看Google Chart Gallery(https://developers.google.com/chart/interactive/docs/gallery)和API(https://developers.google.com/chart/interactive/docs/reference)。

有关在R中使用Google Charts的介绍,请参阅GoogleVis和相关实例(https://github.com/mages/googleVis#googlevis)。

有关在Python中使用Google Charts的介绍,请参阅google-chartwrapper(https://code.google.com/archive/p/google-chartwrapper/)或Python Google Charts(https://python-google-charts.readthedocs.io/en/latest/)。

4.2 Tableau Public

当我们完成了数据清理之后,可以使用Tableau Public来制作交互式的仪表板和地图。并且还可以其他数据源相结合。但需要注意的是,所有上传到Tableau Public的数据都会被公开,所以不能用Tableau Public来处理一些敏感数据。

4.3 R and RStudio

R是一种数据统计的编程语言,可以用来处理各种不同类型的数据。R同样也是强大的数据可视化工具,其还提供与Google Charts、Plotly等接口的软件包。如果你对R感兴趣,那么我们建议你使用RStudio,其下载链接为:https://www.rstudio.com/。如果想要开始学习R和RStudio,我们建议你尝试使用DataCamp中的教程(https://www.datacamp.com/)。

受到Leland Wilkinson《The Grammar of Graphics》(图形语法学)的启发,RStudio和其他软件的开发者创建了相关的包,这些包提供了非常有用的方法来实现数据可视化。下面的链接提供了部分最受欢迎的数据可视化包的文档。

• ggplot2(https://cran.r-project.org/web/packages/ggplot2/index.html)

• ggvis(https://cran.r-project.org/web/packages/ggvis/index.html)

• ggmap(https://cran.r-project.org/web/packages/ggmap/index.html)

• googleVis(https://cran.r-project.org/web/packages/googleVis/index.html)

可以在R-Bloggers上搜索关于ggplot2和ggvis的文章。Datacamp上提供了有关使用ggvis的免费教程(https://www.r-bloggers.com/2016/01/ggvis-tutorial-become-a-data-visualization-expert-with-rstudio-2/)。关于其他的使用较为普遍的R包,可以参见Awesome R列表(https://github.com/qinwf/awesome-R)。

4.4 Shiny from RStudio

Shiny是一个R包,可以直接从R构建交互式Web应用程序,也就是说,用户可以从R输出数据表和可视化的数据。

Shiny允许用户创建交在线的交互式应用(可以免费创建五个),可以在其作品展示专栏(Gallery)中观看使用Shiny创建的交互实例(https://shiny.rstudio.com/gallery/)。也可以在R Bloggers中检索Shiny相关的实例和教程(https://www.r-bloggers.com/2020/05/powerful-package-for-machine-learning-hyperparameter-tuning-grid-random-search-shiny-app/)。

Radiant是一个使用R的、基于浏览器的商业分析平台(https://radiant-rstats.github.io/radiant/)。它基于Shiny,但是主要聚焦于商业分析。关于Radiant的入门资源可以参见如下链接: – Business analytics using R and Shiny (vnijs.github.io)。

4.5 其他可视化工具

d3.js:发布了上千个数据可视化模型的JavaScript库。

Tulip:C++中的数据可视化框架

SigmaJS:专注于绘制图形的JavaScript库,它能够创建交互式的静态和动态图表。

Kendo UI:创建响应式的可视化插件。

Timeline:Knight Lab(美国西北大学)创建的工具,可用于创建交互式的时间线图表,并且提供了40种语言的版本。

Sci2:用于学习科学的工具箱。

Simile Widgets:从MIT的SIMILE项目衍生出来的一个用于故事叙事的网页插件。

jqPlot:一个基于jQuery的开源绘图插件。

其他的数据可视化工具和想法可以参见以下两个优秀的网站:Flowing Data(https://flowingdata.com/)和Open Data Tools()。

原标题:《开源专利分析工具(上) | The WIPO Manual on Open Source Patent Analytics》

首页
评论
分享
Top