Google Dataset云台操作初体验
06 Aug 2020由于工作上的偶然,想要找一些关于SEP专利的数据,想用之前用过的线上数据库搜索引擎——Google Dataset来进行检索,后发现Google开始提供线上数据库的开源分享与分析服务,不嫖白不嫖,于是我期望能通过python调用这个数据库分享的api接口进行数据分析与处理。
Ⅰ 介绍下Google Dataset搜索🔍工具
写整篇文章代理都不能断,贫穷如我选择免费的节点分享,顺便给大家分享个每日分享全球机场节点的tg订阅叭。
Google Dataset顾名思义就是Google出品的数据库检索工具,链接为:https://datasetsearch.research.google.com/。几年前我在看一篇讲破解指纹识别的文章时,想着自己能不能从网上找点数据训练(虽然后面并没有实际操作,哭了我的机器学习之路什么时候才能开启啊),于是在搜索的过程中发现了这个网站。
然后在我搜索SEP专利数据时,我发现Google自建了一个共享数据库的应用BigQuery。
Ⅱ 介绍下Google云应用服务
放一个BigQuery的操作手册:🔗链接。
也是在之前看一个python爬取并分析股票数据的文章时,发现作者在处理excel文件时用的Google Cloud里的免费服务,然后我就第一次接触了这个。在发现上述的Google Dataset里的某些数据库可以通过Bigquery接口调用后,我打开了这个云服务的网站。
Ⅲ 正题开始
-
首先的首先,你得拥有一个Google账号(滑稽
-
开通相应的Google云服务并生成密钥
进入https://console.cloud.google.com/apis/credentials/serviceaccountkey这个页面,service account处选择new service account,name自定,role选择project–>owner,key type不变就选默认的json文件就行,点击生成。
-
云台端操作
以后访问时输入:https://console.cloud.google.com/bigquery?project=你的项目名称
-
本地系统命令行操作(以win10的powershell为例)
pip install --upgrade google-cloud-bigquery $env:GOOGLE_APPLICATION_CREDENTIALS="存放目录\my-key.json" set GOOGLE_APPLICATION_CREDENTIALS=[PATH]
-
python脚本撰写
from google.cloud import bigquery def get_info(): client = bigquery.Client() query = """ SELECT * FROM `patents-public-data.dsep.disclosures_13` WHERE regexp_contains(tc_name,"Information technology") AND date > 2010 """ query_job = client.query(query) # Make an API request. return query_job def show(info): print("The query data:") for row in info: # Row values can be accessed by field name or index. print("name={}, count={}".format(row[0], row["total_num"])) def main(): info = get_info() show(info) main()