量化人这样用Jupyter(2) - JupySQL, D-tale

当我们使用 Jupyter 时,很显然我们的主要目的是探索数据。这篇文章将介绍如何利用 JupySQL 来进行数据查询–甚至代替你正在使用的 Navicat, dbeaver 或者 pgAdmin。此外,我们还将介绍如何更敏捷地探索数据,相信这些工具,可以帮你省下 90%的 coding 时间。

原文发表在这里

JupySQL - 替换你的数据库查询工具

JupySQL 是一个运行在 Jupyter 中的 sql 查询工具。它支持传统关系型数据库(PostgreSQL, MySQL, SQL server)、列数据库(ClickHouse),数据仓库 (Snowflake, BigQuery, Redshift, etc) 和嵌入式数据库 (SQLite, DuckDB) 的查询。

之前我们不得不为每一种数据库寻找合适的查询工具,找到开源、免费又好用的其实并不容易。有一些工具,设置还比较复杂,比如像 Tabix,这是 ClickHouse 有一款开源查询工具,基于 web 界面的。尽管它看起来简单到甚至无须安装,但实际上这种新的概念,导致一开始会引起一定的认知困难。在有了 JupySQL 之后,我们就可以仅仅利用我们已知的概念,比如数据库连接串,SQL 语句来操作这一切。


除了查询支持之外,JupySQL 的另一特色,就是自带部分可视化功能。这对我们快速探索数据特性提供了方便。

安装 JupySQL

现在,打开一个 notebook,执行以下命令,安装 JupySQL:

%pip install jupysql duckdb-engine --quiet

之前你可能是这样使用 pip:

! pip install jupysql

在前一篇我们学习了 Jupyter 魔法之后,现在你知道了,%pip 是一个 line magic。

显然,JupySQL 要连接某种数据库,就必须有该数据库的驱动。接下来的例子要使用 DuckDB,所以,我们安装了 duckdb-engine。

!!! info
DuckDB 是一个性能极其强悍、有着现代 SQL 语法特色的嵌入式数据库。从测试上看,它可以轻松管理 500GB 以内的数据,并提供与任何商业数据库同样的性能。

在安装完成后,需要重启该 kernel。


JupySQL 是作为一个扩展出现的。要使用它,我们要先用 Jupyter 魔法把它加载进来,然后通过%sql 魔法来执行 sql 语句:

%load_ext sql# 连接 DUCKDB。下面的连接串表明我们将使用内存数据库
%sql duckdb://# 这一行的输出结果为 1,表明 JUPYSQL 正常工作了
%sql select 1

数据查询 (DDL 和 DML)

不过,我们来点有料的。我们从 baostock.com 上下载一个 A 股历史估值的示例文件。这个文件是 Excel 格式,我们使用 pandas 来将其读入为 DataFrame,然后进行查询:

import pandas as pddf = pd.read_excel("/data/.common/valuation.xlsx")
%load_ext sql# 创建一个内存数据库实例
%sql duckdb://# 我们将这个 DATAFRAME 存入到 DUCKDB 中
%sql --persist df

现在,我们来看看,数据库里有哪些表,表里都有哪些字段:

# 列出数据库中有哪些表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/725549.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Matlab控制仿真

Simulink里的S函数介绍(Matlab-1)_simulink的s函数用法-CSDN博客

基于51单片机的秒表系统设计

基于51单片机的秒表系统设计 摘要: 本文介绍了一个基于51单片机的秒表系统设计。该系统采用51单片机作为核心控制器,通过编程实现秒表的计时、显示和复位等功能。本文详细阐述了系统的硬件设计、软件编程和测试结果,并探讨了系统的优化和改进…

excel统计分析——正交设计

参考资料:生物统计学 单因素试验通常采用完全随机设计活动随机区组设计;两因素试验通常采用析因设计;多因素试验不考虑因素间的互作时,可以采用拉丁方设计或正交拉丁方设计;需要考虑因素间的互作时,析因设计…

Day 27[补档] |● 39. 组合总和● 40.组合总和II● 131.分割回文串

39. 组合总和 class Solution { public:vector<int> path;vector<vector<int>> res;void func(vector<int>& candi, int target, int sum,int st){if(sum target){res.push_back(path);return;}for(int i st; i < candi.size(); i){if(sum &…

Spring Boot(六十六):集成Alibaba Druid 连接池

1 Alibaba Druid介绍 在现代的Java应用中,使用一个高效可靠的数据源是至关重要的。Druid连接池作为一款强大的数据库连接池,提供了丰富的监控和管理功能,成为很多Java项目的首选。本文将详细介绍如何在Spring Boot项目中配置数据源,集成Druid连接池,以实现更高效的数据库…

【Docker】掌握 Docker 镜像操作:从基础到进阶

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a;Linux ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 前言 正文 结语 我的其他博客 前言 在现代软件开发和部署中&#xff0c;容器化技术已经成为不可或缺的一部分。而 Docker 作为最流行的容器化…

JVM工作原理与实战(四十二):JVM常见面试题目

专栏导航 JVM工作原理与实战 RabbitMQ入门指南 从零开始了解大数据 目录 专栏导航 前言 一、JVM常见面试题目 1.请阐述JVM的概念及其核心功能&#xff0c;并简要介绍其组成部分和常用的实现。 2.请阐述Java字节码文件的组成部分。 3.请描述JVM的运行时数据区及其组成部分…

RedTiger‘s Hackit

本文相关的ctf平台链接&#xff1a;RedTigers Hackit (overthewire.org) level 1 这里有个1可以点&#xff0c;先尝试点一下 因为这题是sql注入&#xff0c;cat应该就是注入点了 先判断注入类型 ?cat1 and 11 ?cat1 and 12 数字型注入 再判断列数 1 order by 4 -- 接下来…

Python查看函数信息的几种方法

在 Python 中&#xff0c;可以通过以下4种方法来查看函数的相关信息&#xff1a; 使用help()函数&#xff1a;可以直接在交互式解释器中或在脚本中使用help()函数来查看函数的详细帮助信息。例如&#xff1a;help(len)将显示len()函数的帮助信息。 使用.doc属性&#xff1a;许…

智慧路灯物联网解决方案

概述 城市路灯是与人们生活息息相关的重要公共基础设施,一方面保证夜间车辆和行人的交通的安全,另一方面承担了整个城市形象美化的重任。路灯作为城市重要基础设施,遍布城市所有的交通网络。当前随着我国新型城市的发展,更多与城市环境、民生相关的问题,已纳入到现代城市建…

2023 0305笔记

go 1. map、Chanel、slice是线程安全的吗&#xff1f; 2. map遍历时是有序的吗 3. 如果同时启动了多个gorutine&#xff0c;有一个gorutine linux 1. 查看端口监听情况的命令 netstat -anp docker 1. 常见参数 2. 网络模型有哪些 桥接网络和主机网络 3. CMD和entrypoi…

Vue深度教程

一、Vue简介 1.简介 2.快速上手 二、基础 1.创建一个Vue应用 2.模板语法 3.响应式基础 4.计算属性 5.Class与 Style绑定 6.条件渲染 7.列表渲染 8.事件处理 9.表单输入绑定 10.生命周期钩子 11.侦听器 12.模板引用 13.组件基础 三、深入组件 1.组件注册 2.Props 3.组件事件 …

css补充(上)

有关字体 1.所有有关字体的样式都会被继承 div {font-size: 30px;}<span>777</span> <div>123<p>456</p> </div>span中777是默认大小16px div设置了30px p作为div的后代继承了字体样式也是30px 2.字体颜色 div{color: red;border: 1px …

MySQL CTE 通用表表达式:基础学习

MySQL CTE 通用表表达式&#xff1a;基础学习 CTE&#xff08;Common Table Expressions&#xff09;&#xff0c;是一个可以在单个语句范围内被创建的临时结果集&#xff0c;可在该语句中被多次引用。 使用基础 CTE通常以 WITH 关键字开头&#xff0c;后跟一个或多个子句&a…

【VTKExamples::PolyData】第四十九期 Silhouette

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 前言 本文分享VTK样例Silhouette,并解析接口vtkPolyDataSilhouette,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 1. Silhouett…

RocketMQ架构详解

文章目录 概述RocketMQ架构Broker 高可用集群刷盘策略 概述 RocketMQ一个纯java、分布式、队列模型的开源消息中间件&#xff0c;前身是MetaQ&#xff0c;是阿里研发的一个队列模型的消息中间件&#xff0c;后开源给apache基金会成为了apache的顶级开源项目&#xff0c;具有高…

QT计算两个日期之间的月份数

数据库中单表数据存储量过大时&#xff0c;会造成数据库的查询统计速度变慢&#xff0c;因此需将单表数据拆分存储到按年月命名的多张数据表中。解决思路是获取单表中的最小时间和最大时间&#xff0c;然后计算两个时间中的月份数量&#xff0c;最后根据开始年月循环算出所有需…

Spring事务管理

一、事务的基本概念 事务是一系列的操作&#xff0c;它们要么全部完成&#xff0c;要么全部不完成&#xff0c;是一个不可分割的工作单位。事务的处理必须满足其四个基本特性&#xff0c;即原子性&#xff08;Atomicity&#xff09;、一致性&#xff08;Consistency&#xff0…

软件测试的基本概念

目录 1.测试需求 2.测试用例的概念 3.bug 4.软件生命周期 4.1需求分析 4.2计划 4.3编码 4.4测试 4.5运行维护 5.测试模型 5.1敏捷开发模型 5.2scrume 5.3测试模型 5.4w模型(双v模型) 6.软件测试的生命周期 7.BUG的描述和定义 8.如何定义bug的级别 9.BUG的…

机器学习——线性回归

机器学习——线性回归 文章目录 机器学习——线性回归一、什么是线性回归二、一元线性回归方程三、损失函数四、代码实现五、运用说明 一、什么是线性回归 线性回归是一种用来建立自变量和因变量之间线性关系的统计分析方法&#xff0c;也是机器学习中最常见、最容易理解的一个…