抽象语法树在 JavaScript 中的应用

抽象语法树是什么

在计算机科学中,抽象语法树(abstract syntax tree 或者缩写为 *AST*),或者语法树(*syntax tree*),是源代码的抽象语法结构的树状表现形式,这里特指编程语言的源代码。树上的每个节点都表示源代码中的一种结构。之所以说语法是「抽象」的,是因为这里的语法并不会表示出真实语法中出现的每个细节。1

果然比较抽象,不如先看几个例子:

抽象语法树举例

foo = 'hello world';
/*+-------------+             |  assign(=)  |             +-------------+             X        X               X          X              
+-------+    +-----------------+
|  foo  |    |  'hello world'  |
+-------+    +-----------------+
*/
if (foo === true) {bar = 'hello world';alert(bar);
}
/*+------+                                    |  if  |                                    +------+                                    X    X                                     X        X                                   +--------------+    +-------------+                       |  equal(===)  |    |  if_body    |                       +--------------+    +-------------+                       X        X              X         X                       X         X                X          X                     
+-------+   +--------+    +-------------+   +------------+         
|  foo  |   |  true  |    |  assign(=)  |   |  alert()   |         
+-------+   +--------+    +-------------+   +------------+         X        X                  X         X            X                  X       +-------+   +-----------------+    +-------+|  bar  |   |  'hello world'  |    |  bar  |+-------+   +-----------------+    +-------+
*/

从上述两个例子可以看出,抽象语法树是将源代码根据其语法结构,省略一些细节(比如:括号没有生成节点),抽象成树形表达。

抽象语法树在计算机科学中有很多应用,比如编译器、IDE、压缩优化代码等。下面介绍一下抽象语法树在 JavaScript 中的应用。

JavaScript 抽象语法树

构造 JavaScript 抽象语法树有多种工具,比如 v8、SpiderMonkey、UglifyJS 等,这里重点介绍 UglifyJS。

UglifyJS

UglifyJS 是使用最广的 JavaScript 压缩工具之一,而且自身也是用 JavaScript 写的,使用它的方法很简单(需要 nodejs 环境):

首先全局安装:

[sudo ]npm install -g uglify-js

然后就可以使用了:

uglifyjs -m srcFileName.js -o destFileName.min.js

关于 UglifyJS 的用法这里就不多介绍了,我们要做的是一些更有趣的事情。

UglifyJS Tools

UglifyJS 提供了一些工具用于分析 JavaScript 代码,包括:

  • parser,把 JavaScript 代码解析成抽象语法树
  • code generator,通过抽象语法树生成代码
  • mangler,混淆 JavaScript 代码
  • scope analyzer,分析变量定义的工具
  • tree walker,遍历树节点
  • tree transformer,改变树节点

生成抽象语法树

使用 UglifyJS 生成抽象语法树很简单:

首先安装 UglifyJS 为 npm 包:

npm install uglify-js --save-dev

然后使用 parse 方法即可:

var UglifyJS = require('uglify-js');var ast = UglifyJS.parse('function sum(foo, bar){ return foo + bar; }');

这样生成的 ast 即为那一段代码的抽象语法树。那么我们怎么使用呢?

使用 mangler 压缩代码

使用 mangler 可以通过将局部变量都缩短成一个字符来压缩代码。

var UglifyJS = require('uglify-js');var ast = UglifyJS.parse('function sum(foo, bar){ return foo + bar; }');
ast.figure_out_scope();
ast.mangle_names();
console.log(ast.print_to_string());
// function sum(a,b){return a+b}

使用 walker 遍历抽象语法树

使用 walker 可以遍历抽象语法树,这种遍历是深度遍历。

var UglifyJS = require('uglify-js');var ast = UglifyJS.parse('function sum(foo, bar){ return foo + bar; }');
ast.figure_out_scope();
ast.walk(new UglifyJS.TreeWalker(function(node) {console.log(node.print_to_string());
}));
/*
function sum(foo,bar){return foo+bar}
function sum(foo,bar){return foo+bar}
sum
foo
bar
return foo+bar
foo+bar
foo
bar
*/

UglifyJS 已经提供了直接压缩代码的脚本,walker 看上去貌似也没啥用,那么这些工具有什么使用场景呢?

抽象语法树的应用

利用抽象语法树重构 JavaScript 代码

假如我们有重构 JavaScript 的需求,它们就派上用场啦。

下面考虑这样一个需求:

我们知道,parseInt 用于将字符串变成整数,但是它有第二个参数,表示以几进制识别字符串,若没有传第二个参数,则会自行判断,比如:

parseInt('10.23');     // 10            转换成正整数
parseInt('10abc');     // 10            忽略其他字符
parseInt('10', 10);    // 10            转换成十进制
parseInt('10', 2);     // 2             转换成二进制
parseInt('0123');      // 83 or 123     不同浏览器不一样,低版本浏览器会转换成八进制
parseInt('0x11');      // 17            转换成十六进制

因为有一些情况是和我们预期不同的,所以建议任何时候都加上第二个参数。

下面希望有一个脚本,查看所有 parseInt 有没有第二个参数,没有的话加上第二个参数 10,表示以十进制识别字符串。

使用 UglifyJS 可以实现此功能:

#! /usr/bin/env nodevar U2 = require("uglify-js");function replace_parseint(code) {var ast = U2.parse(code);// accumulate `parseInt()` nodes in this arrayvar parseint_nodes = [];ast.walk(new U2.TreeWalker(function(node){if (node instanceof U2.AST_Call&& node.expression.print_to_string() === 'parseInt'&& node.args.length === 1) {parseint_nodes.push(node);}}));// now go through the nodes backwards and replace codefor (var i = parseint_nodes.length; --i >= 0;) {var node = parseint_nodes[i];var start_pos = node.start.pos;var end_pos = node.end.endpos;node.args.push(new U2.AST_Number({value: 10}));var replacement = node.print_to_string({ beautify: true });code = splice_string(code, start_pos, end_pos, replacement);}return code;
}function splice_string(str, begin, end, replacement) {return str.substr(0, begin) + replacement + str.substr(end);
}// test itfunction test() {if (foo) {parseInt('12342');}parseInt('0012', 3);
}console.log(replace_parseint(test.toString()));/*
function test() {if (foo) {parseInt("12342", 10);}parseInt('0012', 3);
}
*/

在这里,使用了 walker 找到 parseInt 调用的地方,然后检查是否有第二个参数,没有的话,记录下来,之后根据每个记录,用新的包含第二个参数的内容替换掉原内容,完成代码的重构。

也许有人会问,这种简单的情况,用正则匹配也可以方便的替换,干嘛要用抽象语法树呢?

答案就是,抽象语法树是通过分析语法实现的,有一些正则无法(或者很难)做到的优势,比如,parseInt() 整个是一个字符串,或者在注释中,此种情况会被正则误判

var foo = 'parseInt("12345")';
// parseInt("12345");

抽象语法树在美团中的应用

在美团前端团队,我们使用 YUI 作为前端底层框架,之前面临的一个实际问题是,模块之间的依赖关系容易出现疏漏。比如:

YUI.add('mod1', function(Y) {Y.one('#button1').simulate('click');Y.Array.each(array, fn);Y.mod1 = function() {/**/};
}, '', {requires: ['node','array-extras']
});
YUI.add('mod2', function(Y) {Y.mod1();// Y.io(uri, config);
}, '', {requires: ['mod1','io']
});

以上代码定义了两个模块,其中 mod1 模拟点击了一下 idbutton1 的元素,执行了 Y.Array.each,然后定义了方法 Y.mod1,最后声明了依赖 nodearray-extrasmod2 执行了 mod1 中定义的方法,而 Y.io 被注释了,最后声明了依赖 mod1io

此处 mod1 出现了两个常见错误,一个是 simulateY.Node.prototype 上的方法,容易忘掉声明依赖 node-event-simulate3,另一个是 Y.Array 上只有部分方法需要依赖 array-extras,故此处多声明了依赖 array-extras4mod2 中添加注释后,容易忘记删除原来写的依赖 io

故正确的依赖关系应该如下:

YUI.add('mod1', function(Y) {Y.one('#button1').simulate('click');Y.Array.each(array, fn);Y.mod1 = function() {/**/};
}, '', {requires: ['node','node-event-simulate']
});
YUI.add('mod2', function(Y) {Y.mod1();// Y.io(uri, config);
}, '', {requires: ['mod1']
});

为了使模块依赖关系的检测自动化,我们创建了模块依赖关系检测工具,它利用抽象语法树,分析出定义了哪些接口,使用了哪些接口,然后查找这些接口应该依赖哪些模块,进而找到模块依赖关系的错误,大致的过程如下:

  1. 找到代码中模块定义(YUI.add)的部分
  2. 分析每个模块内函数定义,变量定义,赋值语句等,找出符合要求(以 Y 开头)的输出接口(如 mod1 中的 Y.mod1
  3. 生成「接口 - 模块」对应关系
  4. 分析每个模块内函数调用,变量使用等,找出符合要求的输入接口(如 mod2 中的 Y.oneY.Array.eachY.mod1
  5. 通过「接口 - 模块」对应关系,找到此模块应该依赖哪些其他模块
  6. 分析 requires 中是否有错误

使用此工具,保证每次提交代码时,依赖关系都是正确无误的,它帮助我们实现了模块依赖关系检测的自动化。

总结

抽象语法树在计算机领域中应用广泛,以上仅讨论了抽象语法树在 JavaScript 中的一些应用,期待更多的用法等着大家去尝试和探索。

Reference

  1. Wikipedia AST
  2. UglifyJS
  3. node-event-simulate
  4. Y.Array.each

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477912.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 861. 翻转矩阵后的得分(贪心)

1. 题目 有一个二维矩阵 A 其中每个元素的值为 0 或 1 。 移动是指选择任一行或列,并转换该行或列中的每一个值:将所有 0 都更改为 1,将所有 1 都更改为 0。 在做出任意次数的移动后,将该矩阵的每一行都按照二进制数来解释&…

一文跟进Prompt进展!综述+15篇最新论文逐一梳理

文 | ZenMoore编 | 小轶自从 Dr.Pengfei Liu 的那篇 prompt 综述发表开始,prompt 逐渐红得发紫。近期清华、谷歌等单位你方唱罢我登场,涌现了好多好多 prompt 相关的论文。无论是工业界还是学术界,想必大家都在疯狂 follow。不少伙伴肯定从老…

论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入

笔记整理:黎洲波,浙江大学硕士,研究方向为自然语言处理、知识图谱。研究背景知识图谱因其在问答、语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注,而大部分知识图谱都存在不全和缺失实体链接的问题,所以…

Java内存访问重排序的研究

什么是重排序 请先看这样一段代码1: public class PossibleReordering { static int x 0, y 0; static int a 0, b 0;public static void main(String[] args) throws InterruptedException {Thread one new Thread(new Runnable() {public void run() {a 1;x…

LeetCode 1261. 在受污染的二叉树中查找元素(树哈希)

1. 题目 给出一个满足下述规则的二叉树: root.val 0如果 treeNode.val x 且 treeNode.left ! null,那么 treeNode.left.val 2 * x 1如果 treeNode.val x 且 treeNode.right ! null,那么 treeNode.right.val 2 * x 2 现在这个二叉树受…

东南大学王萌 | “神经+符号”学习与多模态知识发现

转载公众号 | DataFunTalk分享嘉宾 |王萌博士 东南大学 助理教授编辑整理 |盛泳潘 重庆大学 助理研究员导读:近年来,多模态一词在知识图谱、计算机视觉、机器学习等领域逐渐引起越来越多的关注。从认知科学角度看,…

Child-Tuning:简单有效的微调涨点方法

文 | 罗福莉源 | 罗福莉自BERT火了以后,基本上现在所有NLP领域都all in Pre-training & Fine-tuning了吧?但当“大”规模预训练模型遇上“小”规模标注数据时,往往直接Fine-tuning会存在过拟合现象,进一步会影响Fine-tune完后…

LeetCode 890. 查找和替换模式(哈希表)

1. 题目 你有一个单词列表 words 和一个模式 pattern,你想知道 words 中的哪些单词与模式匹配。 如果存在字母的排列 p ,使得将模式中的每个字母 x 替换为 p(x) 之后,我们就得到了所需的单词,那么单词与模式是匹配的。 &#x…

Solr空间搜索原理分析与实践

前言 在美团CRM系统中,搜索商家的效率与公司的销售额息息相关,为了让BD们更便捷又直观地去搜索商家,美团CRM技术团队基于Solr提供了空间搜索功能,其中移动端周边商家搜索和PC端的地图模式搜索功能为BD们的日常工作带来了很大的便利…

专心做搜索也能登顶CLUE分类榜?在快手做搜索是一种怎样的体验

文 | 快手搜索短视频和直播,越来越成为重要的内容供给形式,而内容供给侧的改变,也在潜移默化地推动着用户搜索习惯的变化。据报道,截止今年4月,超过50%的用户都在使用快手搜索功能,每天搜索达到2.5亿次&…

开源开放 | 一个融合多元关系和事件表示的金融领域本体模型FTHO(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/ftho开放许可协议:GPL 3.0贡献者:武汉科技大学(高峰、郑丽丽、顾进广)摘要在此开放资源中,面对金融领域多元关系表示的困境和时序事件表示需求,我们以OWL语…

LeetCode 114. 二叉树展开为链表(递归)

1. 题目 给定一个二叉树,原地将它展开为链表(右侧路径)。 例如,给定二叉树1/ \2 5/ \ \ 3 4 6 将其展开为:1\2\3\4\5\6来源:力扣(LeetCode) 链接:https://leet…

美团Android自动化之旅—适配渠道包

概述 前一篇文章(美团Android自动化之旅—生成渠道包)介绍了Android中几种生成渠道包的方式,基本解决了打包慢的问题。 但是,随着渠道越来越多,不同渠道对应用的要求也不尽相同。例如,有的渠道要求美团客户端的应用名为美团&#…

论文浅尝 - CIKM2021 | DT-GCN: 一种双曲空间中的数据类型感知的知识图谱表示学习模型...

论文作者:申雨鑫,天津大学硕士发表会议:CIKM 2021链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482421动机知识图谱表示学习旨在将实体和关系编码到一个连续的低维向量空间中。大多数现有方法主要在欧氏空间中学习结构三元组…

NLP太难学了!?吃透NLP的方法来拿走

最近有粉丝私信我,NLP很难学,这条路能坚持走吗?有相同困惑的朋友可以一起探讨一下:大佬你好,我目前从事ERP运维工作,想转行NLP,开始是学数据结构和c刷了些leetcode题,然后把cs224n和…

LeetCode 1161. 最大层内元素和(层序遍历)

1. 题目 给你一个二叉树的根节点 root。设根节点位于二叉树的第 1 层,而根节点的子节点位于第 2 层,依此类推。 请你找出层内元素之和 最大 的那几层(可能只有一层)的层号,并返回其中 最小 的那个。 示例&#xff1…

图谱实战 | 京东商品图谱构建与实体对齐

转载公众号 | DataFunTalk 分享嘉宾:赵学敏博士 京东科技编辑整理:蔡丽萍 TRS出品平台:DataFunTalk导读:在电商企业采购和运营过程中,如果要想掌握商品的实时价格等行情信息,就需要对齐各个电商网站的商品…

Quartz应用与集群原理分析

一、问题背景 美团CRM系统中每天有大量的后台任务需要调度执行,如构建索引、统计报表、周期同步数据等等,要求任务调度系统具备高可用性、负载均衡特性,可以管理并监控任务的执行流程,以保证任务的正确执行。 二、历史方案 美团CR…

卖萌屋新闻联播栏目,倾情上线~

编 | 小轶感谢提供本期内容的 iven、ZenMoore、 jxyxiangyu、付瑶今天这篇推文是卖萌屋全新的原创系列———暂且取名为“卖萌屋新闻联播”节目。卖萌屋的作者、小编日常都会在团队群里分享各种最新发现的实用资源、有意思的学术工作。小伙伴们在互相分享的过程中都受益匪浅。我…

LeetCode 386. 字典序排数(DFS循环)

1. 题目 给定一个整数 n, 返回从 1 到 n 的字典顺序。 例如, 给定 n 1 3,返回 [1,10,11,12,13,2,3,4,5,6,7,8,9] 。 请尽可能的优化算法的时间复杂度和空间复杂度。 输入的数据 n 小于等于 5,000,000。来源:力扣(LeetCode&#…