使用AST还原某JS字符串混淆

(编辑：jimmy 日期: 2026/1/31 浏览：3 次 )

背景：

在分析某站点接口时发现以前发现漏洞的JS修复后进行了强混淆，看起来十分抽象

image-20221118194253741.png

于是乎搁置在一边没有继续分析，直到前几日在图书馆发现了小肩膀大佬写的爬虫混淆AST对抗，书中描述的几种混淆方式与该站点使用的十分相似，遂尝试使用AST对该JS进行一定程度的还原

本篇针对该JS中的字符串混淆进行还原

字符串是如何混淆的

解密方式

想要对字符串反混淆就要先分析该样本是如何对字符串进行混淆的

以一个字符串的解密为例子，可以发现他将字符串解密拆分成一串函数调用并对立即数进行减法操作来防止通用解密

image-20221118203212673.png

而处于全局作用域的_0x1f1a68实际上也是对另一个函数的调用

function _0x1f1a68(_0x1be822, _0x79fd7, _0x340561, _0x170aa8, _0x35407a) {    return _0x4903(_0x35407a - 0x252, _0x340561);}

经过在VSCode中对每个字符串解密函数查找定义，发现所有的字符串解密最终都是调用的_0x4903

由于每个函数的调用时机跟作用域都不同，获取每一个字符串解密函数的结果是不明智的

于是这里需要实现的第一个功能就是将每一个字符串的解析还原成对_0x4903的调用，也就是将不同字符串解密函数的调用替换成对最根本的解密函数_0x4903的幂等形式

还原

函数调用还原实现

举个例子

function _0x3cb10b(_0x9056d3, _0xd6da67, _0x4e8aa3, _0x575cfa, _0x50067e) {     return _0x1f1a68(_0x9056d3 - 0x1ca, _0xd6da67 - 0x97, _0x4e8aa3, _0x575cfa - 0x13c, _0xd6da67 - 0x119); }function _0x362f86(_0xeb8495, _0x2bb06b, _0x3bc6ce, _0x59c29b, _0x141499) {    return _0x3cb10b(_0xeb8495 - 0x1a0, _0xeb8495 - -0x370, _0x3bc6ce, _0x59c29b - 0x19c, _0x141499 - 0x120);}function _0x1f1a68(_0x1be822, _0x79fd7, _0x340561, _0x170aa8, _0x35407a) {    return _0x4903(_0x35407a - 0x252, _0x340561);}

我们的目标是将

_0x362f86(0x9a3, 0xef2, '1vkx', 0x369, 0xb40)

转换成

_0x3cb10b(0x9a3- 0x1a0, 0x9a3 - -0x370, '1vkx', 0x369 - 0x19c, 0xb40 - 0x120);

继而转换成

_0x1f1a68(0x9a3- 0x1a0 - 0x1ca, 0x9a3 - -0x370 - 0x97, '1vkx', 0x369 - 0x19c - 0x13c, 0x9a3 - -0x370 - 0x119);

最终转换成

_0x4903(0x9a3 - -0x370 - 0x119 - 0x252, '1vkx');

image-20221118211109561.png

image-20221118211121682.png

那么如何使用AST实现呢，为了尽可能实现上下文无关减少状态，这里采用像示例中的一样一层一层的处理

在代码实现上我将其分为了多个部分

function replaceArgsToIndex(funcargs, arg) {        if (arg.type == "BinaryExpression") {            return replaceArgsToIndex(funcargs, arg.left);        }        if (arg.name.startsWith("arg")) {            return true;        }        for (let i = 0; i < funcargs.length; i++) {            if (funcargs[i].name == arg.name) {                arg.name = "arg" + i;                return true;            }        }        console.log("not found arg " + arg.name + " at " + arg.loc?.start.line);        return false;}

第一步是将函数内的参数名转换成参数下标，这样就可以从CallExpression中直接用下标获取对应的参数进行表达式替换，这里处理了BinaryExpression是因为参数中存在减法表达式的情况，但变量永远在第一位，所以递归到最左面的变量再进行处理，同时如果参数已经被转化成argN的形式便不做处理。

如图，每个红框都是一个二值表达式，外层的二值表达式将内层的二值表达式作为左值，所以当变量为

import { _0x4903 } from './strdeec'function evalDecryptStr(root){ traverse["default"](root, { CallExpression(path) { let { callee } = path.node; if (btypes.isIdentifier(callee) && callee.name == "_0x4903") { //判断是否为字符串解密函数 //console.log(codegen["default"](path.node).code,"loc:",path.node.loc?.start.line); let args = path.node.arguments; if(!btypes.isNumericLiteral(args[0]) || !btypes.isStringLiteral(args[1])) return; let str = (args[0] as btypes.NumericLiteral).value; let key = (args[1] as btypes.StringLiteral).value; //获取函数调用表达式的参数 //console.log("decrypt str: " + str + " with key: " + key); let result = _0x4903(str, key); //调用解密JS path.replaceWith(btypes.stringLiteral(result)); //将函数调用替换成返回的字符串 } } });}

使用AST还原某JS字符串混淆

字符串是如何混淆的

解密方式

还原

函数调用还原实现

字符串函数调用

效果

原JS

还原后