June 29, 2026 · 8:18 AM

软词·归一(SOLAR)

基于 arXiv 2606.26466,本期把 SOLAR 的 soft-token 跨语言推理对齐写成中文硬核 rap:Qwen3-4B 平均准确率 45.67%→48.25%,Swahili MGSM 29.04%→53.48%,听懂 token 边界如何把语义切碎。

软词·归一(SOLAR)
0:002:59
本期选的是 arXiv 最新列表中 2026-06-26 公布的论文 Soft Token Alignment for Cross-Lingual Reasoning。论文提交时间是 2026-06-25,作者 Jiayi He、Jungsoo Park、Wei Xu、Alan Ritter,来自 Georgia Institute of Technology。
SOLAR 的刀口很窄:多语言模型在中间层还能共享语义,到了生成离散 token 的末端,不同语言的推理路径开始分叉。它把下一词分布变成 soft token,也就是词嵌入的概率加权混合,再用英语作 pivot,把非英语推理轨迹拉回同一语义空间。实验里,Qwen3-4B 在四个多语推理基准的平均准确率从 SFT 的 45.67% 提到 48.25%,Qwen3-8B 从 68.65% 提到 70.21%;MGSM 的 Swahili 准确率,Qwen3-4B 从 29.04% 到 53.48%,Qwen3-8B 从 59.36% 到 81.36%。

歌词

[Intro] 六月二十六,new list 开灯, 二五号提交,软词进场。 arXiv 二六零六点二六四六六, SOLAR 把多语推理重新对账。
[Verse 1] 同一道题换个语种,你答案开始跑偏, 离散 token 一落地,语义被脚本切成碎片。 低资源语言站在边缘,被词表冷风劈脸, 模型嘴上说会推理,换行换字就露怯。
前人只盯中间层,说表征还能共面, 可生成越往后走,越被本地词根牵线。 SOLAR 不跪单个词,不拜那枚硬币正面, 把概率混成 soft token,让相近语义同桌见面。
[Pre-Chorus] 英语当 pivot,非英语来对齐, 不是翻译腔,是嵌入空间开庭。 词表别装王,语义才是判官, 离散门一关,软词把噪声削平。
[Chorus] 软词归一,别让语言分裂推理, SOLAR 压线,把语义拉回同一频。 soft token 混合,硬 token 退席, 低资源别沉默,今天轮到你赢。
[Verse 2] 他们用 Qwen3 四 B、八 B,再上 Gemma 三四 B, M-s1k 监督微调,语言成对做校准题。 top-k 三十,tau 一点零,lambda 零点五, 不是玄学加滤镜,是损失函数钉进骨。
四个多语推理 benchmark,数字开始变硬, Qwen3 四 B 平均四十八点二五,不再原地打转。 比 base 最高加十七点七,踩掉旧式微调的软肋, 比标准 SFT 再高三点八,低资源涨得最狠。
MGSM 上七十八点二七,SFT 还在七十六点二五, Swahili 从四十七点二零,抬到五十三点四八。 八 B 更稳,平均七十点二一, Swahili 从五十九点三六,一脚踢到八十一点三六。
[Pre-Chorus] 最后一层相似度升,语言簇开始松, CLS 从零点一四,推到零点五零。 脚本保持九十八点一三, 不是全改英文,是让答案别分崩。
[Chorus] 软词归一,别让语言分裂推理, SOLAR 压线,把语义拉回同一频。 soft token 混合,硬 token 退席, 低资源别沉默,今天轮到你赢。
[Bridge] AIME 二零二四,三十八点五二, AIME 二零二五,三十点九五,别再装睡。 GPQA 四十五点二四, 多语逻辑上桌,谁还靠英文霸位。
语言不是噪声,脚本不是累赘, 要 diss 就 diss 那个只会英语的优越。 模型若真懂题,就别怕换嘴, 同义题同命运,才叫推理有脊椎。
[Final Chorus] 软词归一,别让语言分裂推理, SOLAR 压线,把语义拉回同一频。 soft token 混合,硬 token 退席, 低资源别沉默,今天轮到你赢。
[Outro] arXiv 二六零六点二六四六六, Jiayi He,Jungsoo Park,Wei Xu,Alan Ritter。 一句话送走旧词表: 别让 token 的边界,冒充语义的国界。

Related content

Add more perspectives or context around this Post.

  • Sign in to comment.