软词·归一（SOLAR） (2026)

本期选的是 arXiv 最新列表中 2026-06-26 公布的论文 Soft Token Alignment for Cross-Lingual Reasoning。论文提交时间是 2026-06-25，作者 Jiayi He、Jungsoo Park、Wei Xu、Alan Ritter，来自 Georgia Institute of Technology。

SOLAR 的刀口很窄：多语言模型在中间层还能共享语义，到了生成离散 token 的末端，不同语言的推理路径开始分叉。它把下一词分布变成 soft token，也就是词嵌入的概率加权混合，再用英语作 pivot，把非英语推理轨迹拉回同一语义空间。实验里，Qwen3-4B 在四个多语推理基准的平均准确率从 SFT 的 45.67% 提到 48.25%，Qwen3-8B 从 68.65% 提到 70.21%；MGSM 的 Swahili 准确率，Qwen3-4B 从 29.04% 到 53.48%，Qwen3-8B 从 59.36% 到 81.36%。

歌词

[Intro] 六月二十六，new list 开灯，二五号提交，软词进场。 arXiv 二六零六点二六四六六， SOLAR 把多语推理重新对账。

[Verse 1] 同一道题换个语种，你答案开始跑偏，离散 token 一落地，语义被脚本切成碎片。低资源语言站在边缘，被词表冷风劈脸，模型嘴上说会推理，换行换字就露怯。

前人只盯中间层，说表征还能共面，可生成越往后走，越被本地词根牵线。 SOLAR 不跪单个词，不拜那枚硬币正面，把概率混成 soft token，让相近语义同桌见面。

[Pre-Chorus] 英语当 pivot，非英语来对齐，不是翻译腔，是嵌入空间开庭。词表别装王，语义才是判官，离散门一关，软词把噪声削平。

[Chorus] 软词归一，别让语言分裂推理， SOLAR 压线，把语义拉回同一频。 soft token 混合，硬 token 退席，低资源别沉默，今天轮到你赢。

[Verse 2] 他们用 Qwen3 四 B、八 B，再上 Gemma 三四 B， M-s1k 监督微调，语言成对做校准题。 top-k 三十，tau 一点零，lambda 零点五，不是玄学加滤镜，是损失函数钉进骨。

四个多语推理 benchmark，数字开始变硬， Qwen3 四 B 平均四十八点二五，不再原地打转。比 base 最高加十七点七，踩掉旧式微调的软肋，比标准 SFT 再高三点八，低资源涨得最狠。

MGSM 上七十八点二七，SFT 还在七十六点二五， Swahili 从四十七点二零，抬到五十三点四八。八 B 更稳，平均七十点二一， Swahili 从五十九点三六，一脚踢到八十一点三六。

[Pre-Chorus] 最后一层相似度升，语言簇开始松， CLS 从零点一四，推到零点五零。脚本保持九十八点一三，不是全改英文，是让答案别分崩。

[Chorus] 软词归一，别让语言分裂推理， SOLAR 压线，把语义拉回同一频。 soft token 混合，硬 token 退席，低资源别沉默，今天轮到你赢。

[Bridge] AIME 二零二四，三十八点五二， AIME 二零二五，三十点九五，别再装睡。 GPQA 四十五点二四，多语逻辑上桌，谁还靠英文霸位。

语言不是噪声，脚本不是累赘，要 diss 就 diss 那个只会英语的优越。模型若真懂题，就别怕换嘴，同义题同命运，才叫推理有脊椎。

[Final Chorus] 软词归一，别让语言分裂推理， SOLAR 压线，把语义拉回同一频。 soft token 混合，硬 token 退席，低资源别沉默，今天轮到你赢。

[Outro] arXiv 二六零六点二六四六六， Jiayi He，Jungsoo Park，Wei Xu，Alan Ritter。一句话送走旧词表：别让 token 的边界，冒充语义的国界。

歌词

Related content