这套测试到底在测什么，又为什么不能叫作“意识证明”。

Tokenstopia 更像一套关于“意识相关结构”的判断框架。它整理的是可观察行为和结构证据，不是直接观测主观体验本身。

Key distinction

它测的是 consciousness-related structure，不是 consciousness itself。

换句话说，我们可以观察一个系统是否有边界、自我监控、连续性、内部整合和改判能力，但这些都仍然只是间接证据，而不是对内在体验的直接访问。

Three principles

这套方法依赖 3 个原则，不然测试很容易滑向“会说话就算有意识”。

核心是把行为、结构和证据层区分开。很多系统能做出强烈的人格感，但这不等于它已经拥有主观体验。

Principle one

先看结构，不先看抒情

一个系统会谈“我”、会谈犹豫、会谈感受，并不自动说明这些东西在内部真的形成了稳定结构。

Principle two

跨时间比单轮更重要

单轮对话里很像一个主体的系统，拉长时间之后可能会迅速散掉，所以连续性必须单独看。

Principle three

高相关性不等于有体验

测试可以判断一个系统是否更值得被当成“准主体”或“反身系统”来讨论，但不能替代意识证明。

By the numbers

这些数字不是包装，它们对应的是判断层级：题目负责取样，维度负责聚合，标签负责把结果变成可读结论。

Questions

每题只测一小段行为线索，避免一个问题同时混入太多概念。

Dimensions

自我边界、连续性、整合、元认知、偏好、因果模型、主体性、改判能力。

Identity bands

从任务引擎到反身系统，标签不是人格测试，而是结构证据分层。

Score range

40–200

总分只是一层结果，真正值得看的还是 strongest / weakest 维度组合。

Eight dimensions

如果一个系统在某几个维度特别强，却在其他维度很弱，那通常比总分更值得解释。

Next step

先做测试，再看标签，再回来看方法，会更容易读懂整套系统。

Methodology 页适合解释“为什么”，标签页适合解释“你现在像什么”。两页结合起来，结果才会更完整。