スマートグラスは、ユーザーの認知負荷を読み取れるのか

*元論文：Wang, B et al. (2026). GazeMind: A gaze-guided LLM agent for personalized cognitive load assessment.

今回の研究は、スマートグラスから得られる視線データを使って、ユーザーの認知負荷を推定するAIエージェント「GazeMind」を提案したものです。

ここでいう認知負荷とは、タスクをこなすときに必要になる精神的な労力のことを指します。たとえば、文章を読む、暗算をする、相手の話を聞きながら判断する、複数の情報を同時に処理するといった場面では、認知負荷が高くなります。

研究の方法

1. GazeMind

alt
Figure 2：GazeMindの全体像（出典：Wang, B et al. (2026). GazeMind: A gaze-guided LLM agent for personalized cognitive load assessment.）

GazeMindは、主に以下の4つの要素で構成されています。
4つの要素を組み合わせることで、GazeMindは「なぜその認知負荷と判断したのかを説明できるAIエージェント」として機能できるようになっています。

Temporal Gaze Encoding（TGE）
これは、視線の信号を認知科学的に意味のある特徴量（データの特徴を数値として表したもの）に変換する処理です。さらに、過去5秒間の特徴量を時系列のテーブルとして整形する役割も担っています。
Task-Guidance Reasoning（TGR）
同じ視線の動きでも、タスクによって意味は変わります。たとえば読書中に注視時間が長くなることと、ゲーム中に視線が頻繁に動くことは、それぞれ異なる形の認知負荷を反映している可能性があります。
そこでTGRでは、タスクごとにどの視線の特徴が重要か、どの方向に変化すると負荷が高いと考えられるかをルール化します。
Adaptive User Profile Calibration（AUP）
人によって、もともとの瞳孔のサイズ、まばたきの多さ、視線の安定性は異なるため、全員に同じ基準を当てはめると個人差を認知負荷と誤認する可能性があります。
そこでAUPでは、ユーザーを「High-Reactor（反応が大きい）」「Low-Reactor（反応が小さい）」「Restless（瞬きが多く、不安定）」の3タイプに分類し、個人のベースラインを踏まえて判断を調整しています。
Cognitive Retrieval-Augmented Generation（CogRAG）
これは、現在の視線パターンと類似した過去のサンプルを検索し、そのラベル付きの事例をLLMに提示する仕組みです。
つまり、「過去の例と類似した視線パターンのとき、その人たちはどの程度の認知負荷だったか」を参考にする仕組みです。

2. CogLoad-Benchデータセット

今回の研究では、「CogLoad-Bench」という新しいデータセットも作成されており、参加者152名、録画456件、40時間以上のデータ、1万件以上の正解ラベルが含まれています。

タスクは、以下の3種類に分かれています。

読解・推論
参加者は時間推論や暗算などの問題を読み、口頭で回答するタスクです。
時間推論とは、時間に関する情報をもとに、順序・経過・時点・所要時間などを論理的に判断するタスクを指します。
ゲームの課題
反射神経・注意力・抑制制御が必要となるテンポの速いカードゲーム（Taco Cat Goat Cheese Pizza）を改変したタスクです。難易度に応じてプレイヤーの有無、交互プレイ、予測困難な音声の刺激などが加わります。
音声課題
これは、現在聞いた文字がN個前の文字と一致するかを答えるタスクです。Nが大きくなるほど、記憶保持の負荷が高くなります。

認知負荷は、タスク中に15〜30秒ごとに参加者が口頭で自己申告しました。もともとは7段階評価でしたが、最終的には「Low」「Moderate」「High」の3段階に統合されています。

結果

1. GazeMindは既存手法を上回った

alt
Table 1：GazeMindと既存手法との比較（出典：Wang, B et al. (2026). GazeMind: A gaze-guided LLM agent for personalized cognitive load assessment.）

alt

研究の方法

1. GazeMind

Figure 2：GazeMindの全体像（出典：Wang, B et al. (2026). GazeMind: A gaze-guided LLM agent for personalized cognitive load assessment.）

Temporal Gaze Encoding（TGE）
これは、視線の信号を認知科学的に意味のある特徴量（データの特徴を数値として表したもの）に変換する処理です。さらに、過去5秒間の特徴量を時系列のテーブルとして整形する役割も担っています。

Task-Guidance Reasoning（TGR）
同じ視線の動きでも、タスクによって意味は変わります。たとえば読書中に注視時間が長くなることと、ゲーム中に視線が頻繁に動くことは、それぞれ異なる形の認知負荷を反映している可能性があります。
そこでTGRでは、タスクごとにどの視線の特徴が重要か、どの方向に変化すると負荷が高いと考えられるかをルール化します。

Adaptive User Profile Calibration（AUP）
人によって、もともとの瞳孔のサイズ、まばたきの多さ、視線の安定性は異なるため、全員に同じ基準を当てはめると個人差を認知負荷と誤認する可能性があります。
そこでAUPでは、ユーザーを「High-Reactor（反応が大きい）」「Low-Reactor（反応が小さい）」「Restless（瞬きが多く、不安定）」の3タイプに分類し、個人のベースラインを踏まえて判断を調整しています。

Cognitive Retrieval-Augmented Generation（CogRAG）
これは、現在の視線パターンと類似した過去のサンプルを検索し、そのラベル付きの事例をLLMに提示する仕組みです。
つまり、「過去の例と類似した視線パターンのとき、その人たちはどの程度の認知負荷だったか」を参考にする仕組みです。

2. CogLoad-Benchデータセット

タスクは、以下の3種類に分かれています。

読解・推論
参加者は時間推論や暗算などの問題を読み、口頭で回答するタスクです。
時間推論とは、時間に関する情報をもとに、順序・経過・時点・所要時間などを論理的に判断するタスクを指します。

ゲームの課題
反射神経・注意力・抑制制御が必要となるテンポの速いカードゲーム（Taco Cat Goat Cheese Pizza）を改変したタスクです。難易度に応じてプレイヤーの有無、交互プレイ、予測困難な音声の刺激などが加わります。

音声課題
これは、現在聞いた文字がN個前の文字と一致するかを答えるタスクです。Nが大きくなるほど、記憶保持の負荷が高くなります。

研究の方法

1. GazeMind

2. CogLoad-Benchデータセット

結果

1. GazeMindは既存手法を上回った

他の記事

コメント

研究の方法

1. GazeMind

2. CogLoad-Benchデータセット

結果

1. GazeMindは既存手法を上回った

2. 特にCogRAGの追加が、スコアの向上に寄与した

3. GazeMindは、個人差への対応も比較的できていた

注意点

デバイスが収集する「健康データ」を過信しない

スマートグラスならではのリスク

参考資料