第18回WI2研究会報告

2022年11月25日(金)・26日(土)に,オンラインと現地のハイブリットで第18回WI2研究会を開催致しました.一般発表は,ロング発表・ショート発表,技術報告合わせて16件の発表がありました.また,会場である高知工科大学 経済・マネジメント学群所属の草川孝夫准教授に「実験室実験を用いた市場制度の設計」という題目でご講演いただきました.

質問応答,データ構造,情報推薦,CGM/SNS分析,情報抽出に関するセッションがありました.

→プログラム →表彰 →副座長報告 →運営委員会

日時・会場

日時: 2022年11月25日(金)12:30~19:00
2022年11月26日(土)11:00-17:30
会場: 高知工科大学(永国寺キャンパス)教育研究棟 一階 A105教室

アルバム

開会の挨拶
会場の様子
会場の様子
質疑応答の様子
招待講演の様子
招待講演の様子

プログラム

■12月17日(金) (11:00-受付)
11:00-11:10 オープニング
11:10-12:00 セッション1: QA・データ構造
座長:吉田 光男(筑波大学),副座長:北山 大輔(工学院大学)
(ロング発表)
1. 表検出を含むエンドツーエンド表構造解析手法の評価☆
青柳 拓志(岡山大学), 金澤 輝一(国立情報学研究所), 高須 淳宏(国立情報学研究所), 上野 史(岡山大学), 太田 学(岡山大学)
(ショート発表)
2. ゲーミフィケーションに基づくQAデータセット拡充手法の提案: QA Lab-PoliInfo-4 Answer Verificationタスクに向け
渋木 英潔(株式会社BESNA研究所), 内田 ゆず(北海学園大学), 小川 泰弘(名古屋大学), 門脇 一真(株式会社日本総合研究所), 木村 泰知(小樽商科大学)
14:40-15:10 技術報告セッション
座長:山本 岳洋(兵庫県立大学)
– 株式会社LIFULL
15:30-17:20 セッション2: 情報推薦(1)
座長:柴田 祐樹(東京都立大学),副座長:村上 晴美(大阪公立大学)
(ロング発表)
3. ニュースサービスにおける多様な記事の閲覧を促す推薦手法の提案☆
菅沼 修祐(東京大学), 飯塚 洸二郎(株式会社 Gunosy), 関 喜史(株式会社 Gunosy), 森田 一(株式会社 Gunosy), 鳥海 不二夫(東京大学)
(ショート発表)
4. 個人売買プラットフォームにおける決定木を用いた中古品の価値分類☆
伊集院 大将(電気通信大学), 山田 哲男(電気通信大学)
5. 映画推薦におけるポスター画像の特徴と嗜好予測の正確性に関する分析☆
井上 碧惟(龍谷大学), 奥 健太(龍谷大学)
6. Web情報探索における視線情報を活用した情報推薦システムの開発☆
森 大河(東海大学), 山田 光穗(東海大学), 石井 英里子(鹿児島県立短期大学), 星野 祐子(東海大学)
7. 非観光行動の影響を考慮したPOI推薦システムの一評価法☆
梛木 佑真(電気通信大学), 岡本 一志(電気通信大学)
■11月26日(土) (9:00-受付)
9:00-10:40 セッション3: CGM/SNS分析・応用
座長:榊 剛史(ホットリンク/東京大学),副座長:山本 岳洋(兵庫県立大学)
(ロング発表)
8. 引用関係とTwitter言及による関係をもとにした論文ネットワークの近傍論文の比較☆
豊島 秀典(豊橋技術科学大学), 廣中 詩織(豊橋技術科学大学), 吉田 光男(筑波大学), 梅村 恭司(豊橋技術科学大学)
9. Wikipedia編集者情報を用いた協調フィルタリングによるエンティティ類似度推定☆
竹内 皓紀(群馬大学), 林 克彦(北海道大学)
(ショート発表)
10. レビュワーの印象を利用した店舗評価アルゴリズムにおける賄賂操作の影響分析☆
乙黒 拓哉(電気通信大学), 岡本 一志(電気通信大学), 柴田 淳司(産業技術大学院大学)
11. 沈黙の螺旋がもたらす社会の分極化☆
二之宮 大聖(東京大学), 鳥海 不二夫(東京大学), 山本 仁志(立正大学)
10:50-11:50 招待講演
座長:林 良平(高知工科大学) 高知工科大学 草川 孝夫
13:00-14:20 セッション4: 情報推薦(2)・情報抽出
座長:岡本 一志(電気通信大学),副座長:松村 敦(筑波大学)
(ロング発表)
12. 音楽知識共有プラットフォーム上のユーザ投稿からの表記特徴を手がかりとした詩的な言い換え表現の抽出☆
竹元 亨舟(関西大学), 山西 良典(関西大学), 西原 陽子(立命館大学)
13. 観点マッチングによる認知度に依存しない観光スポット推薦☆
野本 輝(岡山大学), 太田 学(岡山大学)
(ショート発表)
14. 将棋解説文の構成要素の定義と判別☆
佐々木 謙人(筑波大学), 関 洋平(筑波大学)
14:20-14:30 表彰式・クロージング
座長:大塚 真吾(神奈川工科大学)
14:20-14:30 表彰式・クロージング
座長:大塚 真吾(神奈川工科大学)

表彰

WI2研究会では,出席したWI2委員全員により,全ての発表の聴講と評価を行っております.今回,各賞を受賞された研究は以下のとおりです.

優秀研究賞
将棋解説文の構成要素の定義と判別
佐々木 謙人, 関 洋平
沈黙の螺旋がもたらす社会の分極化
二之宮 大聖, 鳥海 不二夫, 山本 仁志

学生奨励賞
Wikipedia編集者情報を用いた協調フィルタリングによるエンティティ類似度推定
竹内 皓紀, 林 克彦
音楽知識共有プラットフォーム上のユーザ投稿からの表記特徴を手がかりとした詩的な言い換え表現の抽出
竹元 亨舟, 山西 良典, 西原 陽子

副座長報告

セッション2: 情報推薦(1)

村上晴美(大阪公立大学)

セッション2ではロング発表1件とショート発表4件があった。

1件目のロング発表は、ニュースサービスにおいて多様な記事の閲覧を促す推薦手法の提案についての内容であった。ユーザーが記事をクリックした直後に、その関連記事かつユーザーが普段は読まないような記事を推薦する。因果推論の手法でニュースサービスの行動ログを分析している。質疑では、「手法における多様性は、ネットワークの多様性であり、記事の内容の多様性ではないという理解でよいか。記事の内容のベクトルを加味してもよいのでは」というコメントがあった。「継続利用率において、数値を見ると単純な手法1の方がよいのでは」という質問に対して「数値の大小に意味はない」という回答がなされた。「ユーザーが読む記事を多様化させることでユーザーの満足度を向上させると主張しているが、多様な記事を読むユーザーは継続利用率が高いということなのではないか」というコメントがあった。「ユーザーや記事をグループ化する際の数値は根拠をもって決めているのか」という質問があり、「ユーザーに表示する記事の割合を使用したり、感覚的に決めているものがある」との回答がなされた。「スコアを求める時、最適化具合が記事の多様化の定義に影響するので重要だと思う」と言うコメントがあった。

2件目は、個人売買プラットフォーム出品者の実際の販売・コスト履歴データを例に、決定木CARTを用いることで中古商品の価値の分類を予測するモデルを作成し、どの決定変数が精度に影響を与えるかを考察するショート発表であった。質疑では、「供給側のみの視点で価格を予測している点が経済学者からは面白い」「扱う商品の例として、需要が急激に変わらないものをあげておくとよいのでは」「経済学のレビューをしてもらうとよい」等のコメントがなされた。「分類ではなく回帰を使うとよいのでは」というコメントがあり「今後の課題とする」という回答がなされた。

3件目のショート発表は、映画推薦におけるポスター画像の特徴と嗜好予測の正確性に関する分析というタイトルであった。ポスター画像の色彩や構図特徴のパターンによって映画を分類してそのパターンを映画の補助特徴とし、評価履歴と組み合わせたハイブリッド型推薦システムを実装している。質疑では、「内容ブーステッド協調フィルタリングにおける特徴量とFactorization Machinesにおける補助情報はどちらもKJ法で得たものか、なぜ表現が異なるのか」という質問があり、「どちらもKJ法で得ている。」という回答があった。「どのようなポスターがユーザーの興味をひくかなどの、ポスター画像の生成に応用できるとよいのでは」というコメントがあった。

4件目のショート発表は、Web情報探索における視線情報を活用した情報推薦システムの開発というタイトルであった。ユーザの視線に基づき、閲覧中のWebページのテキスト要素を取得した後、重要語解析や感情分析等の自然言語処理技術の活用により、ユーザが閲覧したページに関連する追加情報の取得に役立つ検索キーワードの推薦を行っている。質疑では、「検索エンジンに入力する単語を推薦するのではなく、ページを推薦すればよいのでは」という質問があり「将来的にはページを出せるとよいが、現時点ではどのようなサイトを見たいかという意図をくみ取れていないので、まず検索エンジンを利用している」という回答があった。「文書を対象としているが、画像を対象としないのか」という質問があり、「将来的には対象にしたい」という回答がなされた。

5件目は、観光行動抽出手法により非観光行動を除外したC/Iログを用いて代表的なPOI推薦システムを評価することで、非観光行動が推薦精度に与える影響を確認するという内容のショート発表であった。質疑では、「非観光行動にコンビニに行くことは含まれているか」という質問があり「含まれている」という回答があった。「非観光行動に何が含まれているか教えてほしい」という質問があった。この研究において、何が観光行動で何が非観光行動なのかという定義と、どうあるべきかの理想像についての質疑応答が行われた。

セッション3: CGM/SNS分析・応用

副座長:山本 岳洋(兵庫県立大学)

セッション3ではロング発表3件とショート発表1件があった。

1件目のロング発表では、Twitter上での論文の言及に着目した分析結果が報告された。論文の引用関係に基づく論文推薦システムの問題点を指摘し、引用関係に基づくネットワークとTwitter上での言及関係に基づくネットワークの特性の違いについての分析結果が報告された。質疑ではTwitter上で論文を言及するユーザが研究者以外にどのような属性になっているのか、そうしたユーザがどのような経路で論文の存在を知るのか、といった、Twitter上で論文を言及するユーザに関する分析の方向性について活発に議論がなされた。また、Twitter上での言及と論文の引用では論文が評価されるまでにかかる時間のスパンが異なると考えられるという指摘があり、発表者からは年ごとの分析を検討しているという回答があった。

2件目のロング発表では、Wikipediaの記事を編集する編集者情報を用いたエンティティの類似度計算手法およびエンティティ推薦に関する発表がなされた。たとえば、各映画の記事について、その記事を編集した編集者情報に基づく協調フィルタリングにより映画間の類似度を推定することで、商用システムのような評価データがなくとも、映画の推薦が可能となる。質疑では編集には内容の追加や削除など種類があり、それにより編集者間の類似度計算方法が異なるのではという指摘がなされ、発表者からは編集の種類や回数を考慮することを検討しているという回答があった。また、Wikipediaの概要文の取得方法に関する確認や評価方法に関する確認があった。

3件目のロング発表では、IBSと呼ばれるレビュワーのレーティングに基づいた店舗評価手法について、賄賂操作と呼ばれる攻撃手法に対する脆弱性の検証に関する発表がなされた。中華料理店過程を用いてレビュー数に偏りがある模擬市場を作成し、賄賂操作により評点がどのように影響がうけるのかを分析している。質疑では、正解なる真の評価値をどのように求めたのか、賄賂操作が現実においてどの程度実際に適用可能なのかなどのといった質問がなされた。

4件目のショート発表では、ソーシャルメディアにおける意見の分断化のモデル化に関する発表がなされた。これまでの研究における意見変化を明示的に扱ったモデルとは異なり、意見表明を行うことによるペナルティを考慮したモデルによりネットワーク上での意見の分断を説明可能なモデルの提案がなされた。質疑では、国により文化が異なる考えられ、そのような文化差をモデルのパラメータに組み込むことは可能か、現実世界では二極化した集団がある一方でそのような集団に無関心な集団もあり、そのようなモデル化が可能か、といいった質問がなされた。

セッション4: 情報推薦(2)・情報抽出

副座長:松村 敦(筑波大学)

セッション4ではロング発表2件とショート発表1件があった。

1件目のロング発表は,音楽知識共有プラットフォーム(Genius)に蓄積されている歌詞とそのアノテーションデータから,比喩などの詩的な言い換え表現を抽出する試みであった.提案手法では,文書の正規化の後にspaCyによる構文解析を行い詩的表現の種類を表す「中心語」を起点とし,ルールベースで詩的表現とその解釈のペアを抽出する.本研究では中心語を "metaphor", "analogy", "slang", "idiom"と固定した上で,詩的表現と解釈を抽出するための事前分析によりルールをを獲得した.実験として,559,811件のユーザ投稿データからペア抽出を行い,5,053件のペアの抽出に成功した.これらのデータについての考察を行なった. 質疑応答では,最初にanalogy, idiom, slang, metaphorのラベル付けについての確認があった.次に,対訳表現にノイズが含まれているかについての質問があり,発表者からは機械学習に利用できないものもあったが定量的な評価には至っていない旨が回答された.さらに,詩的な関係性を単語埋め込み表現で見ると面白いのではないかとのコメントがあり,今後の研究の展開について聞く質問があった.これに対して発表者は,歌詞データの言い換えやメタファー認識という方向性を示した.これに対してさらに質問者から,人間が面白いと思っている部分に着目するとAIが苦手なところであり面白いのではないかとコメントがあった.続いて,日本語に適用した場合の難しさ,英語でやった狙いについて質問があり,サンプル数の問題であることが回答された.さらに,メトミニー(換喩)という分野で,論理的な背景を調べると良いとコメントがあった.最後に,歌詞アノテーションの解釈が分かれるようなことは起こらないかという質問に対して,多数のユーザが考察した複数の解釈が出てくることが回答された.

2件目のロング発表は,認知度の低い観光スポットの情報が埋もれてしまうことを問題と捉え,認知度の影響を受けにくい観点を導入し,観光スポットとユーザのマッチングを試みた研究であった.本手法では,じゃらんnetの観光レビュー文を対象に12観点を設定し,12次元の観点ベクトルを定義した.観光スポットの観点ベクトルは,各観点に対する観光レビュー文の感情極性値とし,ユーザの興味ベクトルは,ユーザの投稿レビュー文における各観点の割合として求める.これらの観点ベクトル間のマッチングは,ベクトルの内積と余弦の2種類で評価を行った.実験は,既に投稿されているレビューデータの一部を推定対象とする擬似的な評価と,実際に被験者9名に対して提案手法による観光スポット推薦を行う被験者実験の2種類を行っている.その結果,低認知度だが一定の魅力あるスポットの推薦が可能であることが示された.質疑応答では,最初にベクトル演算のアルゴリズムに関する確認があり,ランキングの精度を上げるにはベクトルの間の行列の学習が重要ではないかとの指摘があった.続いて,ラベル付与の方法についての確認があり,マルチラベルの場合の観点(ラベル)同士の依存関係によって,学習すべき対象が異なってしまっている可能性が指摘された.発表者は,そのことを避けるためにレビュー文を一文単位に区切ってはいたが,複雑な多観点の文も存在し,その点の修正が今後の課題であるとの認識を示した.最後に,認知度が低い(レビュー件数が少ない)ものを拾うことが難しい理由として,レビュー件数が少ない分レビューを書いた人の観点への依存が大きいことがあるのではないかとの指摘があった.その上で,今後の改善のためには,どの程度のレビュー件数が必要かという見積もりを整理してみると良いのではないかとのアドバイスがあった.

3件目のショート発表は,将棋の対局観戦を支援するために,将棋解説文を自動生成する試みであった.そのために,局面や指し手の特徴量から解説すべき対象を判別し,判別した対象について自然言語で解説するというプロセスを想定している.本研究では,その第一歩として,将棋解説文の7つの構成要素を定義し,人手によるアノテーションにより将棋解説文コーパスを作成した.日本将棋連盟提供の名人戦棋譜速報の解説文付き棋譜から10000文を対象として5名によるアノテーションを実施した.本コーパスを事前学習言語モデル(BERTとT5)のファインチューニングに利用することで,自動判別実験を行い,その結果と考察を行なった. 質疑応答では,初めに解説文の作成手順と局面の定義についての確認があった.その上で解説文は指し手に応じて展開を予測する点が重要なポイントであることが指摘された.これに対して,探索の木を広げて解説する場所を検討することが課題であると回答があった.次に,コーパスのデータ量の影響についての質問があった.これに対して,シンプルな文は正確に予測可能であるが,データ量が多い要素の解説文に良く含まれるような表現によって大きく影響される場合があるとの回答があった.これを受けてデータ量を増やすことで面白くなるとのアドバイスがあった.最後に,ラベル付けで判断が割れたものがなかったかとの質問があり,複数のコマの関係性や盤面の一部/全体への言及の区別が難しく判断が割れることがあり,そのようなケースが比較的多くあったことが回答された.

運営委員会

実行統括担当:奥 健太(龍谷大学)  
プログラム担当:榊 剛史(株式会社ホットリンク)   
現地担当:林 良平(高知工科大学)
Web担当:柴田 祐樹(東京都立大学)