メインコンテンツ
専門は計算機科学のデータマネジメント領域
ビッグデータ時代に求められるデータマネジメントの重要性
わからないことがあれば、Googleをはじめとする検索エンジンにキーワードを入力して情報を探すことは、すでに30年以上にわたり私たちの日常に定着している。近年では、生成AIに問いかけて回答を得ることも一般化しつつある。こうした仕組みの背後には、膨大なデータをいかに整理し、正しく活用するかという「データマネジメント」の力がある。
「データマネジメントとは、データを登録・整理し、必要に応じて検索できるようにすることです。計算機の仕組みを大きく分けると、“計算を行う部分”と“データを保持する部分”の二つがあります。前者の代表例が生成AIなどの計算処理ですが、その根幹を支えるのは後者、すなわちデータの扱い方です。入力した情報が正しく保存されているか、社会の変化に応じて内容が古びていないか、そしてデータがどの程度信頼できるものか。こういった点を管理することも、データマネジメントの重要な役割です」
そう語るのは、データマネジメントを専門とするリベラルアーツ学群の野間唯准教授だ。データマネジメントの中核をなすのがデータベースであり、これは電子的に格納された構造化データの集合体を指す。ネットワーク型、階層型、リレーショナル型など、技術の発展とともに多様な形で進化を遂げてきた。近年ではWebサービスやSNS、IoTなどの普及に伴い、NoSQL型と呼ばれる柔軟なデータベースも登場している。そして、2010年代以降に加速した「ビッグデータ」時代において、データマネジメントは単なる技術ではなく、信頼性ある情報社会を支えるための基盤的な知として、ますますその重要性を高めている。
ISPH法によるデータの類似検索
膨大な情報のなかから、いかに効率的に必要なデータを取り出すか。その課題に応える技術の一つが「類似性検索」である。野間准教授は、多様なデータから容易に似たものを探し出す仕組みの開発に取り組んできた。
「ビッグデータの時代には、単純な検索では処理に時間がかかりすぎます。そこで用いられるのが“ハッシュ化”です。これは簡単にいうと、データを短い数字や文字列に変換することです。似たデータが似たハッシュ値を持つように設計すれば、膨大なデータから類似のものを一気に探すことができます」
なかでも野間准教授が注目したのが、逆立体投影ハッシング(ISPH:Inverse Stereographic Projection Hashing)という手法だ。ISPHは高次元データ(画像や音声、テキストの特徴量など)を球面上にマッピングし、データ間の幾何学的な距離を用いることで、より精度の高い類似検索を可能にする。
「たとえば、宇宙空間を思い浮かべてみてください。近くにある星どうしを“似ているデータ”と見なすと、従来の方法では“方向”はわかっても、“距離”の違いまでは表せませんでした。しかし、類似性を正確にとらえるには、この距離の情報が欠かせません。そこで私は、角度だけでなく距離も同時に扱えるよう、xy平面にもう1次元を加え、3次元空間上に球体をマッピングする方法を考えました。こうすることで、類似データをより的確に見つけやすくなるのです」
データマネジメントには、「認識の違い」も問題になる
膨大なデータから情報を探し出すとき、単に「似たもの」を検索するだけでは十分ではない。データを真に活用するには、データが持つ「意味」や「文脈」をどのように扱うかも重要になると野間准教授は語る。あるデータ同士が同じ意味を示すのか、それとも微妙に異なるニュアンスを持つのか。そうした認識の差も考慮に入れていかなければいけないのだ。
「たとえば、街頭カメラの画像認識を例にしましょう。ある商店街では“歩行者数”として記録し、別の商店街では“人流”として計測している。言葉は違っても、指している対象は同じ場合があります。両者を統合すれば、より質の高いデータとして活用することができるでしょう。しかし、実際にコンピュータで統合的に処理するとなると、この言葉の違いを処理するのが難しかったりします」
こうした問題は、単に定義を統一すれば解決するわけではない。むしろ「完全にユニークな定義」を設けてしまうと、その後に新しい視点からデータを読み解く柔軟性を失ってしまいかねない。
また、データの整理や基盤の構築には、設計者の無意識のバイアスも反映されやすいという。現在のAIはインターネット上の膨大なデータを学習して精度を高めているが、その情報源が偏っていれば、AIの出力結果にも偏りが生じる。たとえば、白人のデータが多ければ多様性に欠けた判断を導いてしまう可能性がある。定義を統一しすぎると、こうしたバイアスを固定化してしまう恐れも出てくる。
「データを統一すれば確かに処理はラクになります。しかし、新しい視点を取り入れようとしたときに柔軟に動けなくなるのです。だからこそ、完全な統一ではなく、“統一しない部分”をあえて残すことも必要だと考えています。ただし、その矛盾を管理するのは非常に面倒です。そこで私は、もう少し“ラクに扱える”仕組みを模索しています。たとえば、GUI上に言葉を並べ、“これとこれは同じ意味では?”と人が直感的に判断できるようにする。そんな、類似検索の考え方を応用したアプリケーションの開発にも取り組んでいます」
もともとは素粒子理論の研究に取り組んでいた
物理学が好きだった学生時代
野間准教授は、データマネジメントを専門とする以前は、素粒子理論を研究していた。幼い頃から科学雑誌に親しみ、当時流行していた超弦理論に魅了される一方で、UFOやオカルト、宇宙人といった未知の存在にも強く惹かれていたという。「この世界の外には何があるのか」「この世界は何でできているのか」——そうした根源的な問いが、研究の原点だった。
「高校時代は物理学が好きでした。数学も得意でしたが、それを実際に応用できる物理学に惹かれました。そこで専門は物理学にし、素粒子理論を選びました。物理学をやるなら実験もできなければと思い、ストロンチウムを使ったβ崩壊の実験を行っていました」
ストロンチウムは不安定な物質で、自然に崩壊して電子を放出する。その電子の回転の向きが時計回りか反時計回りかを調べることで、物理学における「パリティ対称性(鏡に映したときの対称性)」の破れを観測・検証することが目的だった。
「3次元空間をxyz軸で表現しますよね。それを鏡に映したとき、物理法則がそのまま成り立つかどうかを“パリティ対称性”と呼びます。この対称性は、ある条件では破れていることは知られていましたが、それを測定するのは難しい。飛んでくる電子を磁石で曲げて鉄の膜に当て、その散乱の様子を観察する必要がありました。問題は、電子をどうやって狙った位置に当てるか。磁石で曲げようとしても、なかなか思うようにいかない。そこで、磁石の配置をシミュレーションで最適化し、実験場で調整していったのです。実験を支援するための電磁石は、企業に依頼して開発してもらったものでした」
実験は、物理学の運動方程式をもとに数値計算を繰り返し、磁石の電流や配置を調整しながら進められた。粒子は不安定に飛び出し、エネルギーや速度、角度も多様であるため、考慮すべき条件は複雑だったという。
「当時は2000年代初めで、パソコンの性能も今ほど高くはなく、計算はとても遅かったですね。パラメータを20種類ほど設定してシミュレーションを実行し、グラフをプロットして挙動を確認する仕組みをつくっていました。計算の可視化に力を入れたのです。もちろん処理はさらに重くなりますが、基礎研究ですから急ぐ必要はなく、むしろ一つひとつ丁寧に確かめていくことが大切でした」
古典と量子の間に潜む謎に迫る
その後の研究では、素粒子理論のなかでも古典力学と量子力学の狭間にある分野に取り組んだという。
「量子的でありながら古典的な振る舞いを示す領域があります。それは、トポロジー(位相幾何学)の観点から説明できるのです。たとえば、ロープのねじれを高次元空間で表すようなイメージです。こうした発想の背景には、完全に否定されてはいるものの、物理学の世界に息づくSF的な思考実験がありました。たとえば、プラスとマイナスの電荷の間には電磁場が生じます。それを高次元的に捉えると、両者をつなぐ“ワームホール”のような構造が存在するのではないか。そんな発想です」
似た議論として、ブラックホールとホワイトホールの関係があるという。ブラックホールがあらゆるものを吸い込む口であるなら、逆にすべてを吐き出すホワイトホールが存在するのではないか。もし両者がどこかでつながっているとすれば、宇宙の成り立ちを考えるうえで非常に興味深い構造になる。
「もちろん、これらはSFに近い仮説ですので、学術的には否定されています。しかし、どこまでが空想で、どこまでが理論的に考えられるのか。その境界に強い関心がありました」
これからのデータマネジメントのあり方とは?
データを管理するには、IT技術だけでなく人文社会科学の視点も不可欠
博士号取得後にポスドクを経て、プログラマーとして就職したことをきっかけに、野間准教授はコンピュータサイエンスの世界に足を踏み入れた。
「理論的に考えるのが好きでしたし、数学の素養もあったので、比較的早くプログラマーのなかでも研究寄りの仕事、機械学習などのAI分野に携わるようになりました。ただ2010年代初頭は、まだライブラリも整備されておらず、論文に掲載された手法をもとに自分でコードを書き、試行錯誤する時代でした。論文を読み解き、実装し、アルゴリズムを組み立てられる人材は限られていたので、当時は重宝されたと思います」
しかし、機械学習などを追究するうちに大きな課題に直面する。当時はまだまだ与えるデータの量や質が不十分だったのだ。この課題を通じて、野間准教授は技術の土台となる「データマネジメント」の重要性に気づくことになった。
「また、データといっても種類はさまざまです。たとえばロボットアームの稼働データのような機械系のデータもあれば、個人情報のような属性情報もあります。企業にとって価値が高いのは往々にして後者ですが、無制限に収集すれば問題が生じます。欧州ではGDPR(EU一般データ保護規則)のように個人情報を厳格に扱う仕組みがありますし、データを扱うエンジニア側も、単に技術を理解するだけでなく、法制度や社会的ルールを理解していなければならないのです」
実際、日本でも2013年にあったSuicaデータの外部提供をめぐる騒動など、社会的に注目された事例を通して、人に依る運用といった観点でのデータの扱い方の重要性にも目を向けざるを得なくなった。企業の研究職として活動するなかで、データのガバナンスにも配慮することが求められるようになっていったと野間准教授は語る。
人々の共通認識と技術基盤の両輪で模索することが大切
「データマネジメントのあり方を、どのように整えていくべきか。その答えの一つは、多くの人々のリテラシーを高め、社会全体で共通の理解を築くことにあると考えています。何が許され、何が許されないのかという線引きが明確にされ、その合意のもとで情報の流通やデータマネジメントの仕組みが形づくられていくべきだと思っています」
野間准教授は、技術の浸透が社会的合意とともに進んできたことを強調する。たとえばQRコード決済は、10年前には想像もされなかったが、今では日常の風景の一部となった。スマートフォンにクレジットカード情報を登録して支払いを行う仕組みや、暗号資産のように文字列のやり取りだけで価値が移転する仕組みも一般化している。さらに近年では、生成AIが日常的なツールとして受け入れられるようになった。これらはいずれも、人々の意識の変化と社会的な受容が新しい技術の定着を支えてきた好例だという。
「技術の発展によって私たちの生活は確かに便利になりましたが、それを支えるのは社会的合意と技術的ガバナンスの両輪です。現状では多くの仕組みが自己管理に委ねられていますが、個人の判断だけでは限界があります。たとえばCookieの同意も、内容を十分理解しないまま“同意”を押している人がほとんどでしょう。それでも最終的には人間が意思決定しているわけで、重要なのは“一定の容認”と“判断可能な透明性を備えた環境”を確保することです。本来は一人ひとりが主体的に考え、意思決定できるのが理想ですが、それが難しい現実があるからこそ、より良いデータマネジメントの仕組みを模索する必要があります。そのために、政府や企業も社会的責任を果たすことが求められるのだと思います」
データが溢れる時代において、人材育成も大切
データで物事を考えられる人を育てる
情報機器の高度化や小型化により、あらゆるものがデータ化され、その量は膨大になっている現代社会。しかし、それを的確に扱えられる人材は依然として限られていると野間准教授は語る。
「データを処理するツールを使えるだけでは不十分で、そもそも“データを通して世界を捉える視点”を持つ人がまだ少ないのです。私の『データベース』という授業では、単に計算やプログラミングのスキルを学ぶのではなく、事象をどうデータとして捉えるかを身につけてほしいと考えています。現実の出来事を文字や数値に落とし込む過程にこそ本質があります。計算が得意なだけなら、いずれ生成AIに代替されてしまうでしょう。大切なのは、現実にある世界をコンピュータの世界でどう表現するかを自ら考えられる力なのです」
社会全体にとっても、データを可視化し、それを基点に物事を考えられる仕組みが求められているという。たとえば、電気自動車などのバッテリーは製造時に多くのCO2を排出する。また、原材料の採取から製造・流通までにどれだけCO2を排出しているか、さらには廃棄・リサイクル時にどのように処理しているかがわかれば、消費者としてもより賢い選択ができるようになるだろう。こうしたデータは従来、企業の非公開情報だったが、近年では法規制にともない共有の動きが広がっているという。データという観点で物事を捉えられる人が増えていくことで、こうした可視化が進み、より良い社会の意思決定にもつながるかもしれないと野間准教授は語る。
「保存や整理、検索といった方法論を含め、あらゆる物事をデータとして捉え、頭の中に自分なりのデータベースを築いていく。そんなプロセスにこそ面白さがあり、私の研究の原動力にもなっています。こうした世界に魅力を感じてくれる人材をどんどん育成していきたいですね」
教員紹介
Profile
野間 唯准教授
Yui Noma
1981年神奈川県出身。大阪大学大学院で博士(理学)を取得。当時の専門は素粒子理論物理学。博士研究員や民間企業勤めを経て、株式会社富士通研究所(現 富士通株式会社)に入社。富士通にて企業研究員および研究部門のマネージメントを担当。2023年4月、桜美林大学リベラルアーツ学群に着任。
教員情報をみる
