言語と計算により紡ぐ「新」森羅万象

2024-03-14

言語と計算により紡ぐ「新」森羅万象

　-1分、-1時間、-1日、-1週間、-1ヶ月、-1年、あまりにも世界の変化が目まぐるしいが故に「-1 〇〇」に過ごしていた生活環境、アクセスしていた情報環境、そして、考えていたことの根底が揺らいでおり、ここ最近は、妙な脳内フォグが立ち込めている。

　情報技術を手法として選択して何かを創ることに生きがいを見出している自分にとっては創ったものが情報空間に消失していく空虚さを強く実感しており、根底以外に基底をも意識しないと脳と身体が乖離してゆらゆらと時間軸のみが進行する状態で、いまさら始まったことではないが、物理現実を痕跡無く浮遊するだけになってしまうのではないか、手元のスマートフォンの画面に表示されている情報は幻覚なのではないか、この話題は、-n 秒の世界と+n秒の世界を隔てる出来事なのではないかと、謎の脅迫観念にも似たような疑問と、気の抜けない状態、論拠や寂念の不足が次から次へと湧いて出てくるのである。

と、数日だけ思っていた。

　冷静に考えると、言葉にならない感動を言語で切り取ることができさえすれば、あとは計算機の力を見方にどこまでも表現を拡張できる時代の到来であり、表現者にとっては、「これまでは手に届かなかったあの作り方」「細部に到達するまでの土台づくり」のような点において、時間軸を圧縮できる恩恵は必ず受け取ることができると考えている。

　最近、触ってみた主に映像表現に使えるであろう、機械学習、DeepLearning による手法、ツールのうち、個人的に多用するであろうと思っているのが以下の2つ（これもまた+1〇〇後には、-1〇〇では…と思っているのだろうが）

ShubhamらによりICCV2023で「Humans in 4D: Reconstructing and Tracking Humans with Transformers」の題で発表された単眼カメラで撮影されたビデオから人物のモーションをトラッキングできる手法であり、Blender addon としてCeb 4D Humans が公開されている。
Zhengyiらにより、arxivで公開された「CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model」は、わずか10秒で入力した画像から3Dモデルを再構成する技術。ComfyUI-3D-Packなどで公開されている。
Yicong らの「LRM: Large Reconstruction Model for Single Image to 3D」が参照されている、Tripo AI と Stability AIによる、TripoSRも、数秒で入力した画像から3Dモデルを再構成する。

Humans in 4D は、かなり高精度にポーズ推定していることが分かる。