はじめに
こんにちは
”医師で写真家でときどきプログラマな人間”でした
今回は自分のキャリアに大きな変更があったので、書き残そうかと思いました。といってもこれを書いてるのが9月(原版のnote)ですが、転職したのが5月だったのでもう半年近く前になります
以下、写真は面倒なので最近撮ったスナップショットを散りばめてます
(全てFujifilm X-E4 × Voigtlander 23mm F1.2で撮影した無加工の画像)
Stable Diffusionとの出会い
https://note.com/embed/notes/n55c551ffec96
noteの記事で書いた通り、ちょうど2022年の9月にStable Diffusionとの衝撃的な出会いを果たし、そこからつらつらと自分でモデルを作るのにハマっていました
またこちらのブログでもソール・ライターのモノクロ写真を再現してみるということにチャレンジしていました。
そして1月にいわゆる”リアルモデル”のローカライズ版(アジア人モデル)を発表しました
自分で言うのもなんですが当時としてはかなりの精度で、「衝撃」を与えたと思います。当時リアルモデルはBasil_mixくらいしかまともなのがなく、掲示板では「リアルモデルニキ」なんて呼ばれていました
レシピをある程度公開してるのもあって、その後は似たようモデルが沢山公開されたように思います
モデルづくりについては、2月に大規模fine-tuningで完全体のモデルを作って以来は細々と改良を続けています。またSD2系や沢山のLoRAモデルを作って研究しています
ちなみに自分の観測範囲では、リアルモデルに関して素でFinetuningしているのは日本人で自分が唯一だと思います。(調べが甘いかもしれないんだけど)
アジアンモデルについてはシンガポールの方(BRAの開発者)とあとアメリカ語を喋る人が観測範囲にいるくらいですね
大規模なFinetuningが凄いかはよく分かりませんが、Basil_Mix含め今のSD1系のモデルは基本マージ(混ぜもの)で作成されていて、如何にその混合比率を変えるかが主戦場です。(そっちのほうがUI上でボタンポチポチするだけでお手軽だから)
mergeがよく問題になるのは何が混ざっているか(商法ライセンスのものや悪名高いnovelAIリークモデルなど)がわからないところです
あとは新しい学習データセットを取り込んでいるわけではないので基本似たりよったりというのもあると思います
交流
1月にモデルを発表してからTwitterで発信していたところ、様々な方からカジュアルミーティングのお誘いがありました
大きな会社・ベンチャー・VCと相手は様々で、毎週2, 3件入るペースでした。あの頃は本当に楽しかったですね笑
実際、Awwという会社に声をかけていただき一緒にLoRAを制作させていただきました(AwwのIMAちゃんは知っていたので連絡いただいたときは本当に嬉しかったです)
当時のプレスリリース
色々な人と話すのが楽しかったですが、とりわけあるベンチャーの代表が熱心に技術的なバックグラウンドについて質問してくださり、よく議論を交わしていました(僕の方は特に本業でもなかったので、バックグラウンドについて聞かれたら隠すことなく答えてました、今思うと大盤振る舞い)
僕は職業プログラマでもないし、大学で情報・計算科学の基礎を学んだこともないのでおそらく頓珍漢な部分もあったと思います。しかしAIに詳しい人達とも議論ができてとても楽しかったです
ヘッドハンティング
そんなこんなで2月、3月があっという間に過ぎていきました
自分の技術がそれほど高いと思ってなかったのでスグに新しいモデルが沢山出現するかと思いきや、似たようなモデルしか出てこなかったのには、少し落胆しました(マージばかりなので直系子孫・血が濃い印象です)
この頃には、誰一人として大規模な画像セットでFinetuningしてないことも知りました
この時期は本業が医師なので日中は働きつつ、家に帰ったらワインを注入しながらAI開発・画像生成に没頭する日々でした(ご飯を食べるのもしばしば忘れるくらい)
これでは身体が保たなくなるし本業にも影響が出ると考え、3月中旬からは少しペースを落としていきました
そんな折、先程の熱心なベンチャーの代表から「医者辞めてこっちにこないか?」というお誘いがありました
最初はなにかの冗談か社交辞令かと思ってヘラヘラ返答していましたが、ミーティングするごとにその話題が出てきて本気度を感じました
またその口ぶりが、まるでジョブズがジョン・スカリーを引き抜いたときの殺し文句「このまま一生砂糖水を売り続けるつもりか?それとも世界を変えてみようと思わないか?」にそっくりで笑えたこともありました
僕としては代表の視座の高さ・技術力の高さ・頭のキレのよさに惚れてはいましたが、やはりその時点で即答はできませんでした
医師になるまでのサンクコストやこれからのキャリアについて思惑しました。そこで自分なりに出した結論としては「医者は待ってくれるけど、AIは待ってくれない」でした
一年後、同じようにAIの分野に行きたいと思ってもその頃には恐らく完全に周回遅れで、自分の技術が発揮できる可能性も低くなってると感じました
僕としては2022年のこのAI革命は、インターネットやiPhoneの登場と同じくらいのインパクトがあると思っています
そういう意味で運やタイミング・出会いだったのだなと振り返っています
また形式上はヘッドハンティングだったので、自分がこのように高い価値で売れるのも人生でこの一回ぐらいじゃないかと感じたのもあります
そんなこんなで辞める決意をし、両親に説明をし、病院長に説明をし、そこからはトントン拍子に事が進みました
恐らく自分の確信に迷いがなかったからこそスムーズに事が運んだのだと思います
また説明や報告した方たちが皆、優しい言葉や激励の言葉をくれて本当に嬉しかったです
残りの仕事を片付け、5月から今のベンチャーで正式にメンバーとして働いています
後で気づいたのですが僕がよく読んでいた技術ブログ、弊社の代表が書いてました。ブログのプロフィール見て「え?あ?この人か笑」となりましたね
(上記ストーリーは完全に僕の主観なので、代表側からすればシンプルなリクルーティングだったかもしれませんが笑)
これから
とりあえず、画像生成の民主化をしたいです
そのために今の会社で開発を続けています
具体的なことは言えませんが、いつかみんなが僕のモデルとその画像生成フローを使って簡単に画像生成できるようになったらなと夢想しています
他のメンバーと比較するとプログラミング能力がエケチェンレベルなので、そこも底上げしたいですね
また自分のベースが医学にあるので、いつかはそこで恩返しできたらと思っています(代表にも口約束ですが、今の開発が終わったらいつか医療AIもやりたい!!と言ってます。どこまで実現できるかはわかりませんが笑)
医療×AIというと画像解析分野が特に活発ですが、自分はどちらかと言えばいち研究者として解析するよりもプラットフォームづくりに興味があります
要するにこのMedPerfをローカライズして、医療画像版 Hugging Faceのような学習モデルが共有できるインフラを構築したいです
他にも医療DXの分野で言語モデルや音声合成などのAIの可能性を追求していきたいです
ちなみにですが今の年収に、一切医学は介在しておりません(たぶん他のメンバーも自分の前職を知らない可能性が・・)
今は画像生成AIやその周辺のエンジニアリングを中心に頑張っています
自分の強み
この記事はほとんど自己満足と記録なので自分を過度に売り出す目的はありません
ただ一応記録として書いておこうかなと(数年後の自分が気づかない強みというのもあるかもしれませんし)
とりあえず面倒なので列挙
- 基礎学力
- 英語に臆しない
- 医学ちょっと知ってる
- プログラミングちょっと知ってる
- AIちょっと知ってる
- CG以外のGUIソフトなら大抵使える
- Adobe系列は一応全部さわれる(Lightroomは本かけるくらい)
- 写真ちょっと知ってる(=画像系の扱いも慣れてる)
- 人間Aesthetic機(人間エステティックマシーン)
基礎学力は一流(海外大学・東大京大)と比べるとカスですが、文章はある程度読めます
英語も喋るのは拙いですが、読むのには基本苦労しません(最近は翻訳機能が優秀なのでざっと日本語で読んでからということも可能)医学はもちろんAI系の新しい論文や仕様は英語が基本なので、英語が読めないだけでドロップアウトすると思います
医学は一応専門として6年間学んでるので、ちょっと知ってると思います
プログラミングは赤ちゃんレベルですが、頑張って吸収中です。Web系ならhtml/css全て手書きの古文書レベルサイトから、CMSのWordpress/Shopify、また今どき?なJAMStack構成(Gatsby)のブログ開発したことがあります。普段はAIの開発関係なのでPythonがメインです。最近はbackendなどのFastAPIも熱い
AIはちょっと知ってます。生成系がメインですが、広く浅くがモットーです
興味のおもむくままに、LLM(ChatGPTなどの大規模言語モデル)や音声合成・生成も遊んでいます
GUIソフトならだいたい使えます。DTMも一応細々とやってます(Logic 9から使ってる)Figmaやデザインソフトも触るだけなら。本業のデザイナーには笑われると思いますが、程度の低いモックを作ることくらいはできます。CGは難しいので論外
Adobe系列は基礎動作は問題ないです。一番得意なのはLightroomですが、イラレ・フォトショを始めPremiere/After Effectsも触るだけなら。Character Animatorちょっと勉強中です
写真ちょっと知ってます。メイン機材はα7Ⅲと35mmGM, 85mmGMです
転職祝いにLEICA Q3買いました(まだ届いてません)
写真の賞は小さいのもあわせると受賞しすぎてて覚えていません。景色メインでしたがここ数年はポートレイト(人物)メインです
人間Aesthetic機
今の生成系AIは手法もさることながら、データセットが物を言う世界ですLLM(言語モデル)開発でも如何に良質な対話セットを大量に集めるかが重要だと聞きます
画像に関しては大規模画像セットをどう集めるかがキーです。Stable DiffusionやNovel AI, Waifu DiffusionなどにはAesthetic判定プログラムがあります。ようは画像が美的に問題ないかをAIで判定するプログラムです。それを僕は、自分の目で行います。アナログですが一番効果的(沢山のゴミ集めて、そこからゴミかき分けて、結局ゴミを拾い上げるの良くないねの方針)
画像は美的感覚に直結するので、前処理も大事ですね。どこまで圧縮するかとか。個人的にはWaifu Diffusionのわりと最初のほうからbinary化する手法はあまり良くないのでは?と思っています
LLMがその多様性や柔軟性が重視されるのに対して、写真をしている自分としては「画像の美しさには類型がある」という思想が根底にあるので、データセットの数はもちろん、その質的な部分がウェイトを占めると思っています
特に最近画像データの扱いについては、AI・機械学習に詳しい人でも結構悪手な実装をしていると感じる点があります。画像をRGBの値が列挙されたデータとしてだけ捉えるとこうなってしまうのかなと
そんなこんなでこんな長文・駄文に付き合ってくださってありがとうございました
ここまで読んでくださった方には本当に感謝です
多分あまり有益な情報は出せませんが、ぜひ気軽に絡んでください
では、ばいちゃ!