1: けんもですの 2024/02/28(水) 21:03:49.07 ID:jm46InH00.net BE:666250534-2BP(1000)
WirelessWire News
『1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も』
https://wirelesswire.jp/2024/02/86094/

Microsoftの中国チームがとてつもないLLMをリリースした。それが「BitNet 1.58Bits」だ。

もともとMicrosoftはかねてから「1ビット量子化」の研究を続けて来た。しかし、32ビット浮動小数点での計算が主流な時代にはあまりに野心的で荒唐無稽なプロジェクトに見えていたのは否めない。しかし、現在、大規模言語モデル(LLM;Large Language Model)は8ビット、4ビットで量子化されるのが当たり前になり、量子化しても性能劣化はある程度まで抑えられることも知られるようになった。

昨年10月に発表した「BitNet」は、多くの人々が他のことに気を取られていてほとんど話題にならなかった。
そんな中、満を持して発表された1ビットLLMの性能に関するレポートは、衝撃的と言っていい内容だ。論文のタイトルも堂々と「The Era of 1-bit LLM(1ビットLLMの時代)」としている。

彼らが発表したグラフを引用しよう。

no title

まず、最近主流になっている70B(700億)パラメータモデルでの比較である。Llamaの70BとBitNetの70Bモデルを比較すると、BitNetは8.9倍のスループットを誇るという。

「速いだけで回答が微妙なのでは」と心配するのが普通だろう。
そこでLlamaモデルとの比較が載っている。

no title

この表によると、BitNetはLlamaよりも3倍高速でしかも高精度ということになる。
PPLは「困惑」の度合いを意味する数値で、低いほど「困惑してない」ことになる。Llamaよりも性能劣化してないどころか性能は上がっている。

また、各種ベンチマークにおいても平均点は同規模のBitNetがLlamaを上回っている。しかもBitNetは規模が大きくなるほどLlamaに対して優位に立つようになっている。

この圧倒的なスピードの秘密は、BitNetが文字通り「1ビットで処理している」からだ。

no title

2: けんもですの 2024/02/28(水) 21:04:01.75 ID:jm46InH00.net BE:666250534-2BP(1000)
通常、LLMをふくむディープラーニングされたニューラルネットは巨大な行列の積和演算(掛け算と足し算)を必要とする。
推論時も学習時もそうだ。

しかし、1ビット、つまり、行列の中身が0か1しかないのであれば、全ての計算を加算演算のみにできる。
加算と乗算では計算速度も負荷も段違いに異なるため、これだけのスピードの差が出ている。また、当然ながらメモリ効率も高い。

このため、この論文では「積和演算に最適化されたGPUではなく、加算処理のみに特化した新しいハードウェアの出現」までもが予言されている。
今現在、世界各国が血眼になってGPUを確保し、囲い込んでいることを考えると、実に痛快な論文だ。

非常に驚異的なことが書いてあるのだが、残念ながらBitNetによるLLMの実装とモデルはまだ公開されていない。
だから彼らの主張が本当かどうかはまだ誰にもわからないのだが、BitNetTransformerの実装だけは公開されているため、腕に覚えがあるエンジニアなら自分でトレーニングコードを書いて確かめることができる。

いずれにせよ、 この論文が本当だとしたら、とんでもないことが起きることになる。
この業界に居て長いが、本当にいつもいつも、こんなニュースに触れて興奮できるこの時代を生きる我々は幸運としか言えない。
もちろん筆者もBitNetを試してみるつもりだ。

3: けんもですの 2024/02/28(水) 21:04:14.43 ID:jm46InH00.net BE:666250534-2BP(1000)
【論文】
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
1 ビット LLM の時代: すべての大規模言語モデルは 1.58 ビット
https://huggingface.co/papers/2402.17764

4: けんもですの 2024/02/28(水) 21:04:22.61 ID:jm46InH00.net BE:666250534-2BP(1000)
Xの反応

no title

no title

56: けんもですの 2024/02/28(水) 21:19:58.32 ID:voITPUzba.net
>>2
学習する時点で最初から1.58bitなの?

67: けんもですの 2024/02/28(水) 21:22:25.46 ID:zcnSYerV0.net
>>56
それはないんじゃないの
1.58bに量子化するんしょ多分
でもそれでちゃんと動くとは思わなかった
嘘のようなホントの話
イソジン

5: けんもですの 2024/02/28(水) 21:05:19.66 ID:LytqI1Jn0.net
AIって意外と精度いらんらしいな

7: けんもですの 2024/02/28(水) 21:05:55.99 ID:HvgJppYI0.net
まあNVIDIAもMSFチームだからええんやない

12: けんもですの 2024/02/28(水) 21:07:38.84 ID:MCr/rwXr0.net
切り捨てが発生しないから精度よくなるんか?

20: けんもですの 2024/02/28(水) 21:10:38.34 ID:v+ywFOJd0.net
面白そうね

21: けんもですの 2024/02/28(水) 21:10:48.62 ID:wpKbrTTI0.net
これ抜きにしてもヌビダビスの株価の上がり方は流石に垂直すぎてバブルやろ

23: けんもですの 2024/02/28(水) 21:11:27.90 ID:N/11bhOO0.net
謎の企業の決算前に発表すればよかったのにやさちいね

24: けんもですの 2024/02/28(水) 21:11:58.64 ID:BFAI+HMv0.net
中身を1と0と-1で表現してる
なので4値の2bitではないけど3値必要なので正確には1.58bit

こうすることでかけ算があったはずの行列の計算を強制的に足し算引き算無の3種類に落とし込める
加えて演算を進めていくにつれて浮動小数だとノイズが混じっていくが、こっちは精度が落ちようがない

320: けんもですの 2024/02/29(木) 02:05:53.05 ID:TjRwNI5N0GARLIC.net
>>24
2値1bit←わかる
4値2bit←わかる

3値1.58bit←what???

35: けんもですの 2024/02/28(水) 21:14:26.92 ID:+WXhHKzP0.net
なるほど分からん

26: けんもですの 2024/02/28(水) 21:12:47.55 ID:4P6+jUjK0.net
実用化は20年後かな

29: けんもですの 2024/02/28(水) 21:13:20.66 ID:EFwNuqcs0.net
お前らいつもエヌビ捨ててんな

31: けんもですの 2024/02/28(水) 21:13:42.77 ID:62l6X4HDd.net
つまりどういう事なんだよ

32: けんもですの 2024/02/28(水) 21:13:58.72 ID:sVxU7VpP0.net
行列演算の手続きを加法一本にして単純化したわけか
誰でも思い付きそうだが何が技術的に難しいんだろう?

33: けんもですの 2024/02/28(水) 21:14:07.66 ID:itfLqwwS0.net
これbit低くなる事に精度下がるんだろ

34: けんもですの 2024/02/28(水) 21:14:16.92 ID:fkatMcul0.net
俺のマイクロソフト株が爆上げするんか?

36: けんもですの 2024/02/28(水) 21:14:47.66 ID:62l6X4HDd.net
1ビット脳とかバカにされてたのどうして

39: けんもですの 2024/02/28(水) 21:15:22.46 ID:VlGpVYeB0.net
難し過ぎてわからん

44: けんもですの 2024/02/28(水) 21:16:21.75 ID:fkatMcul0.net
まさか1ビット脳が高評価される時代になるとはな

45: けんもですの 2024/02/28(水) 21:16:45.17 ID:U1UNo/eM0.net
なんか結局GPUにMapして並列化する方が早いで終わりそうな気がするが

47: けんもですの 2024/02/28(水) 21:17:08.48 ID:kNC0LStQ0.net
そこまでNividaのプレが下がってる訳でも無いしMicrosoftのプレが上がってる訳でも無いな
様子をうかがっている段階か

48: けんもですの 2024/02/28(水) 21:17:23.53 ID:LVGmqD9M0.net
NVIDIA爆下げしてくれ
株界隈が面白くなるぞ

49: けんもですの 2024/02/28(水) 21:17:28.92 ID:Y+q2yOj80.net
要はAIの学習法でもっと良いのがありましたってことだよな

63: けんもですの 2024/02/28(水) 21:21:38.78 ID:itfLqwwS0.net
>>49
これは学習じゃなくて学習済みモデルに対してやね
たぶん

51: けんもですの 2024/02/28(水) 21:17:39.64 ID:v/CIiXg50.net
難しすぎて凄さがまったくわからんwww

61: けんもですの 2024/02/28(水) 21:21:05.93 ID:U1UNo/eM0.net
>>51
ものすごく大雑把に言うと
GPUで強引に計算するくらいならSSDにもっとクソデカい容量取って代わりに計算そのものを簡単にしようぜ
くらいの理解でいいよ

ぶっちゃけどうせ直ぐ並列化されてGPU使えるようになって終わると思う

112: けんもですの 2024/02/28(水) 21:39:19.04 ID:nP6K9bqC0.net
>>61
聞く感じだとGPUの利用効率も格段に上がるってことになるのかな

今サーバーサイドでやってる演算がエッジで出来るようになるのと
サーバーサイドではGPUと専用ハードウェアでより巨大で強力なAIが実現出来るようになるとか?

125: けんもですの 2024/02/28(水) 21:44:15.07 ID:BFAI+HMv0.net
>>112
GPUはa*b+cっていうかけ算をした後に足すという操作に特化してて
かけ算をする回路がかなりの面積を取ってる
今回のだとaは1(と-1)か0なのでかけ算する必要が無くなるから
シリコン面積あたりの利用効率だととんでもなく悪くなる

62: けんもですの 2024/02/28(水) 21:21:29.37 ID:0crEAX1n0.net
AI界隈はこの調子でしばらく話題が尽きる事は無いのだろうな
見ていると下手なクソ海外ドラマより面白い

64: けんもですの 2024/02/28(水) 21:21:42.70 ID:I2RiTZH90.net
あんま影響ないやつやね

66: けんもですの 2024/02/28(水) 21:22:00.15 ID:8lFKenG60.net
下げたら買う
それよりビットコインの方がやべえやろ
量子コンピュータリスクもある

68: けんもですの 2024/02/28(水) 21:23:51.89 ID:Vsz7TOUS0.net
俺の16bitメガドライブが火を吹くぜ

70: けんもですの 2024/02/28(水) 21:24:38.83 ID:rFIChIaB0.net
うーん なんかホログラムディスクで容量何万倍みたいな話に思える
いつ市販されるのこれ?本当にモノになるのか?

71: けんもですの 2024/02/28(水) 21:25:04.70 ID:58QbAF930.net
働かないで暮らせるようにしてよ

72: けんもですの 2024/02/28(水) 21:25:25.77 ID:WJ5+IRSr0.net
画像AIの計算方法も改善出来るなら凄いけどどうなん
遅すぎて辛いんよ

88: けんもですの 2024/02/28(水) 21:33:02.85 ID:zcnSYerV0.net
>>72
Can be utilized not just for text but for images and maybe even video or audio processing

だってさ
凄えぞ大丈夫かこれ

95: けんもですの 2024/02/28(水) 21:35:09.28 ID:WJ5+IRSr0.net
>>88
ほー
でも量子化はどうせ質が落ちるから怪しいなぁ
超伝導のアレみたいな雰囲気もあるし
はよテスト版出してや

73: けんもですの 2024/02/28(水) 21:25:47.69 ID:q73vLYO/0.net
まぁ実用化は数十年後とかやろ
それまではNvidiaが無双するっしょ

77: けんもですの 2024/02/28(水) 21:27:50.24 ID:XYnIVTgM0.net
NVIDIAだってAI向けのGPU出してるぐらいだしな
AIに需要あるのかわからん時代ならもともとゲーム用のGPUを流用するのが当然だけど
今後はPCにはグラボじゃなくAI専用ボードを搭載するのが自然な流れかもしれん

78: けんもですの 2024/02/28(水) 21:28:11.58 ID:ILUTrwDG0.net
凄いの出てきたぞ(;´Д`)

画像と音声だけで表現力豊かなポートレート動画を作成する画期的なAI


(deleted an unsolicited ad)

79: けんもですの 2024/02/28(水) 21:28:18.41 ID:aGQX6L2D0.net
イカン、1bit脳が凄い賢そうに見えてしまう

84: けんもですの 2024/02/28(水) 21:30:14.13 ID:H32Sa4+U0.net
昔から量子化したモデルでも性能はそんなに落ちないって言われてるんだわ
ハードウェアが変わろうと学習時にはやっぱり-1,0,1だとうまくいかないから推論専用な気がする
それにどうせそれがベストになったとしてもCUDAの乗算が要らないってだけで足し算引き算の機能はいるんでしょ

94: けんもですの 2024/02/28(水) 21:34:19.44 ID:BFAI+HMv0.net
>>84
GPUが転用されてるのは積和演算器がバケモノみたいな量乗ってるからで
加算器のみでいけるのなら回路がとんでもなく小さくなるしネットワークも回路上に載る可能性がある
そうなるとFPGAの出番で二大メーカーは少し前にAMDとIntelに買収されているというね

87: けんもですの 2024/02/28(水) 21:31:40.28 ID:npb+1QnM0.net
行列演算から乗算が不要になるってだけだからNVIDIAの時代は終わらんし、Tensorコアみたいに専用コアがGPUに搭載されるようになるだろうな

116: けんもですの 2024/02/28(水) 21:40:34.63 ID:aGQX6L2D0.net
>>87
GPUに載ってる時点で無駄なんだわ
互換性のために従来のTensorコアもずっと載せ続けないといけない=その分高くなる
AMDはCPUにFPGAでNPUを搭載する方針だから後から回路の書き換えが可能

91: けんもですの 2024/02/28(水) 21:33:28.03 ID:UbgbAeMU0.net
何言ってるかよく分かんないんだけど

106: けんもですの 2024/02/28(水) 21:37:11.35 ID:YHNdojGx0.net
元々データセンター向けにAIに特化したNPUを作ってたんだからますますNvidiaが強くなるに決まってるだろ

113: けんもですの 2024/02/28(水) 21:39:55.56 ID:q73vLYO/0.net
>>106
まぁせやな
これ使うと理論値で9倍速くなるらしいけど
GPUは並列処理に特化してる演算性能があるわけで
最先端プロセスのGPUでこのソフト使う流れになるだけだわな

114: けんもですの 2024/02/28(水) 21:40:06.85 ID:iSdlRGuJ0.net
結局
CPU+GPU演算にいきつきそうなんだがw

117: けんもですの 2024/02/28(水) 21:42:06.39 ID:nP6K9bqC0.net
>>114
もう少し正確にはCPU+GPU+NPUだと思う

138: けんもですの 2024/02/28(水) 21:46:45.88 ID:/bpd07vY0.net
>>117
AIでGPUは使わなくなるだろ
NPUをたくさん載せたサーバになる

121: けんもですの 2024/02/28(水) 21:42:54.58 ID:MRP8tmWy0.net
アムドに対抗してアルテラ買収して金なくなってンビディア買う金ねンだわってなったのがインテル

122: けんもですの 2024/02/28(水) 21:43:13.93 ID:ky9DsKfe0.net
それも並列化してGPU使ったほうが速いんだろ?

130: けんもですの 2024/02/28(水) 21:45:09.73 ID:0crEAX1n0.net
これ用の専用のハードを作ったら更に速くなるって言っている人がいるな面白い

134: けんもですの 2024/02/28(水) 21:46:04.00 ID:Vvr8E5fY0.net
NNの2値化/3値化なんてBinaryNetとか何年も前から研究されとんねん
それでも結局エッジの推論でしか使えないつってんだからNvidiaの優位は揺るがん

142: けんもですの 2024/02/28(水) 21:47:53.67 ID:q73vLYO/0.net
CUDAプログラミングの独占は崩れそうだから
AMDもワンチャンある感じはするな
今AMD株買える奴だけが億り人になれる
・・・・かもしれん

146: けんもですの 2024/02/28(水) 21:49:23.51 ID:MRP8tmWy0.net
>>142
独占してるから儲かるんであって、技術的に追いついても儲からねンだわ

143: けんもですの 2024/02/28(水) 21:49:17.25 ID:B7foGuaD0.net
重要なのはコスパとか性能なわけで
単純にこっちのほうが性能が上なら
GPU使うAIは誰も使う理由がなくなる

144: けんもですの 2024/02/28(水) 21:49:20.23 ID:62l6X4HDd.net
どんどん技術進化してるけど
一切ついていけてないわ

147: けんもですの 2024/02/28(水) 21:49:27.37 ID:7/mZdEkJ0.net
AIの行列演算てfloatでも64bitや32bitではなく16bit(16FP)だと思ってたわ
8bit整数でやってる所もあるが、4bitで良くね?って話はあったにしろ1bitはさすがにどうなの…

148: けんもですの 2024/02/28(水) 21:50:00.51 ID:J/hRLBLn0.net
そもそもGPUはAI用ではないたまたまAIに応用できただけ
純粋にAI用に再構築された理論に基づいて
もっと単純化したハードウェアが覇権を取るという予言だ

151: けんもですの 2024/02/28(水) 21:51:10.04 ID:pxsiJenN0.net
NVIDIAを超えるというよりもCUDA依存を減らしたいんじゃないの

152: けんもですの 2024/02/28(水) 21:51:49.14 ID:x/M5Drw00.net
メモリセントリックとかデータセントリックになるのかな?
ノイマン型コンピュータから卒業もあるだろこれ

153: けんもですの 2024/02/28(水) 21:52:31.60 ID:7/mZdEkJ0.net
まあ現行のGPUでは1bitの行列をアクセラレートできない(1bit行列を想定した演算器を持っていない)としても
じゃあ今後作って載せればいいじゃんて話で、NVもビハインドは一切ないんだよな…

NVオワタにしたい奴らには不都合な話かもしれんが

161: けんもですの 2024/02/28(水) 21:55:52.17 ID:zAwV9m9e0.net
こういうスレが立つっていうことはあと一年はnvidia相場続くんだな

167: けんもですの 2024/02/28(水) 21:57:45.24 ID:H32Sa4+U0.net
Edge AIではONXXとか使ってモデルサイズ下げて使用してる
NvidiaのGPUでトレーニングしてビット数をさらに下げてエッジに乗せるという方法
大規模にやらないとLLMにはならないから大規模にやるんだろうけど専用の推論ハードウェアが今後流行る
ところでこの低ビットのハードだと学習時の誤差伝播とかちゃんとできるんだろうか?(推論専用?)

176: けんもですの 2024/02/28(水) 22:03:03.04 ID:BFAI+HMv0.net
例えばINT4の積和演算器があればそれが流用はできるんだけれども
加算器だけで組んだチップは速度が平気でその100倍とか行く

AIの学習には相変わらずGPUが必要だが
今みたいに客に使わせるためにガバガバGPU買ってる時代は終わるかもしれない

214: けんもですの 2024/02/28(水) 22:21:50.08 ID:NTVuuDgA0.net
でそれを搭載した製品はいつ市場に出るの?nvidiaと一番の違いはそこだろ

221: けんもですの 2024/02/28(水) 22:30:15.22 ID:zcnSYerV0.net
>>214
これやってるのがMSってのがポイントだよ
MSは以前からWindowsに乗っけられるモデルを志向してたが
重いのがハードルになってたからね
Copilotのローカル版なんかは非難轟々だし
Windowsにこういうのを乗っけてくるようになると話は変わってくる

232: けんもですの 2024/02/28(水) 22:45:06.37 ID:mTfNhg/p0.net
浮動小数点数を使わずに離散値で計算する試みはVAEからずっと研究されてたな
それの進化系?
0と1と-1で計算かー、面白い

239: けんもですの 2024/02/28(水) 22:47:15.64 ID:tPqMfodR0.net
まあゲーム用のGPUに1bit行列やらせる意味がないから、ゲーム用のGPUには1bit演算機は載らない、AI用とは半導体レベルで分化してゆく契機にはなるかもね…

それでもゲーム用、グラフィック用から始まった、化け物みたいな行列演算機クラスタにデータ食わせて可能な限り止めないバックエンドバスやスケジューラの基本は同じなので、この辺の構造は共用できるだろう

244: けんもですの 2024/02/28(水) 22:58:52.83 ID:HaO4kiGp0.net
ちなみにMicrosoftのAI用チップを製造するのはIntelな
そもそもIntelは加算演算だけでいいならNVIDIA如きに負けないし

どうする?

262: けんもですの 2024/02/28(水) 23:24:32.67 ID:nSLmCGbg0.net
GoodByeGPU言われてるけどすぐに専用半導体作れるとも思えんからASICやFPGA作ってるところが狙い目だと思うぞ

263: けんもですの 2024/02/28(水) 23:24:37.15 ID:zcnSYerV0.net
学習済みモデルの量子化はうまくいかない
1.58bで学習しないといけないって言ってんね
公開されてるtrain.pyでできるのか
なんか凄いな

298: けんもですの 2024/02/29(木) 00:17:55.61 ID:WbLrI8hx0.net
https://leapmind.io/products/efficiera-ip/

日本でも量子化ニューラルネットの半導体IP作ってるところあるんやな

323: けんもですの 2024/02/29(木) 02:12:50.97 ID:MkhJwyW/0GARLIC.net
1.58bitになったところで現状で一番適したハードがGPUなのは変わらねーから株が下がりようがない
3値計算専用のハードが出て来てようやく勝負が始まるけど
そんなハードすぐ出てくるわけがないし
なんならnvidiaが出すのが一番早いかもしれないまである

328: けんもですの 2024/02/29(木) 02:27:47.09 ID:yc90BqsD0GARLIC.net
MSが作ってnVidiaが真っ先に実装するよ
DX11のレイトレーシングのAPIをMSが発表してそれに対応したコアの
RTXグラボを作ったのはnVidiaだし提供された技術をグラボに転用するのは凄くてAMDより先を行ってるし

212: けんもですの 2024/02/28(水) 22:21:07.54 ID:rOLSiH8c0.net
アップルも自動運転中止してAIに経営資源全振りするらしいし
この先どんどん新しい技術が出てくるんだろうな
もうちょっと長生きしてみよう