2025年1月13日月曜日

トイラジコンを作る話(2)

前回の記事では、回路とメカを作ったものの上手く動かなかった話を書きました。今回はその続きで、再設計を行った話です。

再々設計

再設計後のアームを前方から見た図

まずは強度不足の箇所があったので修正しました。

曲がってしまった下側のアームについては肉厚を3倍に増やしました。合わせてハブ周りも変更を入れました。回路周りについてはDCDC周りの改善をしました。

最終的にアクチュエータが動くところまではできました。

再々設計の問題点

再々設計をしたのですが、いくつか問題点も出てきました

バッテリーや電源子基板を置く場所がない
ステアリングの機構に問題があり、ステアリングセンターを出してもずれる
LiPoバッテリーの保管/廃棄に不安あり
モータを回すと通信が途切れる

というわけで再々々設計をすることにしました(~ここまでが2021年ごろ)

再々々設計

さて改善点を上げて再々々設計に取り組み始めたのですが、メカ周りの部品が上がってきたのが2023年末、実機が具体化したのが2024年の8月ごろでした。修論~社会人は全然休みが取れず、相当スローペースながらもこそこそ進めていました。

メカ周り

バラした図。メカは右最上段のやつ。

まずは部品配置を大幅に見直しました。もともとの構成では、回路系を車体中央に集め前方のステアリング系と後方の駆動系でサンドイッチするようになっていたのですが、今回からは回路をステアリング/駆動系の上に置くように変更しました。この構成は、無線が切れる問題(アンテナの位置を上面に持ってくる)や回路置き場がない問題(まとまった平面が欲しい)を回避するための施策でした。

メカ部分の上の蓋を外した様子。解体すると戻すのが難しい。

ステアリング周辺ではサーボをGS1502から入手しやすいSG90に変更しました。消費電力が少ないGS1502が良かったのですが、今回考えたタイロッド周りの構成に合わせてSG90に変更しました。回路系を移設する都合上、元々デフの直上にあったモータを前方に倒す形で実装しています。

回路周り

制御基板。MDを交換した際にランドがはがれたのでジャンパを飛ばした。

回路については電源子基板をやめ、1枚の基板に全回路を収めました。

大きな変更点としては、バッテリーがLiPoからニッケル水素の単三乾電池x2になっています。電源電圧が落ちることになりますが、変更したDCDCでも昇圧できるレベルではあったので問題なしとしました。またLiPoの充電回路は削除しました。

そのほかの点では、DCDC・USB-UART変換・MDを変更しました(それぞれTPS63001/63002からPAM2401、FT231XSからCH340K、TB6612からTB67H450)。

USB-CのD+D-のピンアサイン間違いや書き込み回路の不備があったのでマイナー修正版を作りました。

動かしてみた

bluetoothでPS3のコントローラをつないで動かしてみました。

目標どおり動きました🎉

課題と次の話

全てバラした様子。

トイラジコンとして機能するものができました。作っていく中で課題や改善策もいくつか出てきました。

分解組み立てが難しいので改善したい
Grove経由の信号のレベル変換がないので、5V信号が来ると破損の可能性あり
IMUを搭載したい
基板をフレーム替わりに使いたい

次回はこの辺の改良に加えてM5UnitVをつなげてみたいと思います。

p.s. 作成ログ

https://x.com/shtsno24/status/1746185220435620317

2024年9月10日火曜日

トイラジコンを作る話

前回の投稿から1年以上放置していた中の人です。定期更新ができないのは中の人の性格()なのでご承知おきください。以前トイラジコンを作る記事を出していたのですが、その続きを書いていなかったので書いておこうかと思います(2020/4ごろの記事なので、4年以上も前ですね)。

さて前回の記事をざっくりまとめると、

メカ部品を設計して3Dプリンタで作ったが、サイズと強度が足りず再設計
プリント基板を設計したら旧正月にバッティングして1カ月遅れで到着

となってました。この後メカ側は再設計した部品が届いたので仮組みをし、並行して回路側の評価を行いました。

メカの再設計

メカの方は設計方針を大幅に変更しました。機構周りの部品についてすべてを3Dプリントで自作するのではなく既製品を流用することにより耐久性や精度を得る方向にシフトしました。

この方針変更に伴い、設計の参考にしていたMINI-Z AWDのシャシーからデフを流用し、それに合わせたマウント等を設計しました。

リア周りの駆動系(ガワ無し版)

MINI-Z AWDの駆動系をそのまま移植することも考えたのですが、トレッド幅を狭くする必要があったため短縮版のドライブシャフトを3Dプリントで作成しました。またもともと後輪駆動の想定だったため、プロペラシャフトはMINI-Z FWDのものを流用し、モータを含めた駆動系一式を車軸の上に建てる設計としました。モータはMINI-Z AWDのFA-130からタミヤのミニモータセットに変更しました。

フロント周り

フロント周りはハブとサーボ以外は3Dプリント品にしました。特筆すべき点はないですが、アッカーマンジオメトリになるように設計しました。

機構確認

部品が来たのでとりあえず組んでみました。

パッと見はよさそうな設計でした。しかしながら、いろいろ試すうちに至らない部分が何か所かあることが分かりました。

下側の受けの一部が、強度不足で曲がってしまった

ステアリングを切ると、壁に接触してしまう

これらの改善点と回路側の不具合内容を鑑みて、メカ側は再設計を実施することにしました。

回路評価

設計した回路が届いたのでテストを実施しました。が、昇圧回路の出力側に負荷を接続し忘れたためDCDCが数分で壊れました。また、モータを回すとUART-USBの通信ができなくなるといった不具合もあり、再設計をすることにしました。

数分で破壊された電源基板
白色LEDが付いている5V系統は正常な出力が出ている

終わりに

さてここまでが2020/5~2020/8月ごろまでの話でした。とりあえず初物尽くしだったので手探りでやってましたが、その結果としていろいろハマってしまった感じでした。この後作り直したのですが、その話はまた別の記事で。

2023年5月20日土曜日

NNCase V1.7を試す話(実機実行編)

前回のSim実行編にて、NNCaseのSimが動くところまで確認しました。今回はその続きで、実機で動かす話になります

1.テスト環境

今回の環境(ホスト)は以下の通りです

RPi4 4GB(Raspbian 11:bullseye)
Docker(23.0.5, build bc4487a)
NNCase(v1.7.1)
nncaseruntime(v1.7.1)
kendryte-standalone-sdk
kendryte-gnu-toolchain

基本的な流れとしては、toolchainを入れてからstandalone-sdkを入れ、nncaseのruntimeを入れる形となります

またK210のボードとして、Maix Bitを使いました

Sipeedのプロダクトページ
スイッチサイエンスの販売ページ

千石電商の販売ページ

2.インストール

まずはtoolchainのインストールからになります。

$ git clone --recursive https://github.com/kendryte/kendryte-gnu-toolchain
$ cd /kendryte-gnu-toolchain/riscv-gcc
$ ./contrib/download_prerequisites
$ cd /kendryte-gnu-toolchain
$ ./configure --prefix=/opt/kendryte-toolchain --with-cmodel=medany --with-arch=rv64imafc --with-abi=lp64f
$ make -j4

今回は/opt/kendryte-toolchainに突っ込みました。次にsdkを入れます。

$ git clone https://github.com/kendryte/kendryte-standalone-sdk

kendryte-standalone-sdk/srcにビルドしたいプロジェクトを突っ込んでいくみたいです。最後にnncaseruntimeを入れていきます。

$ wget https://github.com/kendryte/nncase/releases/download/v1.7.1/nncaseruntime-k210.zip -P ./kendryte-standalone-sdk/lib/nncase/v1
$ unzip -o ./kendryte-standalone-sdk/lib/nncase/v1/nncaseruntime-k210.zip -d ./kendryte-standalone-sdk/lib/nncase/v1

sdkのディレクトリにsrc/lib/nncase/v1があり、この中にruntimeを入れている格好になっています。アップデートの際にはここを上書きすることで対応することができます。

参考：とりあえずKendryte K210に触れる(1) - 環境構築

3.コンパイル

前回のSim実行環境のサンプルコードと実機用のコードをまとめたものを上げておきます。

build_yolox.sh内のcompile_pathをsdkの場所に書き換えることで実行できるはずです。

差分としては、Maix Bitのへの対応がメインになります。

コンパイルをすると、モデルの変換結果や実機に入れるbinなどが生成されます。

参考：https://github.com/kendryte/nncase/tree/v1.7.1/examples/yolox

4.実行結果
実機実行の結果。Simと微妙に異なる

実際に動かすとちゃんと認識していることが分かるかと思います。しかしながらSim結果とは異なっている部分もあり、何起因の差分化は考える必要がありそうです。

実行結果(UART)
1回目実行では1100ms程度かかるらしい

実行速度は1100ms程度のようでした。起動直後の1回しかは測定していないので、もう少し条件を詰めて確認する必要があるかと思われます。

5.まとめ

今回はSim編の続きとして実機実行までの流れをやってみました。とりあえずどんな感じで動かせばよいかぐらいは分かったかと思います。この話の発展として別のDNNモデルを実行したり、性能改善を行ったり、カメラをつけて実行等があるかと思いますが、今回はここまでにしたいと思います。

2023年5月2日火曜日

NNCase V1.7を試す話(Sim実行編)

社会人2年目になり業務量が増えてきた中の人です。今回は以前やっていたが公開していなかったNNCaseのv1.x系(kmodel v5)を試す話になります。

2023/5/20追記：サンプルコードを公開

1.NNCase v1.xの特徴

以前のバージョンと比較した際の一番の変更点としては、従来のコマンドラインベースのものからPythonの1ライブラリとしての実装に変更されています。kmodelの元ネタになるonnxやkerasのモデルを生成するコードに追加することもできます。ビルド済みのwhlが公式から提供されており、CPUはx86-64、OSはWin/Linux/Mac版があります。

これ以外の点では、対応する演算の種類が増えている、K210の上位機種に当たるK510への対応といった部分のアップデートがなされています。これに合わせる形?でkmodelのバージョンもv5に上がっています。

2.テスト環境

今回の環境は以下の通りです。

RPi4 4GB(Raspbian 11:bullseye)
Docker(23.0.5, build bc4487a)
NNCase(v1.7.1)

NNCaseのv1.xはarm64に対応するwhlを出していないのですが、中身を一部変更してビルドしました(基本的にはx86-64と同じコードになります)。またビルドのデバッグがやりたかったので、Docker環境にねじ込みました。今回はK210を動かすところまではいかないので、NNCaseのみの紹介にします

3.インストール

x86-64環境であればインストールは簡単で、公式のリリースからwhlを持ってきてインストールするだけになります。(今回試しているarm64の場合は自前でビルドする必要が出てくるので面倒でした)

4.コンパイルとSim実行

v1.7.1でのコンパイルとSim実行手順は基本的にはここにいろいろ書いてあります。このディレクトリを手元に落としてきて動かすのが最初はよいかと思います。
このディレクトリは以下のような感じになっています。

.
|- tools：モデルの変換とSimを実行するためのコード
|- images：入力画像
|- model：もとになるモデル(onnx)
|- cpu
`-k210：実機実行用のコード

README.mdを見たところ、画像の入ったディレクトリを見に行くオプションがすべてimagesではないところだったのですが、手元で試したところimagesに変更しても動くことが分かりました。

python tools/compile.py model/yolox_nano_224.onnx yolox_nano_224_quant.kmodel --imgs_dir ./images/ --legacy --target k210

python tools/simulate.py yolox_nano_224_quant.kmodel ./images/dog.jpg

環境内でmatplotlibの表示機能が使えるのであれば、Sim結果としてこんな感じの画像が得られるはずです

Sim結果
実機実行の結果とは異なるので要注意

5.まとめ

今回はNNCase v1.7を使ってSimを実行してみました。変なことをしなければすんなり動くはずであり、K210の実機が無くても結果が確認できるのでお手軽に試せるかと思います。

次回はK210搭載のボードを使って実機実行していきたい思います。

n.おまけ

以前使っていたM5StickV+MaixPyの組み合わせではkmodelのv5に対応していなかったのですが、まさかのkendryteがMaixPyではない別のツールを作って対応しようとしていました。(boardのディレクトリにm5stick的なものがあったが、M5StickVで動くかどうかは不明)。

参考1:https://github.com/sipeed/MaixPy/issues/434

参考2:https://github.com/kendryte/canmv

2023年2月5日日曜日

Verilator使ってみた

https://www.veripool.org/verilator/より引用

Verilog初心者の中の人です。今回はVerilogシミュレーションツールであるVerilatorをお試ししてみました。またこのツールの売りであるSim実行速度を簡易的に計測したので、併せて紹介します。

1.Verilatorとは何か

VerilatorはVerilog/SystemVerilog向けのRTLシミュレーションシステムの一種になります。LGPL3/Artistic License2.0で配布されており商用利用も可です。この手のツールは大体がライセンス必須のクローズドソースであることが多いですが、Verilatorはその点で異なったものになります。Verilatorの売りはSimの実行速度であり、有償のツールと同等かそれ以上の性能が出ると主張しています[1]。

2.お試ししてみる

今回は簡単なUART送信回路を作成し、そのテストベンチをVerilatorで書いてみました。

(コードはこちらから)

今回はFPGA開発日記さんの記事を参考にしながら、.vcdの波形出力まで行うテストベンチを書きました。またUART送信回路自体は、FPGA上での実機動作が確認できているものを流用しました。書いてみた感想としてはTB本体の準備はそこまで差がないのですが、Verilator(C++)の方が入力するデータの準備や出てきたデータを料理が楽でした。また実行時間もVerilogのTBを実行していた時と比べ何となく速い気がしました。

3.Verilog版TestBenchとの比較

実行時間が体感で速そうだったので、実際に計測してみました(Verilator公式でも高速実行アピールがあるので、本当だとは思っていましたが)。計測方法としては、対象回路に対して同じタイミングで信号を印加するTBをVerilogとVerilator(C++)で準備し、Simにかかった時間をパラメータごとに10回計測し均しました。計測の諸条件は以下の通りです。

PC：XPS13(9310)
CPU：Intel Corei7-1185G(3GHz)
RAM：16GB
OS：Ubuntu 20.04.5 LTS (GNU/Linux 5.4.72-microsoft-standard-WSL2 x86_64)
Icarus Verilog version 10.3
Verilator 5.005 devel rev v5.004-76-g5ef373500
g++ (Ubuntu 9.4.0-1ubuntu1~20.04.1) 9.4.0
Sim内で変わるパラメータは終了ステップ数のみ(100スタートで10倍毎に計測)
実行時間はLinuxのtimeコマンドで計測
.VCDファイル生成時間を両者ともに含む
コンパイラの最適化設定は両者デフォルトの状態

実測結果は以下のようになりました。

x軸実行ステップ、y軸実行時間のグラフ
(両対数グラフなことに注意)

このグラフから実行ステップ数が短いとVerilatorを使ってもそこまで高速化の恩恵が得られないのですが、ある程度以上のステップ数になるとVerilatorの方が10倍のオーダで高速に実行できそうなことが分かりました。(生データはこちら)

4.その他

不定が扱われない様子
(左：Verilog、右：Verilator)

Verilog側で出ていた出力波形の不定がVerilator側では出ていないことに気が付きました。これはVerilatorが信号を4値(0, 1, Z, X)としてではなく2値(0, 1)として扱うことに起因しているようです[2]。不定伝搬等を検出するためにはいくつかの工夫が必要だと思われます。

2022年12月31日土曜日

2022年にやったことまとめ

手が滑って買ったオシロ

5月以来の更新になった中の人です。社会人になり休日のありがたみを実感しているこの頃であります。今回はブログに載せていないものも含めて、2022年に作ったものを振り返る話になります。

1.PYNQとVitis HLSで作るFMA演算IP

テストで使用したFPGA(PYNQ-Z2)

一応ブログとして挙げたネタなのでそこまで詳しく解説はしないのですが、FMA用のIPを高位合成で作成して性能評価を行った話でした。

記事へのリンク

2.Rust初心者が、Rust+RPi PicoでST7789使用TFT LCD(Waveshare Pico LCD 1.3)を使う話

とりあえずLCDを動かしてみた

こちらもブログネタで、Rust+RPi PicoでLCDを操作する話でした。これについてはブログを上げた後に裏でいろいろいじってました(が諸事情で非公開)。

記事へのリンク

3.激安プロジェクタ分解

カバーを外したプロジェクタ

完全なる好奇心で\4k弱のプロジェクタを購入し分解しました。今は動作する状態まで組み立てて使っていないのですが、そのうちLEDの換装とかをして遊ぼうかと思っています。記事を書け。

プロジェクタの販売ページ

4.TinyFPGA BX用拡張ボード

左から試作(1)、試作(2)、完成品

TinyFPGA BX用に拡張ボードを作ってました。実は以前にも作っていたのですが、出来がそこまでよくなかったので再設計してみました。あとはHDLの学習もかねて74HC595を制御するドライバの作成なども行っていました。記事を書(ry

5.nncase V1.x試してみた

実際に画像を読ませて認識させた結果

以前nncase V0.4の動作確認記事を書きましたが、あの後で更新がいろいろ入ったので新しいバージョンでの動作確認環境の構築を行いました。aarch64+Dockerの環境でnncaseの実行とK210向けのバイナリ生成まで動く環境を作ることができました。記事を(ry

6.レゴで作る90°ステッパー

作成したステッパー

レゴでシーケンシャルミッション等を作る際に必要な90°ステッパーを作りました。たまたまできてしまった代物でした。記事(ry

7.電源基板を作る話

試作中の基板

ちょっと気が向いたので、電源基板を作っています。オレオレ規格を策定するところから始まっているので先は長そうですが、いろいろ試すいい機会だと思っています。記(ry

8.終わりに
MFTokyo2022に行ってました。

今年は業務でいろいろ作る方に気力を吸い取られたため、あまり活動できなかった部分がありました。来年以降はもう少しいろいろやりたいところです。

...そんなことより記事を書け。

2022年5月29日日曜日

Rust初心者が、Rust+RPi PicoでST7789使用TFT LCD(Waveshare Pico LCD 1.3)を使う話

いつの間にかひよっこ社会人になっていた中の人です。研究室とは勝手が違う中、ひたすら研修を進めています。
さて今回は以前紹介したRust+RPi Picoのお話の続き?で、Waveshare社製Pico LCD 1.3をRust環境で使う話になります。

0.開発環境とアップデート

以前の記事では、WSL上でクロスコンパイルをし、PowerShell環境でelf2uf2を使って最終的なバイナリを作っていたと思います。

その後、elf2uf2-rsが登場し、.cargo/config.tomlで設定すれば、cargo runだけで.uf2への変換からボードへのアップロードも自動で行えるようになりました。らくちん。さらに、記事を書いた後環境を丸ごと吹き飛ばした関係もあり、今回はすべてPowerShell上に環境を構築しました。

また以前の記事以降にrp2040-halのアップデート等があり、関数の書き方などが変わっています(rp-rs/sample-projectもrp-rs/rp2040-project-templateの方が推奨に切り替わった)。

1.ピンアサインの確認

ピンアサイン

(https://www.waveshare.com/wiki/Pico-LCD-1.3より引用)

今回使用するボードも以前と同じくRPi Picoを使います。そしてLCDとして、Waveshare社から発売されているPico LCD 1.3を使います。今回はSwitchScienceで購入しました。

このLCDを制御しているST7789はSPIで通信するので、PicoのSPI1を使います。注意事項があるとすれば、本来のSPI1であればGP8/GP12のいずれかをデータ転送(Controller In Peripheral Out/Master In Slave Out)で使います。しかしST7789の場合、GP8をデータ/コマンド選択ピン、GP12はローアクティブのリセットピンとして使うので注意が必要です。同様にGP13はバックライトの制御で使うので注意してください。GP8/GP12/GP13はGPIOピンとして使います。

参考：https://datasheets.raspberrypi.com/pico/Pico-R3-A4-Pinout.pdf

2.画面描画

今回はFloyd-FishさんのSTM32向けCライブラリを参考に、レジスタの初期設定と各ピクセルの描画を行いました。データシートをよく見ずに書き始めたので、自分が分かっていないレジスタと設定値が存在しています(後から見返したらデータシートに載っていた件)。なので、ここではレジスタの設定値の話はパスします。

全体のコードはrp-rsさんのLチカのテンプレートをベースに手を入れました。一番悩んだのがSPIやGPIOをラップした関数を作ることで、いまだにわかっていない部分がいろいろあります。が、とりあえず動いたのでここではﾖｼｯ。関門だった初期化関数も一応かけました(この書き方が組み込みRustのお作法にかなっているのかがよくわからん)。

(今回作成したコードはこちらから)

3.まとめ

今回はRust+RPi PicoでTFT LCDを使う話でした。いろいろな方のコードを~~切ったりはったり~~参考に作りました。特にrp2040-halの開発元が公開しているサンプルコードは役立ちました。ちゃんとRustを触るのは初めてで困ることも多かったですが、最低限の機能を実装し、どうにかこうにか動くところまで行けました。まだ使っていないマイコンの機能もあるので、仕事が忙しくなる前にもう少し遊んでみようかと思います(UARTのポーリングし続けないと切られる問題や、GP8の切り替えがdelayを挟まないとデータ転送のタイミングとずれてくる問題)。

4.参考

SPIのサンプル：https://github.com/rp-rs/rp-hal/blob/main/rp2040-hal/examples/spi.rs

ラップ関数のサンプル：https://github.com/rp-rs/rp-hal/blob/main/boards/rp-pico/examples/pico_spi_sd_card.rs

開発環境周りで参考にした@ochaochaocha3さんのQiita：https://qiita.com/ochaochaocha3/items/1969d76debd6d3b42269

LCDのスペック：https://www.waveshare.com/wiki/Pico-LCD-1.3

2022年3月16日水曜日

PYNQとVitis HLSで作るFMA演算IP(4)：おまけネタ

前回までで、FMA演算IPを作成することができました。今回はおまけ編で、データ型を変えたり並列数を増やしたりしてみます。

1.いろいろなデータ型に対応させる

　せっかくの専用回路だし、いろいろなデータ型に対応させてみましょう。今回は参考例として16bit固定小数点(q4.12)に対応させてみます。

　...とはいうものの、高位合成用のサンプルコードはテンプレート関数で記述されているうえに、データ型はFMA.hpp内のusing data_type = float;の部分で一元的に管理しています。なので、ここの部分を固定小数点ように書き換えればいいわけです。

　Vitis HLSでは固定小数点用のライブラリとしてap_fixed.hが提供されており、これを使用して記述すればいいわけです(書き換えるとusing data_type = ap_fixed<data_width, 4>;となる)。あとは、データ幅を16bitに下げればOKです(constexpr data_width = 16;)。

　JupyterNotebookのコードについては、最初のせるのarray_typeをnp.int16、fractionを12、enable_fp2fixをTrueにすれば動くはずです。

2.AXI-Streamのデータ幅を増やす

　こちらに関しては、FMA.cppのbus_widthを書き換え、JupyterNotebookのbus_widthを書き換えます。また回路を作成する際に使用したDMA IPのStream Data Widthを指定の値にします。DMA IPの設定値からわかるように、データ幅は64, 128, 256, 512, 1024といった値しかとることができません。注意しましょう。

　データ幅を増やすことで、並列数を増やすことができます。DMAの転送能力次第な部分はありますが、そこそこの速度向上が達成できそうな雰囲気でした(160万個のデータを流して210MFLOP程度)。

3.遭遇したトラブル

AXI-Streamのデータ幅について、fp32+1024bitの時やfix16+256bitの場合でHLSのCoSimの段階から結果がおかしくなっていた。CSimの段階では正常な計算結果を返すし、他のデータ幅の場合とはデータ幅とデータ型以外変えていないので、まったくもって謎だった。
float配列とデータバスのunionを作成し、型変換を実装する予定だったが、ap_intやap_fixedをunionのメンバに入れるとコンパイルが通らなくなるのでやめた。
float配列とCの組み込み整数型のunionを含むコードをVivado HLSで高位合成かけようとしたところ、合成に失敗した。Vitis HLSを使うと、合成がかかった。
回路が動きそうでも動かない場合、Vivadoのプロジェクトを作り直すと動く場合があった。
この記事を書くのに、中の人の睡眠時間とGT7のプレイ時間が削られまくった。

PYNQとVitis HLSで作るFMA演算IP(3)：実機での実行

　前回と前々回で、とりあえ回路情報の入ったbitstreamファイルまで生成できました。今回は実機実装していきます。

　今回作成した回路はこちらから。

1.実機のコードについて

　今回の回路構成の場合、DMAの関数に64bitの配列を渡す必要があるように見えるのですが、実際には計算で使うデータ型(今回の場合はfp32：np.float32)の配列を使用して問題ないです。ただし、配列の総サイズ(bit)が64bitで割り切れる必要があります。割り切れない場合は、ゼロパディングで埋めるといいでしょう。

　今回作成したIPはAXI-Liteで制御するのですが、開始の制御以外にループ回数の指定を行います(0x10にint32でループ回数を書き込む)。また、0x00に1を書き込むことで、IPの開始を制御できます。そのほかとしては、dmaの転送設定を自作IPの開始前に行うあたりが少し特殊かもしれないです。

　一応参考としてIPの実行時間を計測します。具体的にはメモリからデータを読み出し始めてから、書き込みが終わるまでの時間を計測します(自作IPをスタートさせたタイミングで入力データの転送が開始され、受信側のDMA IPが終了するタイミングでIPの実行も終了するため)。

　ノートブックはこちらから。

2.実行結果

実行結果。140MFLOPS程度の性能であった。

　サンプルコードではCPUの計算結果との比較を行っているのですが、特段表示が出なければ一致していると思ってください。実行速度に関しては、20万回FMAの計算を実行した場合で大体140MFLOPS程度が出ているようです(実はループ回数をいじると計算回数が変化し、計算速度が変化する)。

　CPUで実行する場合と比べると...まぁ遅いといった感想になるでしょうか。クロック周波数が200MHzしか出ておらず、またFMAの計算に16*5nsかかっていることを踏まえればこの程度かなとは思っています。

3.今後

　自作のFMA演算IPを実機実装することができました。次回はAXI-Streamのデータ幅拡張や異なるデータ型への対応についての話です。

PYNQとVitis HLSで作るFMA演算IP(2)：高位合成と回路合成

　前回高位合成用のC++コードを作成しました。今回はそのコードを使って高位合成を行い、その流れで回路まで作成します。

1.高位合成

　今回はVitis HLSを用いてPYNQ-Z2向けに合成を行います。その際の設定は以下の通り。

ターゲット周波数：200MHz
Uncertainty：12.5%
ターゲットデバイス：pynq-z2(xc7z020clg400-1)
言語：C++0x

　今回は2つのソースファイル(FMA.cpp, FMA.hpp)、1つのテストベンチ(FMA_TB.cpp)を登録します。このうちFMA.cppとFMA_TB.cppのCFLAGSに-std=c++0xオプションを付与します。

　合成結果はこんな感じになりました。

高位合成の結果

　Iteration Latencyは16となりましたが、Intervalが1になっていることからいい感じにパイプライン化できたようです。使用率は

DSP ： 4%(10/220)
LUT：3%(1992/53200)
FF：1%(1718/106400)
BRAM：0%(0/140)

となっています。余裕ありありですね。合成されたデータフローはこんな感じでした。

データフローの一部。2か所ほど"長い棒"がみえるが、
それぞれfmulとfaddの計算ステップとなっていた。

　一応仕様通りに2並列で計算できているようです。また大半のステップがfmulとfaddで占められていることもわかりました。

　この後CoSimを走らせて結果を確認後、IPを出力します(そのまま出力してもいいのだが、Configuration...のボタンからVendor、Library、Description、Display Nameあたりをいじってからいったん出力->Solution Settings内のConfiguration Settingsのconfig_exportにあるipnameをいじってから出力すると、VivadoでIPを読み込んだ際にオリジナルの名前が付き、ベンダー名で検索がかけられる)。

2.回路合成

　高位合成で作成したIPを使って回路を作成します。ZYNQのIPを最初に置いて、Run Connection Automationを走らせるとDDRとFIXED_IOと外部端子がつながるはずです。

　その後、AXI_HPポートの0から3を有効化します。データ幅はすべて64bitにしましょう。

AXI_HPポートの設定。データ幅はすべて64bitとした。

　AXI_HPポートの設定後、IPへ供給するクロックの設定をします。今回は単一のクロックソースかつ周波数が200MHz程度なので、ZYNQのIPから供給します。Clock Configuration->PL Fabric Clocksの順にたどり、FCLK_CLK0を200MHzに設定します。

クロック設定。今回はHLSに合わせて200MHz。

　ZYNQ IPの設定が終わったら、AXI Direct Memory AccessとAXI Interconnectを4つずつ出します。

　AXI Interconnectの方はMasterとSlaveの数をそれぞれ1に設定します。

DMAの方は入力側(W, X, B)と出力側(Y)で少し異なります。入力側のDMA IPについて、Enable Scatter Gather Engineを無効化し、Width of Buffer Legth Registerを26bits、Address Widthを64Bitsにしておきます。データ入力のIPなので、Read Channelのみ有効にしておきます。Memory Map Data WidthとStream Data Widthは64にしておきます。

読み込み側のDMA IPの設定

　出力側のDMA IPについては、入力側で行ったEnable Scatter Gather Enginenの無効化、Width of Buffer Legth Register->26bits、Address Width->64Bitsの操作を同じく行います。その後、Read Channelを無効化し、Write Channelの有効かを行います。Memory Map Data WidthとStream Data WidthはAUTOのままでOKです。

書き込み側のDMA IPの設定

　最後に各IPを接続します。DMAのIPをCPU側から制御するため、個々のIPに割り当てられている名前が必要になります。サンプルコードをそのまま使いたい場合、

S_AXI_HP0 -> axi_dma_0(+interconnect) -> w_axi_0
S_AXI_HP1 -> axi_dma_1(+interconnect) -> x_axi_1
S_AXI_HP2 -> axi_dma_2(+interconnect) -> b_axi_2
y_axi_3 -> axi_dma_3(+interconnect) -> S_AXI_HP3

と接続しましょう。

IPの配線図。
Wが0、Xが1、Bが2、Yが3と覚えると分かりやすい。

　この接続を終えると、Run Connection Automationの表示が出るので、すべてにチェックを入れて実行すれば最終的な回路の完成です。この後、アドレスエディタでDMAと自作IPに対してアドレスを割り当てておきましょう。

　Generate Output Productsを実行し、Create HDL WrapperをLet Vivado manage...の方に入れておきます。Generate Bitsteramをクリックすれば回路の合成が始まります(2回に1回ぐらいで失敗するが、Output Productsをリセットしたのち、Generateしなおして再びBitstreamの生成を行えばいけるはず)。

　Bitstreamの生成が終わったら、.bitのファイルと.hwhのファイルを書きだします。画面左上のFile->Export->Export Hardwareを選択し、Platform typeをFixed、Outputを Include bitstreamに設定します。その後、XSAのファイル名を聞かれるので、適当な名前にします(サンプルコードの通りにしたい場合は、design_1_wrapperをdesign_1に変更)。出力先はどこでもよいです。

　.bitと.hwhはこのXSAファイルに入っているので、7zip等を使い取り出します。最終的にこの.bitと.hwhのファイルを.ipynbから読みだしてプログラムを実行することになります。

3.次回

.bitファイルと.hwhファイルが生成できたので、次回はPYNQ側のコードと速度計測を行っていきます。

登録: 投稿 (Atom)

2025年1月13日月曜日

再々設計

再々設計の問題点

再々々設計

メカ周り

回路周り

動かしてみた

課題と次の話

2024年9月10日火曜日

メカの再設計

機構確認

回路評価

終わりに

2023年5月20日土曜日

1.テスト環境

2.インストール

3.コンパイル

4.実行結果実機実行の結果。Simと微妙に異なる

5.まとめ

2023年5月2日火曜日

1.NNCase v1.xの特徴

2.テスト環境

3.インストール

4.コンパイルとSim実行

5.まとめ

n.おまけ

2023年2月5日日曜日

1.Verilatorとは何か

2.お試ししてみる

3.Verilog版TestBenchとの比較

4.その他

2022年12月31日土曜日

1.PYNQとVitis HLSで作るFMA演算IP

2.Rust初心者が、Rust+RPi PicoでST7789使用TFT LCD(Waveshare Pico LCD 1.3)を使う話

3.激安プロジェクタ分解

4.TinyFPGA BX用拡張ボード

5.nncase V1.x試してみた

6.レゴで作る90°ステッパー

7.電源基板を作る話

8.終わりにMFTokyo2022に行ってました。

2022年5月29日日曜日

0.開発環境とアップデート

1.ピンアサインの確認

2.画面描画

3.まとめ

4.参考

2022年3月16日水曜日

1.いろいろなデータ型に対応させる

2.AXI-Streamのデータ幅を増やす

3.遭遇したトラブル

1.実機のコードについて

2.実行結果

3.今後

1.高位合成

2.回路合成

3.次回

4.実行結果
実機実行の結果。Simと微妙に異なる

8.終わりに
MFTokyo2022に行ってました。