RX570/Ubuntu 22.04でROCmを入れる

基本的には下記サイトの内容なのですが、言及されてないことも経験したので備忘録。[続き]Link

事前項目

PC

CPUはPCI atomicsをサポートしているものが必要。intelではHaswell (Core i 4000番台)以降、AMDは初代Ryzen以降。満たしてなくてもGPUドライバはインストールできるが、No GPU扱いになる。

No AMD GPUs specified #1742 (ROCm on GitHub)Link

Ubuntu

UbuntuはLTSを使用。20.4ならFocal Fossa、22.4はJammy Jellyfish(22.4.xではなく22.4)。上記サイトでも触れられているように、今のROCmはRX570をサポートしていないが事実として動くということを利用している。どのバージョンから動かなくなるのかわからないので、無闇に新しいものを使うのは避ける。

AMD GPUドライバは上記サイトで使われている5.5 or 5.6。おそらくLTSのカーネルバージョンじゃないと、ドライバビルド(下記amdgpu-installの部分)が失敗し入らない(22.4.3/カーネル6.2で経験)。うっかり新しいカーネルに更新しないようにする。

WikipediaのUbuntuバージョン履歴Link 。22.4はカーネル5.15がインストールできた。

22.4.xに古いカーネルを入れる場合、AMD GPUドライバインストール(amdgpu-install)前に新しいカーネルは全部削除する。でないと、ドライバインストーラはインストールされているすべてのカーネルバージョンに対してビルドを試み失敗、その後カーネルをアンインストールしようとするとまたドライバインストーラが動き出して失敗でアンインストールできなくなる。

手順

curl -O https://repo.radeon.com/amdgpu-install/5.5/ubuntu/jammy/amdgpu-install_5.5.50500-1_all.debLink  (https://repo.radeon.com/amdgpu-install/5.7/ubuntu/focal/amdgpu-install_5.7.50700-1_all.debLink  for Ubuntu 20.4 LTS)
sudo dpkg -i amdgpu-install_5.5.50500-1_all.deb
sudo amdgpu-install --usecase=rocm,mllib,mlsdk (or sudo amdgpu-install --usecase=graphics,rocm,mllib,mlsdk --no-32)
sudo usermod -aG video $USER
sudo usermod -aG render $USER
(Reboot Ubuntu)
sudo rocminfo
rocm-smi

現在CPU atomic未対応CPUのためrocminfo, rocm-smiともにGPUを認識しない状態。機材を調達して再挑戦の予定。

[2023/10/15] 訂正 --no-86 → --no-32

— posted by mu at 10:38 am   commentComment [0]  pingTrackBack [0]

WSL2でLinuxに固定IPを追加する

開発マシン上WSL2/Alpine/docker-composeでkafkaを動かそうとしたら手間取ったので、備忘録。

  • WSL2で動かすLinuxのIPアドレスはホストWindowsによってプライベートアドレスを与えられ、Windows起動の度に変わる(おそらくセキュリティ向上のため)
  • DHCPはLinux起動時にWSL2で特別な処理が行われているようで、/etc/network/interfaceに記載してもおそらく無視される
  • /etc/network/interfaceに書かれた内容はLinux起動後ifdown/ifupコマンドでstaticは反映されるが、DHCPはサーバーが見つからない理由でエラーになる
  • 上記DHCPが失敗した状態では、WSL2ホストマシン外と通信できない(Hyper-Vの仮想スイッチ設定をいじればできる?)
  • 一方dockerコンテナ上のkafkaは、ADVERTISED_HOST設定のため毎回変わるアドレスでは運用しづらい
Hyper-Vの仮想スイッチをいじると他のLinuxディストリビューションと併用する時に副作用が出そうなので、対象Linuxにプライベート固定アドレスを追加する方法を採る。アドレス例として
  • 192.168.99.1: WSL2ホスト側のアドレス(=Windows)
  • 192.168.99.100: Windowsから見たLinux側のアドレス

Windows側

仮想スイッチ'vEthernet (WSL)'はWSL2起動時に作成されるようなので、先にLinuxディストリビューションを起動しておく。このスイッチにホストWindowsのアドレスを追加。要管理者権限。Windows再起動ごとに行う。
 netsh interface ip add address "vEthernet (WSL)" 192.168.99.1 255.255.255.0

Linux側(dockerホスト on WSL2)

Linuxに固定アドレスを与える。要root。こちらもLinux起動ごとに必要。
ip addr add 192.168.99.100/24 dev eth0

Linux側(docker-compose)

wurstmeister/kafka-dockerLink を使用。docker-compose.yml変更点は
  • kafkaのportsを9092:9092に
  • KAFKA_ADVERTISED_HOST_NAMEを書き換え

docker-compose後はホストWindowsからはbootstrap-server=192.168.99.100:9092でkafkaにアクセス可能。

version: '2'
services:
  zookeeper:
    image: wurstmeister/zookeeper
    ports:
      - "2181:2181"
    restart: unless-stopped

  kafka:
    build: .
    ports:
      - "9092:9092"
    environment:
      DOCKER_API_VERSION: 1.22
      KAFKA_ADVERTISED_HOST_NAME: 192.168.99.100
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
    volumes:
      - /var/run/docker.sock:/var/run/docker.sock
    restart: unless-stopped

[参考]

— posted by mu at 07:53 pm   commentComment [0]  pingTrackBack [0]

Pythonでnumpy.ctypes.data_as()→C側でAccess violation

YOLOLink リポジトリに含まれるdarknet_images.pyに複数画像一括処理を行うbatch_detectionという関数があるのですが、2枚以上の画像を処理させようとするとC側関数実行中にOSError/access violation例外が発生。1枚(要素数1の配列を渡す)は正常に処理されることから、ポインタの渡し間違いという類ではなさそう。

結論

import numpy as np
from ctypes import *

def makeArray():
    arr = numpyの配列を作る
    return arr.ctypes.data_as(ctypes.POINTER(ctypes.c_float))


c_func(makeArray())

みたいに関数でnumpy配列作ってctypesのポインタだけを返している場合、arrのサイスが大きいと関数抜けた時点でarrがガベージコレクションされてしまい、data_as()で得たアドレスはc_funcが呼ばれる前に無効になる可能性がある。

今回のYOLOの件は画像1枚だとたまたまガベコレされなかっただけで、本質的には危険なのでしょう。具体的にはdarknet_images.pyのprepare_batch()関数でbatch_arrayがガベコレされてしまいます。手っ取り早い解決としては、同ファイル内で
  • prepare_batch()の返値にbatch_arrayを含めるようにし、呼び出す側のbatch_detection()はC関数darknet.network_predict_batch()を呼び終えるまでbatch_arrayを保持する
  • prepare_batch()とbatch_detection()を一つの関数にまとめ、batch_arrayがガベコレされないようにする

でしょうか。前者はコード的にあまり美しくなさそうですが。

私と同じ問題にあたる人は稀でしょうが、本質的な理由はWindows/Linux関係なく起こりそう。ctypesのいい勉強になりました。

[参考]

— posted by mu at 07:18 pm   commentComment [0]  pingTrackBack [0]

JupyterLabが起動時に落ちる

JupyterLabを起動するとIndexError: pop from an empty dequeというエラーが出て落ちてしまう現象が私の環境でも発生。GitHubの掲示板Link の内容と私の環境(WinPython 3.10.4.amd64)での現象を総合すると、

  • JupyterLab起動と連動してブラウザが立ち上がり(これが既定の動作)、複数のタブ(Python Kernel)が開くようになっていると発生
  • Windowsでより起きやすいが、Linuxでも起きる
回避策としては以下のどれかを実行。
  • JupyterLabを--no-browserオプションをつけて起動、コマンドラインに表示されるURLを別途ブラウザで開く(起動時後短時間で複数Kernelを立ち上げることの回避)[2022/7/20] これでも落ちました
  • JupyterLab終了時に開いているタブを1つ以下にする。ただしこの問題が出ているということはJupyterLabはすぐに落ちてしまうので
    • 前述と同じ--no-browserで起動してタブを閉じる。一番着実。
    • 起動-ブラウザが自動的に開く-JupyterLabが落ちる間に不要なタブを閉じる。短時間なので一つずつ、がんば。
    • めげずにJupyterLabの起動を繰り返す。運が良ければ落ちないときがある。
  • .ipynb_checkpointsを消すとか、__pycache__を消す。ただし再発する報告あり。
[参考]

— posted by mu at 02:55 pm   commentComment [0]  pingTrackBack [0]

Visual Studio 2013オンラインライセンス認証が失敗する

オンラインライセンス認証で使用しているVisual Studio 2013のライセンス更新をしようとしたところ、更新できないとの表示。一度サインアウトして入りなおすなどするうちに'Sorry, we ran into a problem' (英語版使ってるので、日本語表記は不明。「申し訳ございません。問題が発生しました」くらい?)という表示が出る。

どうやらサーバーの方がTLS1.2暗号化を必要とする変更が入ったとのことで、以下のレジストリを追加・Visual Studio再起動後改めてライセンス更新をすると成功しました。

VSが余りに古くてついにMSから使用停止食らったかと焦った…

[HKEY_LOCAL_MACHINE¥SOFTWARE¥WOW6432Node¥Microsoft¥.NETFramework¥v4.0.30319]
"SystemDefaultTlsVersions"=dword:00000001
"SchUseStrongCrypto"=dword:00000001

レジストリファイル添付しておきますが、ご利用は自己責任で。

[参考]
添付ファイル: VisualStudio2013onlinelicenseupdate.reg 

— posted by mu at 11:18 am   commentComment [0]  pingTrackBack [0]

T: Y: ALL: Online:
ThemeSwitch
  • Basic
Created in 0.0133 sec.
prev
2026.2
next
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28