Add main application and command sender for voice to text processing

2025-03-22 11:27:30 +01:00
parent 154a5690ac
commit fee80c3fbe
2 changed files with 193 additions and 0 deletions
--- a/send_cmd.py
+++ b/send_cmd.py
@@ -0,0 +1,17 @@
+#!/usr/bin/env python3
+import socket
+import sys
+
+SOCKET_PATH = "/tmp/voice.sock"
+
+def send_cmd(cmd):
+    with socket.socket(socket.AF_UNIX, socket.SOCK_STREAM) as client:
+        client.connect(SOCKET_PATH)
+        client.sendall(cmd.encode())
+
+if __name__ == "__main__":
+    # Default: toggle
+    cmd = "toggle"
+    if len(sys.argv) == 2 and sys.argv[1] in ["start", "stop", "toggle"]:
+        cmd = sys.argv[1]
+    send_cmd(cmd)
--- a/voice_to_text_tray.py
+++ b/voice_to_text_tray.py
@@ -0,0 +1,176 @@
+#!/usr/bin/env python3
+import sys
+import subprocess
+import os
+import threading
+import socket
+import requests
+import json
+from PyQt5.QtWidgets import QApplication, QSystemTrayIcon, QMenu, QAction
+from PyQt5.QtGui import QIcon
+from PyQt5.QtCore import QThread, pyqtSignal
+
+# === Config ===
+def read_configurations():
+    script_dir = os.path.dirname(os.path.abspath(__file__))
+    settings_path = os.path.join(script_dir, "pyvtt.settings.json")
+    with open(settings_path) as f:
+        return json.load(f)
+
+CONFIGURATION = read_configurations()
+CURRENT_PRESET = CONFIGURATION["presets"][0]  # Default to first preset
+
+def notify(title, message):
+    subprocess.run(["notify-send", "-a", "Voice to Text", "-i", "audio-input-microphone", title, message], check=True)
+
+# === Worker Thread for Whisper + Ollama ===
+class WhisperWorker(QThread):
+    finished = pyqtSignal(str)
+
+    def run(self):
+        try:
+            # Whisper ausführen
+            whisper_cmd = [
+                CONFIGURATION["whisper_path"],
+                "-m", CURRENT_PRESET["whisper_model"],
+                "-f", CONFIGURATION["audio_file"],
+                "-l", CURRENT_PRESET["language"],
+                "-otxt",
+                "-of", CONFIGURATION["output_file"].replace(".txt", "")
+            ]
+            subprocess.run(whisper_cmd, check=True)
+            with open(CONFIGURATION["output_file"], "r") as f:
+                raw_result = f.read().strip().replace("\n", " ")
+            print("Whisper Transkript erhalten.")
+
+            # --- An Ollama schicken ---
+            payload = {
+                "model": CURRENT_PRESET["ollama_model"],
+                "prompt": CURRENT_PRESET["ollama_prompt"] + raw_result,
+                "stream": False
+            }
+            ollama_endpoint = f"{CONFIGURATION['ollama_url']}:{CONFIGURATION['ollama_port']}/api/generate"
+            response = requests.post(ollama_endpoint, json=payload)
+            response.raise_for_status()
+            formatted_result = response.json().get("response", "").strip()
+            formatted_result = "\n".join(line.strip() for line in formatted_result.splitlines())
+            print("Ollama Antwort erhalten.")
+
+            # Ergebnis ins Clipboard kopieren
+            subprocess.run(["wl-copy"], input=formatted_result.encode(), check=True)
+            notify("Spracherkennung", "Transkription abgeschlossen!")
+            self.finished.emit(formatted_result)
+
+        except Exception as e:
+            notify("Fehler", "Ein Fehler ist aufgetreten!")
+            print(f"Fehler: {e}")
+
+# === Socket Listener Thread ===
+class SocketListener(threading.Thread):
+    def __init__(self, tray_app):
+        super().__init__(daemon=True)
+        self.tray_app = tray_app
+        if os.path.exists(CONFIGURATION["socket_path"]):
+            os.remove(CONFIGURATION["socket_path"])
+        self.sock = socket.socket(socket.AF_UNIX, socket.SOCK_STREAM)
+        self.sock.bind(CONFIGURATION["socket_path"])
+        os.chmod(CONFIGURATION["socket_path"], 0o666)
+        self.sock.listen(1)
+
+    def run(self):
+        while True:
+            conn, _ = self.sock.accept()
+            with conn:
+                data = conn.recv(1024).decode().strip()
+                if data == "toggle":
+                    self.tray_app.toggle_recording()
+                elif data == "start":
+                    self.tray_app.start_recording()
+                elif data == "stop":
+                    self.tray_app.stop_recording_if_possible()
+
+# === Tray Application ===
+class TrayApp:
+    def __init__(self):
+        self.app = QApplication(sys.argv)
+        self.tray = QSystemTrayIcon(QIcon.fromTheme("audio-input-microphone"))
+        self.menu = QMenu()
+
+        self.app.aboutToQuit.connect(self.cleanup)
+
+        # Preset Menü
+        self.preset_actions = []
+        self.preset_group = QMenu("Presets")
+        for i, preset in enumerate(CONFIGURATION["presets"]):
+            action = QAction(preset["name"], self.menu, checkable=True)
+            if i == 0:
+                action.setChecked(True)
+            action.triggered.connect(lambda checked, index=i: self.set_preset(index))
+            self.preset_group.addAction(action)
+            self.preset_actions.append(action)
+        self.menu.addMenu(self.preset_group)
+
+        # Quit
+        self.quit_action = QAction("Beenden")
+        self.quit_action.triggered.connect(self.app.quit)
+        self.menu.addAction(self.quit_action)
+
+        self.tray.setContextMenu(self.menu)
+        self.tray.setToolTip("Voice to Text")
+        self.tray.show()
+
+        self.recording_process = None
+
+        self.socket_listener = SocketListener(self)
+        self.socket_listener.start()
+
+    def set_preset(self, index):
+        global CURRENT_PRESET
+        print(f"Preset gewechselt: {CONFIGURATION['presets'][index]['name']}")
+        CURRENT_PRESET = CONFIGURATION["presets"][index]
+        # Nur einer darf gecheckt sein
+        for i, action in enumerate(self.preset_actions):
+            action.setChecked(i == index)
+
+    def start_recording(self):
+        if self.recording_process is None:
+            print("Starte Aufnahme...")
+            self.recording_process = subprocess.Popen([
+                "ffmpeg", "-f", "pulse", "-i", "default", "-ar", "16000",
+                "-ac", "1", CONFIGURATION["audio_file"], "-y", "-loglevel", "quiet"
+            ])
+            notify("Aufnahme", "Aufnahme gestartet!")
+
+    def stop_recording_if_possible(self):
+        if self.recording_process:
+            print("Stoppe Aufnahme...")
+            self.recording_process.terminate()
+            self.recording_process.wait()
+            self.recording_process = None
+            notify("Aufnahme", "Aufnahme beendet, verarbeite...")
+            self.start_whisper_worker()
+
+    def toggle_recording(self):
+        if self.recording_process:
+            self.stop_recording_if_possible()
+        else:
+            self.start_recording()
+
+    def start_whisper_worker(self):
+        self.worker = WhisperWorker()
+        self.worker.finished.connect(self.show_result)
+        self.worker.start()
+
+    def show_result(self, text):
+        print(f"Fertig:\n{text}")
+
+    def cleanup(self):
+        if os.path.exists(CONFIGURATION["socket_path"]):
+            os.remove(CONFIGURATION["socket_path"])
+        print("Socket sauber entfernt.")
+
+    def run(self):
+        sys.exit(self.app.exec_())
+
+if __name__ == "__main__":
+    TrayApp().run()