PEMBUATAN LANSKAP FANTASI BERBASIS DIFFUSION MODELS DENGAN FINE-TUNING LOW-RANK ADAPTATION (LORA)

Authors

  • Tsabit Gholib Universitas Islam Sultan Agung
  • Sri Mulyono Universitas Islam Sultan Agung

DOI:

https://doi.org/10.70248/jrsit.v2i3.1883

Keywords:

Diffusion Models, Stable Diffusion, Fine-Tuning, Low-Rank Adaptation, Lanskap Fantasi

Abstract

Penelitian ini bertujuan untuk mengembangkan model generatif berbasis diffusion models dalam menghasilkan gambar lanskap fantasi dari deskripsi teks. Metode penelitian yang digunakan meliputi studi literatur, pengumpulan dataset, preprocessing dataset, pelatihan model, serta pengujian dan evaluasi model. Studi literatur dilakukan untuk memahami konsep diffusion models, pemetaan teks ke gambar, serta teknik fine-tuning yang relevan. Pengumpulan dataset mencakup akuisisi gambar lanskap fantasi dari berbagai sumber daring, serta proses captioning untuk menghubungkan gambar dengan deskripsi teks. Dataset kemudian dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian. Tahap preprocessing dataset mencakup berbagai teknik augmentasi seperti resize, random resized crop, horizontal flip, color jitter, dan normalization untuk meningkatkan variasi serta kualitas data pelatihan. Model Stable Diffusion 2.1 digunakan sebagai dasar pengembangan, dengan fine-tuning menggunakan Low-Rank Adaptation (LoRA) untuk meningkatkan efisiensi komputasi dan adaptasi terhadap dataset spesifik. Evaluasi model dilakukan menggunakan metrik kuantitatif seperti CLIP-MMD dan FID, serta penilaian kualitatif berbasis analisis visual. Hasil penelitian menunjukkan bahwa model yang telah dilatih mampu menghasilkan gambar lanskap fantasi yang sesuai dengan deskripsi teks, dengan peningkatan akurasi dan detail visual dibandingkan model dasar. Teknik LoRA terbukti efektif dalam meningkatkan spesifikasi visual dengan efisiensi komputasi yang lebih baik. Simpulan, penelitian ini memberikan kontribusi dalam pengembangan model generatif yang lebih adaptif untuk aplikasi text-to-image, khususnya dalam pembuatan lanskap fantasi.

Kata Kunci: Diffusion Models, Stable Diffusion, Fine-Tuning, Lora, Text-To-Image, Lanskap Fantasi

References

Afshar, S. V., Eshaghi, S., & Kim, I. (2022). Pattern Analysis of Virtual Landscape within Educational Games. Journal of Digital Landscape Architecture, 2022(7), 435–442. https://doi.org/10.14627/537724042

Agung, A., Daniswara, A., Kadek, I., & Nuryana, D. (2023). Data Preprocessing Pola Pada Penilaian Mahasiswa Program Profesi Guru. Journal of Informatics and Computer Science, 05, 97–100.

Awards, T. G. (2024). Game of the Year. Https://Thegameawards.Com/.

Bahia, A. B. (2023). Game Design At the Art Museum: the Nubla Case of Educathyssen. Heranca - History, Heritage and Culture Journal, 6(1), 53–68. https://doi.org/10.29073/heranca.v6i1.681

Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., Jampani, V., & Rombach, R. (2023). Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets.

Chenshuang Zhang, Chaoning Zhang, Mengchun Zhang, I. S. K. (2024). A Survey of Text-to-Image Diffusion Models in Generative AI. Proceedings of the 14th International Conference on Cloud Computing, Data Science and Engineering, Confluence 2024, 14(8), 73–78. https://doi.org/10.1109/Confluence60223.2024.10463372

Doshi, A. (2024). The Loss in AI Translation. Computational Linguistics, August, 0–26.

Gao, R., Liu, F., Zhang, J., Han, B., Liu, T., Niu, G., & Sugiyama, M. (2021). Maximum Mean Discrepancy Test is Aware of Adversarial Attacks. Proceedings of Machine Learning Research, 139(Mmd), 3564–3575.

Howarth, J. (2024). How Many Gamers Are There? (New 2024 Statistics). EXploding Topics.

Jayasumana, S., Ramalingam, S., Veit, A., Glasner, D., Chakrabarti, A., & Kumar, S. (2023). Rethinking FID: Towards a Better Evaluation Metric for Image Generation. https://doi.org/10.1109/CVPR52733.2024.00889

Jin, Z., & Song, Z. (2023). Generating coherent comic with rich story using ChatGPT and Stable Diffusion.

Kwon, Y., Wu, E., Wu, K., & Zou, J. (2024). Datainf: Efficiently Estimating Data Influence in Lora-Tuned Llms and Diffusion Models. 12th International Conference on Learning Representations, ICLR 2024.

Luo, Z., Xu, X., Liu, F., Koh, Y. S., Wang, D., & Zhang, J. (2024). Privacy-Preserving Low-Rank Adaptation for Latent Diffusion Models. 1–19.

Mehrafrooz, B. (2024). 10 Most Common Challenges of Designing Great Game Environments. Pixune.Com.

Peng, Y. (2024). A Comparative Analysis Between GAN and Diffusion Models in Image Generation. Transactions on Computer Science and Intelligent Systems Research, 5(D), 189–195. https://doi.org/10.62051/0f1va465

Pradana, A. G., Setiadi, D. R. I. M., & Muslikh, A. R. (2024). Fine tuning model Convolutional Neural Network EfficientNet-B4 dengan augmentasi data untuk klasifikasi penyakit kakao. Journal of Information System and Application Development, 2(1), 01–11. https://doi.org/10.26905/jisad.v2i1.11899

Purwanto, H., Fandi, F., & Imaniawan, D. (2024). Klasifikasi Tingkat Retensi Pemain Video Game Online. 4(2), 75–82.

Putra, F., Tahiyat, H. F., Ihsan, R. M., Rahmaddeni, R., & Efrizoni, L. (2024). Penerapan Algoritma K-Nearest Neighbor Menggunakan Wrapper Sebagai Preprocessing untuk Penentuan Keterangan Berat Badan Manusia. MALCOM: Indonesian Journal of Machine Learning and Computer Science, 4(1), 273–281. https://doi.org/10.57152/malcom.v4i1.1085

Valvano, G., Agostino, A., De Magistris, G., Graziano, A., & Veneri, G. (2024). Controllable Image Synthesis of Industrial Data using Stable Diffusion. Proceedings - 2024 IEEE Winter Conference on Applications of Computer Vision, WACV 2024, 5342–5351. https://doi.org/10.1109/WACV57701.2024.00527

Wallis, P. (n.d.). LORA: Low-Rank Adaptation Of Large Language Models. 1–26.

Wang, W., Sun, Y., Yang, Z., Hu, Z., Tan, Z., & Yang, Y. (2024). Replication in Visual Diffusion Models: A Survey and Outlook. 1–20.

Yu, Y., Zhang, W., & Deng, Y. (2021). Frechet inception distance (fid) for evaluating gans. Researchgate.Net, September, 1–7.

Zhou, Y., Zhang, R., Chen, C., Li, C., Tensmeyer, C., Yu, T., Gu, J., & Xu, J. (n.d.). Towards Language-Free Training for Text-to-Image Generation. 17907–17917.

Downloads

Published

2025-02-12

How to Cite

Gholib, T., & Mulyono, S. (2025). PEMBUATAN LANSKAP FANTASI BERBASIS DIFFUSION MODELS DENGAN FINE-TUNING LOW-RANK ADAPTATION (LORA). Jurnal Rekayasa Sistem Informasi Dan Teknologi, 2(3), 961–972. https://doi.org/10.70248/jrsit.v2i3.1883

Issue

Section

Artikel