Các đặc trưng cơ bản của âm thanh có thể bạn chưa biết

Âm thanh là gì?

Âm thanh là các dao động cơ học (biến đổi vị trí qua lại) của các phân tử, nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như các sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ  vận tốc lan truyền (tốc độ âm thanh).

cac-dac-trung-co-ban-cua-am-thanh-co-the-ban-chua-biet


Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz đến khoảng 20000 Hz, của các phân tử không khí, và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não. Tuy nhiên âm thanh có thể được định nghĩa rộng hơn, tuỳ vào ứng dụng, bao gồm các tần số cao hơn hay thấp hơn tần số mà tai người có thể nghe thấy, không chỉ lan truyền trong không khí mà còn truyền trong bất cứ vật liệu nào. Trong định nghĩa rộng này, âm thanh là sóng cơ học và theo lưỡng tính sóng hạt của vật chất, sóng này cũng có thể coi là dòng lan truyền của các hạt phonon, các hạt lượng tử của âm thanh.

Cả tiếng ồn  âm nhạc, âm thanh sân khấu đều là các âm thanh. Trong việc truyền tín hiệu bằng âm thanh, tiếng ồn là các dao động ngẫu nhiên không mang tín hiệu.

Các đặc trưng cơ bản của âm thanh

cac-dac-trung-co-ban-cua-am-thanh-co-the-ban-chua-biet


Khi tiến hành phân tích các đặc trưng của tín hiệu âm thanh, chúng ta thường áp dụng các phương pháp phân tích ngắn hạn, bởi vì hầu hết các tín hiệu âm thanh ổn định nhiều hoặc ít hơn trong khoảng thời gian ngắn, khoảng 20ms. Khi thực hiện phân khung, có thể sử dụng nhiều khung chồng lấp để nắm bắt sự thay đổi tinh thế của tín hiệu âm thanh. Lưu ý rằng mỗi khung là mọt đơn vị cơ bản để phân tích tín hiệu âm thanh. Trong mỗi khung, chúng ta có thể quan sát ba tính năng âm học khác biệt nhất, như:

  • Âm lượng (Volume): tính năng này đại diện cho độ lớn (loudness) của tín hiệu âm thanh, tương quan với biên độ của tín hiệu. Thỉnh thoảng, nó cũng được đề cập đến như năng lượng hoặc cường độ của tín hiệu âm thanh.
  • Độ cao (Pitch): tính năng này đại diện cho tỷ lệ rung của tín hiệu âm thanh, mà có thể biểu diễn bởi tần số cơ bản hoặc tương đương, nghịch đảo của chu kỳ cơ bản của tín hiệu tiếng nói.
  • Âm sắc (Timbre): đặc trưng này đại diện cho nội dung ngữ nghĩa (chẳng hạn một nguyên âm trong tiếng Việt) của tín hiệu âm thanh, mà được đặc trưng bởi dạng sóng trong một chu kỳ cơ bản của tín hiệu tiếng nói.

Lấy tiếng nói người làm ví dụ, ba tính năng trên liên quan đến một vài đặc điểm vật lý:

  • Âm lượng: liên quan đến độ nén của phổi. Âm lượng cao của tín hiệu tương ứng với độ nén lớn.
  • Cao độ: liên quan đến tần số rung của dây thanh âm. Cao độ càng cao tương ứng với tần số rung lớn.
  • Âm sắc: liên quan đến vị trí và hình dạng của môi và lưỡi. Âm sắc khác nhau tương ứng với vị trí và hình dạng khác nhau của môi và lưỡi.

Chúng ta sẽ giải thích các phương pháp để trích các đặc tính âm học này trong một chương khác. Cần lưu ý rằng, các đặc tính này hầu hết phù hợp với sự nhận thức (perception) của người. Do đó không thể biểu diễn chính xác bởi các công thức hoặc đại lượng toán học. Tuy nhiên, chúng ta sẽ cố gắng “lượng hóa” (quantitify) những đặc tính này để phân tích dựa trên máy tính với hi vọng sử dụng công thức hoặc các đại lượng có thể giả lập sự nhận thức của người rõ ràng nhất có thể.

cac-dac-trung-co-ban-cua-am-thanh-co-the-ban-chua-biet


Hướng tiếp cận cơ bản để trích đặc trưng âm thanh có thể được tổng hợp như sau:

  1. Thực hiện phân khung, chẳng hạn một luồng của tín hiệu âm thanh được chuyển thành tập các khung tín hiệu. Độ dài thời gian cho mỗi khung khoảng 20~30ms. Nếu thời gian khung quá lớn, chúng ta không thể nắm bắt các đặc điểm khác nhau theo thời gian của tín hiệu. Ngược lại, nếu thời gian khung quá nhỏ, thì chúng ta không thể rút trích các đặc trưng hợp lệ hoặc có giá trị. Nói chung, một khung tín hiệu cần chứa vài chu kỳ cơ bản của tín hiệu âm thanh nhất định, thường kích thước của khung bằng với mũ cơ số 2 (chẳng hạn 256, 512, 1024..) như vậy có khả năng để biến đổi Fourier nhanh.
  2. Nếu chúng ta muốn giảm bớt sự khác biệt giữa các khung lân cận, chúng ta có thể sử dụng các khung chồng lấp nhau, thường thực hiện chồng lấp ½ hoặc 2/3 của khung tín hiệu gốc. Khung chồng lắp nhiều, yêu cầu tính toán cũng nhiều hơn.
  3. Giả sử các tín hiệu âm thanh trong một khung là không thay đổi, chúng ta có thể trích các đặc trưng chẳng hạn như tỷ lệ điểm qua zero, âm lượng, cao độ, MFCC, LPC,…
  4. Chúng ta có thể thực hiện phát hiện điểm đầu và cuối của tín hiệu dựa tỷ lệ điểm qua zero và âm lượng, và giữ lại các khung tín hiệu có tiếng nói để phân tích về sau.

Khi thực hiện các bước trên, một vài thuật ngữ thường sử dụng:

  • Kích thước khung (frame size): số điểm mẫu trong mỗi khung.
  • Chồng lấp khung (frame overlap): số điểm mẫu chồng lấp giữa các khung liên tiếp.
  • Bước khung (hoặc kích thước hop): bằng với kích thước khung trừ đi khoảng chồng lấp.
  • Tỷ lệ khung (frame rate): số các khung trên một giây, bằng với tần số mẫu chia cho bước khung.

Ví dụ, nếu chúng ta có file âm thanh với tần số mẫu fs=16000 và thời gian một khung 25ms, thời gian chồng lấp 15ms, ta có:

  • Kích thước khung = fs*25/1000=400 (điểm mẫu)
  • Khung chồng lấp = fs*15/1000=240 (điểm mẫu).
  • Bước khung = 400-240 = 160 (điểm mẫu).
  • Tỷ lệ khung = fs/160 = 100 frame /giây.

Trên đây là các đặc tinh cơ bản của âm thanh mà bạn có thể tham khảo, Hi vọng bài viết này có ích cho bạn. Điện Máy Ruby chuyên cung cấp các mặt hàng âm thanh sân khấu chính hãng với giá cực ưu đãi, gọi ngay 0909 377 416 - 093 888 4126 để nhận ưu đãi từ chúng tôi.

Bài viết cùng danh mục: