SFM A1.1
SFM A1.1
Primary data is data not available, data collected from surveys, survey questions at the
time of use. Primary data is objective and reliable rather than secondary data. (Anderson
et al., 2018).
In statistical research, there are two types of primary data: observational data and
empirical data. In observational studies, researchers frequently collect data for analysis
via public surveys or opinion polls in order to observe the event in its most natural state.
Meanwhile, experimental data were collected under controlled conditions, providing the
researcher with additional information.
Anderson et al. (2018) define secondary data is available data that has previously been
gathered from primary sources and made easily accessible for academics to use for their
own research is known as secondary data. It is a category of information that has
previously been gathered.
Advantages (Anderson et al., 2018) Disadvantages (Anderson et al., 2018)
Help researcher save time, money and The data could be false or poor quality
access to primary data simply
Provide background information that Dtaa that is no longer relevant to the
suitable recommendation for future current situation may be consider obsolete
research
Unsuitable for conducting research on a
specific topic
Organize interviews
This approach is quick and simple for researchers, requiring only a small group of
willing individuals and a few carefully written interview questions. To gather more
information, the interview question can be broadened. However, extraneous data from
the interview forces researchers to spend additional time refining the response.
Observation
Researchers will pay attention to people's behaviors and occurrences, adding their own
interpretations and ideas. Researchers do not need to pose questions while using this
technique. However, as it is a person's point of view, the facts could be affected by other
factors, making them seem more plausible in this context.
Survey and Questionnaire.
A questionnaire will be created by the researchers and given to participants in print or
online. This method enables scientists to test early theories because of the enormous
amount of data they have collected. The researcher must select clear, topic-related
questionnaire questions in order to get pertinent data.
Focus groups.
A group of persons with significant expertise and experience in the area of their study
will be the topic of the researchers' observations and interviews. The level of knowledge
of the responders, however, has a significant impact on the quality of the data produced
by this technique.Methods for analyzing data.
Statistics
Is the property In what floors the
The type of property Funished or not property is?
N Valid 501 501 501
Missing 0 0 0
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
The price of property 501 33000 35000000 323888 4153433.298
8.38
Number of bedrooms 501 1 10 2.68 1.109
Number of bathrooms 501 1 8 2.16 1.085
The Area of the 499 35 900 147.11 102.862
property by m2
Valid N (listwise) 499
Đối với các dự liệu đinh lượng: số phòng tắm, số phòng ngủ, giá của tài sản và diện tích.
Theo như bảng thống kê số liệu, có thể thấy rằng mục Diện tích của tài sản có 2 dữ liệu
không hiển thị. Đó là missing value và sẽ được thay thế bằng SMEAN và ra cột diện tích
mới là Area_1
Result Variables
N of Case Number of Non-
Replaced Missing Values
Result Missing N of Valid Creating
Variable Values First Last Cases Function
1 Area_1 2 1 501 501 SMEAN(Are
a)
b. Oulier
Xét các giá trị outliers của 4 biến định lượng: giá của nhà, số lượng phòng ngủ, số lượng phòng tắm
và diện tích căn. Bởi vì mỗi biến có đơn vị tịnh khác nhau nên không thể vẽ chung 1 biểu đồ 4
boxplot. Từ đó , có 4 biểu đồ boxplot dưới đay, tương đương với 4 biến.
2. Recode:
Do số liệu ở mục “Tài sản ở tầng nào” lộn xộn nên sẽ được sắp xếp để trông gọn gàng
và thuận tiện cho việc phân tích thông kê. Theo đề bài, group 1 bao gồm ground, 1 và 2.
Các giá trị còn lại sẽ thuộc group 2. Và mục tổng hợp này được đặt tên là
“Level_group”. Do ở mục này không có giá trị bị thiếu nên sẽ có: 421 giá trị thuộc
nhóm 1 và 80 giá trị thuộc nhóm 2. Được thống kê ở bảng dưới đây:
Group
Level by group 1,2
Cumulative
Frequency Percent Valid Percent Percent
Valid 1 421 84.0 84.0 84.0
2 80 16.0 16.0 100.0
Total 501 100.0 100.0
The type of property
The type of property
Cumulative
Frequency Percent Valid Percent Percent
Valid No 252 50.3 50.3 50.3
Yes 249 49.7 49.7 100.0
Total 501 100.0 100.0
Theo như bảng thống kê và biểu đồ tròn ở trên, dễ thầy số lượng nhà có trang bị nội thật
và không có nội thật là gần bằng nhau. Số lượng nhà có trang bị nội thất có 249 quan
sát, chiếm 49.7%. Và còn lại 50.3% với 252 quan sát là nhà thô, chưa có nội thất bên
trong.
Number of bedrooms
Cumulative
Frequency Percent Valid Percent Percent
Valid 1 52 10.4 10.4 10.4
2 169 33.7 33.7 44.1
3 214 42.7 42.7 86.8
4 41 8.2 8.2 95.0
5 12 2.4 2.4 97.4
6 6 1.2 1.2 98.6
7 6 1.2 1.2 99.8
10 1 .2 .2 100.0
Total 501 100.0 100.0
Đối với số phòng ngủ trong mỗi căn nhà. Từ bảng thống kê và biểu đồ cột trên, ta thấy
rằng đa số các căn nhà có 3 phòng, có 214/501 quan sát, chiếm 42.7%. Có 169 quan sát
có 2 phòng ngủ, chiếm 33.7%.
Số căn nhà có 1 phòng ngủ là 52/501 quan sát và chiêms 10.4%. Còn lại các quan sát có
4,5,6,7 phòng ngủ có tỉ lệ dưới 10%. Chỉ có duy nhất 1 quan sát có 10 phòng ngủ, chiếm
0.2%.
Number of bathrooms
Cumulative
Frequency Percent Valid Percent Percent
Valid 1 120 24.0 24.0 24.0
2 260 51.9 51.9 75.8
3 75 15.0 15.0 90.8
4 27 5.4 5.4 96.2
5 10 2.0 2.0 98.2
6 3 .6 .6 98.8
7 5 1.0 1.0 99.8
8 1 .2 .2 100.0
Total 501 100.0 100.0
Từ biểu đồ thanh và bảng tần suất ở trên cho thấy số lượng nhà có 2 phòng tắm chiếm tỉ
lệ cao nhất là 51.9%, tương đương với 260 quan sát. Con số này gấp hơn 2 lần số lượng
nhà có 1 phòng tắm và gấp hơn 3 lần số lượng nhà có 3 phòng tắm. Số lương nhà có
4,5,6,7 phòng tắm chiếm dưới 10%. Cũng chỉ có duy nhất 1 căn nhà tương đương với 1
quan sát có 8 phòng tắm, chiếm 0.2%. Có thể đây là quan sát có 10 phòng ngủ ở trên.
Descriptive Statistics
Std.
N Range Minimum Maximum Mean Deviation Variance Skewness
Std.
Statistic Statistic Statistic Statistic Statistic Statistic Statistic Statistic Error
The price of 501 34967000 33000 35000000 3238888.3 4153433.29 172510081 4.144 .109
property 8 8 60980.285
The Area of the 499 865 35 900 147.11 102.862 10580.539 3.583 .109
property by m2
Valid N 499
(listwise)
Price
Theo thống kê trong bảng trên, giá nhà trung bình trong tổng số là £3238888.38, với giá
cao nhất là £35000000 và thấp nhất là £33000. Do đó, phạm vi giá là 34967000. Khoảng
4153433.298 là độ lệch chuẩn. Dựa vào biểu đồ, giá trị độ lệch của 4.144 cho thấy dữ
liệu thực sự không được trải đều và bị lệch sang phải
Area
Từ những thông tin thu được trong bảng trên, có thể dễ dàng nhận thấy diện tích lớn
nhất của mội ngôi nhà là 900 m2, và số diện tích nhỏ nhất là 35 m 2, với giá trị trung bình
diện tích là khoảng 147.1. Độ lệch chuẩn của diện tích là 102.862m 2 và phạm vi kích
thước là 865m2. Biểu đồ trên cho thấy giá giá trị độ lệch của 3.583 chỉ ra rằng dữ liệu
không được phân phối bằng nhau và có độ lệch phải.
4. Explore the dependence of price on remaining variables:
Correlations
The Area of the property by
The price of property m2
The price of Pearson Correlation 1 .711**
property Sig. (2-tailed) .000
N 501 499
The Area of the Pearson Correlation .711** 1
property by m2 Sig. (2-tailed) .000
N 499 499
**. Correlation is significant at the 0.01 level (2-tailed).
Theo bảng tương quan giữa giá và diện tích ở trên, nó cho thấy mối tương quan giữa
kích thước và giá là 0.711. Con số này cho thấy mối quan hệ rất tích cực. Thang đo này
nằm trong khoảng từ 0.7 đến 0.9 dẫn đến mối quan hệ rất tích cực giữa 2 biến. Tóm lại,
mối quan hệ của hai biến số gần gũi và có tác động lẫn nhau, cụ thể, nếu kích thước tăng
thì giá nhà sẽ tăng và ngược lại.
abc
The relationship betwenn Price and number of Bedrooms
Correlations
The price of property Number of bathrooms
The price of Pearson Correlation 1 .643**
property Sig. (2-tailed) .000
N 501 501
Number of Pearson Correlation .643** 1
bathrooms Sig. (2-tailed) .000
N 501 501
**. Correlation is significant at the 0.01 level (2-tailed).
Theo biểu đồ Scatter và bảng hệ số tương quan, dễ thấy Giá cả và Số phòng có giá trị
tương quan là 0,643, điều này cho thấy có mối liên hệ tích cực giữa hai yếu tố này. Do
thực tế là thang đo này nằm trong khoảng từ 0,5 đến 0,7, nên có một mối liên hệ giữa hai
biến này có thể được mô tả là trung bình. Tóm lại, liên kết giữa hai biến có ảnh hưởng
lẫn nhau; tuy nhiên, tác động đó chỉ ở mức khiêm tốn và các biến không ảnh hưởng đến
nhau quá mức.
abc
For Price and qualitative variables
Level_group
PHÂN TÍCH CÁI NÀYYYYYYYYYY
Correlations
Level by group 1,2 The price of property
Level by group 1,2 Pearson Correlation 1 -.023
Sig. (2-tailed) .601
N 501 501
The price of Pearson Correlation -.023 1
property Sig. (2-tailed) .601
N 501 501
5. The justification for choosing particular modes of communication.
Graphs, charts, and diagrams are often used as successful communication tools due to their
ability to communicate data in an orderly, comprehensible fashion. Each variable's
characteristics will determine the optimal mode of interaction for conveying information.
Frequency tables and bar charts will be utilized to analyze qualitative factors. Though
frequency tables are helpful for displaying how data is distributed within a category, they fall
short when a rapid examination is required. Because of this, comparisons will be made using
bar and pie charts. Cluster bar charts let analysts spot patterns more readily than pie charts,
which display information as a percentage of categories, column widths, or other scalar
measurements. The quantitative factors will be analyzed using tables and charts. Tables
and correlation tables show the most comprehensive presentation of data from several
variables, including metrics such as correlation, mean, variance, minimum, and maximum, all
in a single table. Scatter plots are employed when it is absolutely necessary to investigate the
connection between two quantitative variables, since the placement of the dots can reveal the
trend of both variables.
There are advantages and disadvantages to every kind of communication, so it's important to
evaluate them rationally.
6. Examine graphs and tables to convey information.
Data analysis requires weighing the benefits and drawbacks of various chart and table formats.
Because frequency tables make the distribution of data so clear, they are commonly employed
for the analysis of qualitative variables. However, it has a fundamental weakness in that it
relies on charts to assist express the significance of each option in the variable. Thus, pie charts
should only be used when there are five or less components, as they become too confusing
when there are too many options of the same size and proportion. This means that bar charts
can be used instead of pie charts when the number of distinct values in the variable is too large
to fit in the former. The analyst may quickly and readily compare data by looking at the relative
heights of the bars. Cross-tabulation and clustered bar graphs will be used to describe two
qualitative variables in order to offer an overview of the data patterns.
Quantitative data is better described using a table. It allows for the display of several
variables in tables and provides unambiguous numerical data for the variables, such as standard
deviation, average, and range, simplifying analysis. Additionally, the correlation between the
two numerical variables is assessed using both a scatter plot and a set of correlates tables.
Scatter plots are useful, but a correlation table is necessary for a more in-depth analysis. A
negative or positive, strong or weak, and consistent association between the variables may be
ascertained by examining the data provided by the correlation table.
Part C
1. T-Test
a. T-test compare to price of houses which are furnished and unfurnished
Group Statistics
Is the property
Funished or not N Mean Std. Deviation Std. Error Mean
The price of No 252 3043208.7659 3483084.39790 219413.69315
property
Yes 249 3436925.5703 4735328.91376 300089.27669
Coding: No = 0; Yes = 1
In this part, we test the Equality of Variances:
Using hypothesis testing, specially H0: σ 21=σ 22 and H1: σ 21 ≠ σ 22
This part we assume α = 5% = 0.05
In the output table, with F= 6,332 we can see that P_value = 0,012
Sig. (F) < alpha
0.012 < 0.05
Reject H0 Choose H1: σ 21 ≠ σ 22
Variances are unequal. Since H0 is rejected, there is no difference in the two variables. So
use the data from “Equal variances not assumed”
{ H 0: μ 1=μ 2
H 1 : μ1 ≠ μ2
with T Stat = -1,059
Therefore, the sig. (2-tailed) of this row is 0,290 higher than α = 0,05.
So, we have to do not reject H0 and to choose H0: μ1=μ2
With the level of significance is 5%, the mean of population of the Price of houses which
are furnished and unfurnished is equal.
There is no significant difference in the mean of these two values. This shows that the
furniture houses and unfunished houses does not affect the price. According to the statistics
table above, The unfurnished house is 3043208.7659 and the furnished house is
3436925.5703. There is no difference in price and almost no difference.
b. T-test compare to price of houses which are Level_group
Group Statistics
{
2 2
H 0: σ 1=σ 2
Using hypothesis testing:
H 1 :σ 21 ≠ σ 22
{ H 0is μ1=μ2
H 1=μ1 ≠ μ2
with T Stat = 0,523
Therefore, the sig. (2-tailed) of this row is 0,601 higher than α = 0,05.
We have to not reject H0 and to choose H0: μ1=μ2
At the 5% level of significance, the population mean of Housing Price and Level_group
There is no significant difference in the mean of these two values. This shows which floor
housing has no effect on the price. According to the above statistics table, the average house
price in group 1 ( including Ground, 1 and 2) is 3281217.5226 and the average house price
in group 2 (including the remaining floors) is 3016131.2375. There is no difference in price
and almost no difference.
2. Regression model evaluation
Model Summary
Std. Error of the
Model R R Square Adjusted R Square Estimate
a
1 .732 .537 .532 2838573.09303
a. Predictors: (Constant), Funished-dum, Number of bedrooms, Level by group 1,2, The Area of the
property by m2, Number of bathrooms
Dum – Funished_dum
Level_group – Level by group 1,2
The percentage change in price is explained by all the independent variables.
The dependent variables R - squared and Modified R Square show that the independent
variables Bedrooms, Bathrooms, Area, Furnished_dum and Level by group 1,2 affect Price by
53.7% and 53.2%, respectively.
ANOVAa
In this section, we will apply hypothesis testing based on the ANOVA table; more precisely,
H0 will serve as the model of overall insignificance, while H1 will serve as the model of
overall significance.
With α = 0.05, according to the table, sig. = 0.000 is less than α, so Reject H0 and conclude
that the model has overall significance.
Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -1179434.902 522684.194 -2.256 .024